يشير أحدث تقرير صادر عن Epochai إلى أن مجموعات بيانات التدريب النصية عالية الجودة العامة في العالم سوف تستنفد بواسطة نماذج اللغات الكبيرة في السنوات القليلة المقبلة. ويتوقع التقرير أنه بين عامي 2026 و2032، سيتم استخدام البيانات الحالية التي تبلغ حوالي 300 تريليون رمز، وقد أدى "التدريب الزائد" للنموذج إلى تسريع هذه العملية. تم تدريب إصدار Meta's Llama3 8B بمعدل مذهل 100 مرة، وإذا اعتمدت جميع النماذج هذا النهج، فقد يتم استنفاد البيانات بحلول عام 2025. وفي مواجهة "نقص البيانات" القادم، اقترح إيبوكاي أربعة حلول محتملة، مما يوفر اتجاهًا جديدًا للحصول على البيانات في مجال الذكاء الاصطناعي.

وأشار الباحثون على وجه التحديد إلى أن "الإفراط في التدريب" هو السبب الرئيسي في تسريع استهلاك بيانات التدريب. على سبيل المثال، يتمتع أحدث إصدار مفتوح المصدر من Meta، Llama3، الإصدار 8B، بقدرة مذهلة على التدريب الزائد 100 مرة. إذا تصرفت جميع النماذج على هذا النحو، فقد يتعين على بياناتنا أن تقول وداعًا في عام 2025.

ولكن لا تقلق، لا يزال لدينا وسيلة. يوفر Epoch AI أربع طرق جديدة للحصول على بيانات التدريب، مما يجعل "نقص البيانات" في عالم الذكاء الاصطناعي لم يعد كابوسًا.
1) البيانات الاصطناعية: تمامًا مثل الوجبة المصنوعة من أدوات الطبخ، تستخدم البيانات الاصطناعية التعلم العميق لمحاكاة البيانات الحقيقية وإنشاء بيانات جديدة تمامًا. ولكن لا تتحمس كثيرًا في وقت مبكر جدًا؛ فقد تكون جودة البيانات الاصطناعية غير متساوية، وعرضة للتجاوز، وتفتقر إلى الميزات اللغوية الدقيقة للنص الحقيقي.
2) تعلم البيانات متعدد الوسائط وعبر المجالات: لا تقتصر هذه الطريقة على النص، ولكنها تشمل أيضًا الصور ومقاطع الفيديو والصوت وأنواع البيانات الأخرى. تمامًا كما هو الحال في KTV، لا يمكنك الغناء والرقص فحسب، بل يمكنك أيضًا التمثيل، مما يسمح للنموذج بفهم المهام المعقدة والتعامل معها بشكل أكثر شمولاً.
3) البيانات الخاصة: في الوقت الحاضر، يبلغ إجمالي كمية البيانات النصية الخاصة في العالم حوالي 3100 تريليون رمز، وهو ما يزيد عن 10 أضعاف البيانات العامة، ولكن يجب أن تكون حذرًا عند استخدام البيانات الخاصة الأمن أشياء كبيرة. علاوة على ذلك، قد تكون عملية الحصول على البيانات غير العامة ودمجها معقدة.
4) التعلم التفاعلي في الوقت الحقيقي مع العالم الحقيقي: دع النموذج يتعلم ويتحسن من خلال التفاعل المباشر مع العالم الحقيقي. يتطلب هذا النهج أن تكون النماذج مستقلة وقابلة للتكيف، وقادرة على فهم تعليمات المستخدم بدقة واتخاذ الإجراءات في العالم الحقيقي.
لكل من الطرق الأربع التي اقترحها Epochai مزاياها وعيوبها وتواجه تحديات مختلفة. في المستقبل، ستؤثر كيفية حل مشكلات البيانات بشكل فعال بشكل مباشر على تطوير وتطبيق تكنولوجيا الذكاء الاصطناعي. وهذا يتطلب من الباحثين العلميين والصناعة العمل معًا لاستكشاف طرق أكثر فعالية للحصول على البيانات واستخدامها لضمان التنمية المستدامة والصحية للذكاء الاصطناعي.