اتخذت شركة IBM خطوة مهمة في شهر مايو ، حيث أعلنت المصدر المفتوح لنموذج اللغة Granite13b الكبير (LLM) لسيناريوهات تطبيق المؤسسة. لا توضح هذه الخطوة موقع IBM الرئيسي في مجال الذكاء الاصطناعي فحسب ، بل يوفر أيضًا لمستخدمي المؤسسة أدوات قوية لمساعدتهم على التعامل بشكل أفضل مع احتياجات العمل المعقدة. في الآونة الأخيرة ، كشف أرماند رويز ، نائب رئيس المنتج في IBM AI ، عن مجموعة البيانات الكاملة المستخدمة لتدريب Granite13b.

تجدر الإشارة إلى أن مجموعة البيانات الضخمة هذه قد تمت معالجتها مسبقًا وتخفيضها إلى 2.07 تيرابايت ، وهي تخفيض بنسبة 68 ٪. أكد Ruiz عند نشر البيانات التي تشير إلى أن خطوة المعالجة المسبقة هذه أمر بالغ الأهمية لضمان المتطلبات عالية الجودة وغير المتحيزة والأخلاقية والقانونية لمجموعة البيانات. تتمتع سيناريوهات تطبيق المؤسسة بمتطلبات عالية للغاية لدقة البيانات وموثوقيتها ، لذلك استثمرت IBM الكثير من الموارد في هذه العملية لضمان أن مجموعة البيانات النهائية يمكن أن تلبي هذه الاحتياجات.
تحتوي مجموعة البيانات على مجموعة واسعة من مصادر المحتوى وتغطي بيانات موثوقة في حقول متعددة. وتشمل هذه أكثر من 2.4 مليون ورقة علمية مسبقة من Arxiv ، والزحف الشبكة المفتوحة لل Crawl ، و DeepMind Mathematics Q&A. بالإضافة إلى ذلك ، تحتوي مجموعة البيانات على قانون مجاني من محاكم الولايات المتحدة ، وبيانات كود Clean Github المقدمة من CodeParrot ، وعلوم الكمبيوتر Hacker News وأخبار رجل الأعمال من 2007 إلى 2018.
تشمل مصادر البيانات المهمة الأخرى نص OpenWeb (إصدار مفتوح المصدر من Openai Web Text Corpus) ، ومشروع Gutenberg (كتاب إلكتروني مجاني يركز على العمل المبكر) ، وأوراق PubMed Central الطبية الحيوية وعلوم الحياة ، ولجنة الأوراق المالية والبورصة الأمريكية ( SEC) 10-K/Q التقديمات (1934-2022). بالإضافة إلى ذلك ، تشتمل مجموعة البيانات على محتوى تم توزيعه على المستخدم على شبكة Exchange Stack Network ، وبراءات الاختراع الأمريكية (USPTOS) الممنوحة بين عامي 1975 ومايو 2023 ، ومحتوى الويب غير المهيكلة المقدم من Webhose ، والمحتوى من ثمانية مشاريع ويكيميديا الإنجليزية.
خلال عملية المعالجة المسبقة ، اعتمدت IBM مجموعة متنوعة من الوسائل الفنية ، بما في ذلك استخراج النص ، والتعرف على اللغة ، وتجزئة الجملة ، ووضع العلامات على الكراهية ، والكلمات وأقسم. بالإضافة إلى ذلك ، يتم أيضًا تطبيق خطوات مثل شرح جودة المستندات ، وشرح إخفاء URL ، والتصفية والرمز الرمزي في مجموعة البيانات. تضمن هذه الخطوات نقاء مجموعة البيانات والجودة العالية ، مما يضع أساسًا متينًا للتدريب على النماذج.
لم تكشف IBM عن مجموعة البيانات فحسب ، بل أصدرت أيضًا أربعة إصدارات من نموذج رمز الجرانيت ، مع معلمات تتراوح من 3 مليارات إلى 34 مليار. كانت هذه النماذج أداءً جيدًا في مجموعة من المعايير وتجاوزت نماذج أخرى قابلة للمقارنة في العديد من المهام مثل Code Llama و LLAMA3. هذا الإنجاز يثبت كذلك القوة التقنية لـ IBM وقدراتها المبتكرة في مجال الذكاء الاصطناعي.
باختصار ، لا توفر سلسلة تدابير IBM أدوات قوية لمستخدمي المؤسسة فحسب ، بل تقدم أيضًا مساهمات مهمة في تطوير مجال الذكاء الاصطناعي. من خلال تعريض مجموعات البيانات عالية الجودة ونماذج الأداء الممتازة ، تقوم IBM بترويج الشعبية الواسعة النطاق لتكنولوجيا الذكاء الاصطناعى في تطبيقات المؤسسات وتمهيد الطريق للابتكار المستقبلي.