عقدت ناسا شراكة مع آي بي إم، باستخدام اتفاقية قانون الفضاء، لتطوير نموذج لغة كبير (LLM) يسمى INDUS. تم تصميم النموذج لخدمة مجالات علمية متعددة بما في ذلك علوم الأرض، والعلوم البيولوجية، والعلوم الفيزيائية، والفيزياء الشمسية، وعلوم الكواكب، والفيزياء الفلكية، ويتم تدريبه باستخدام المؤلفات العلمية المنسقة من مصادر البيانات المتنوعة. إن INDUS فريدة من نوعها في استخدامها للرموز المميزة ومكتبة كبيرة من المفردات الخاصة بالمجال، مما يمنحها قدرات متميزة في معالجة المؤلفات العلمية والإجابة على الأسئلة العلمية.
يقوم فريق التنفيذ المشترك بين الوكالات والمفاهيم المتقدمة (IMPACT) التابع لناسا، من خلال اتفاقيات قانون الفضاء مع شركاء من القطاع الخاص وغير الفيدراليين، بتطوير INDUS، وهي مجموعة من الأدوات لعلوم الأرض، والعلوم البيولوجية والفيزيائية، والفيزياء الشمسية، وعلوم الكواكب، ونماذج اللغات الكبيرة ( LLMs) في مجالات مثل الفيزياء الفلكية ويتم تدريبهم باستخدام الأدبيات العلمية المنسقة من مصادر البيانات المتنوعة.

يحتوي INDUS على نوعين من النماذج: أجهزة التشفير ومحولات الجملة. تقوم أجهزة التشفير بتحويل نص اللغة الطبيعية إلى ترميزات رقمية يمكن معالجتها بواسطة LLM. تم تدريب برنامج تشفير INDUS على مجموعة مكونة من 6 مليارات رمز تحتوي على بيانات من الفيزياء الفلكية وعلوم الكواكب وعلوم الأرض والفيزياء الشمسية والعلوم البيولوجية والعلوم الفيزيائية. يعمل الرمز المميز المخصص الذي تم تطويره بواسطة تعاون IMPACT-IBM على تحسين الرمز المميز العام من خلال تحديد المصطلحات العلمية مثل المؤشرات الحيوية والتفسفر. أكثر من نصف الكلمات البالغ عددها 50000 كلمة في INDUS فريدة من نوعها في المجالات العلمية المحددة التي يتم تدريبها فيها. تم استخدام نموذج التشفير INDUS لضبط ما يقرب من 268 مليون زوج نصي، بما في ذلك العنوان/الملخص والسؤال/الإجابة.
من خلال تزويد INDUS بمفردات خاصة بالمجال، حقق فريق IMPACT-IBM أداءً أفضل من ماجستير إدارة الأعمال المفتوح وغير المخصص للمجال في معيار المهام الطبية الحيوية، ومعيار الإجابة على الأسئلة العلمية، واختبار التعرف على كيان علوم الأرض. من خلال تصميم مهام لغوية متنوعة وتوليد معزز للاسترجاع، تستطيع INDUS التعامل مع أسئلة الباحثين، واسترجاع المستندات ذات الصلة، وإنشاء الإجابات. بالنسبة للتطبيقات الحساسة لزمن الوصول، قام الفريق بتطوير إصدارات أصغر وأسرع من نماذج التشفير ومحول الجملة.
أظهرت اختبارات التحقق من الصحة أن INDUS كان قادرًا على استرجاع المقاطع ذات الصلة من الأدبيات العلمية عند الإجابة على مجموعة اختبار ناسا المكونة من 400 سؤال تقريبًا. وتعليقًا على النهج العام، قال بيشوارانجان بهاتاشارجي، الباحث في شركة IBM: "لقد حققنا أداءً فائقًا ليس فقط من خلال امتلاك مفردات مخصصة، ولكن أيضًا من خلال عدد كبير من نماذج التشفير المدربة المتخصصة واستراتيجية التدريب الجيدة. بالنسبة للإصدار الأصغر والأسرع، استخدمنا تبحث الهندسة العصبية عن بنية نموذجية وتستخدم إشرافًا أكبر على النموذج لتقطير المعرفة للتدريب.
أبرز النقاط:
- تتعاون وكالة ناسا مع شركة IBM لتطوير نموذج لغة INDUS واسع النطاق، وهو مناسب لمجالات مثل علوم الأرض والعلوم البيولوجية والفيزيائية والفيزياء الشمسية وعلوم الكواكب والفيزياء الفلكية.
- يحتوي INDUS على نوعين من النماذج، برنامج التشفير ومحول الجملة، تم تدريبهما باستخدام أداة رمزية مخصصة ومجموعة رموز مكونة من 6 مليارات رمز، وتم ضبطهما بدقة على ما يقرب من 268 مليون زوج نصي.
- تحقق INDUS أداءً أفضل من LLMs المفتوحة وغير الخاصة بالمجال من خلال المفردات الخاصة بالمجال والمهام اللغوية المتنوعة وتحسينات الاسترجاع للتعامل مع أسئلة الباحثين واسترجاع المستندات ذات الصلة وإنشاء الإجابات.
باختصار، يوفر نموذج لغة INDUS واسع النطاق أداة جديدة قوية للبحث العلمي، ويشير أدائه الممتاز في مجالات علمية محددة إلى آفاق تطبيقه الواسعة في البحث العلمي المستقبلي. كما يضع التعاون بين NASA وIBM معيارًا للتطبيق المستقبلي لنماذج اللغات الكبيرة في المجال العلمي.