الوجه المعانقة | preprint | ورقة | العرض التوضيحي

تتقدم نماذج اللغة الكبيرة (LLMS) بشكل كبير معالجة اللغة الطبيعية ، لكن تقدمها لم يكن متساوًا بعد عبر اللغات. في حين يتم تدريب معظم LLMs على لغات عالية الموارد مثل اللغة الإنجليزية ، فإن النماذج متعددة اللغات عمومًا غير مؤلفة من أحادي الجنس. بالإضافة إلى ذلك ، تقيد جوانب أساسها متعدد اللغات أحيانًا المنتجات الثانوية التي تنتجها ، مثل المطالب الحسابية وأنظمة الترخيص. في هذه الدراسة ، نقوم بتوثيق تطوير نماذج المؤسسة المفتوحة المصممة لاستخدامها في إعدادات الموارد المنخفضة ، وقيودها ، وفوائدها. هذا هو زوج Teenytinyllama : نموذجان مضغوطان لتوليد النص البرتغالي البرازيلي. نطلق سراحهم تحت ترخيص Apache 2.0 المسموح به على GitHub ووجه وجه لاستخدام المجتمع ومزيد من التطوير.
إن الاستخدام الأساسي المقصود لـ Teenytinyllama هو البحث في التحديات المتعلقة بالنماذج اللغوية النامية للغات منخفضة الموارد. تهدف نقاط التفتيش المحفوظة أثناء التدريب إلى توفير إعداد محكم لإجراء التجارب العلمية. يمكنك أيضًا زيادة ضبط وتكييف Teenytinyllama للنشر ، طالما أن استخدامك يتبع ترخيص Apache 2.0. إذا قررت استخدام Teenytinyllama المدربين مسبقًا كأساس لنموذجك المعروف ، فيرجى إجراء تقييم المخاطر والتقييم الخاص بك.
Teenytinyllama غير مخصص للنشر. إنه ليس منتجًا ولا ينبغي استخدامه للتفاعلات التي تواجه الإنسان.
نماذج Teenytinyllama هي اللغة البرتغالية البرازيلية فقط وليست مناسبة للترجمة أو توليد النص بلغات أخرى.
لم يتم ضبط Teenytinyllama بشكل جيد للسياقات المصب التي يتم فيها نشر نماذج اللغة بشكل شائع.
مثل جميع نماذج اللغة الأخرى التي تم تدريبها على مجموعات بيانات النصية الكبيرة المكسورة من الويب ، أظهر زوج TTL سلوكًا لا يجعلها حلًا خارج الصندوق للعديد من التطبيقات في العالم الحقيقي ، وخاصة تلك التي تتطلب توليد نصية وموثوقة غير سامة. نماذجنا كلها خاضعة لما يلي:
الهلوسة: يمكن لهذا النموذج إنتاج محتوى يمكن أن يكون مخطئًا للحقيقة ، ولكنه في الواقع ، مضللة أو خاطئة تمامًا ، أي الهلوسة.
التحيزات والسمية: يرث هذا النموذج الصور النمطية الاجتماعية والتاريخية من البيانات المستخدمة لتدريبها. بالنظر إلى هذه التحيزات ، يمكن أن ينتج النموذج محتوى سامًا أو ضارًا أو مسيئًا أو ضارًا للأفراد أو المجموعات أو المجتمعات.
رمز غير موثوق به: قد ينتج النموذج قصاصات وبيانات رمز غير صحيحة. لا ينبغي التعامل مع أجيال التعليمات البرمجية هذه كاقتراحات أو حلول دقيقة.
قيود اللغة: تم تصميم النموذج في المقام الأول لفهم البرتغالية البرازيلية القياسية. قد تتحدى اللغات الأخرى فهمها ، مما يؤدي إلى سوء التفسير أو الأخطاء المحتملة استجابةً.
التكرار والوفرة: قد يتعثر النموذج في حلقات التكرار (خاصةً إذا تم ضبط عقوبة التكرار خلال الأجيال على قيمة ضئيلة) أو ينتج عن استجابات مطوئة لا علاقة لها بالمطالبة التي تم إعطاؤها.
وبالتالي ، على الرغم من أن نماذجنا يتم إصدارها برخصة متساهلة ، فإننا نحث المستخدمين على إجراء تحليل المخاطر على هذه النماذج إذا كانت تعتزم استخدامها للتطبيقات في العالم الحقيقي ، كما أن البشر يضعفون مخرجات هذه النماذج في التطبيقات التي يتفاعلون فيها مع جمهور ما ، وضمان المستخدمين دائمًا أنهم يتفاعلون مع نموذج اللغة.
يحتوي هذا المستودع على الكود المصدري المستخدم لتدريب نماذجنا. أنشأنا جميع تطبيقات التعليمات البرمجية الخاصة بنا باستخدام المكتبات المرتبطة بالنظام الإيكولوجي للوجه المعانقة ، أي المحولات ، ومجموعات البيانات ، والرمز المميزات ، والتسريع ، والتي تسمح بسهولة التكاثر والتكيف والتحجيم. تتبع البرامج النصية للتدريب والتقييم بنية Pytorch قياسية ، بينما استخدمنا برنامج الترميز والأوزان والتحيزات لتتبع تجاربنا.
يتم سرد جميع المتطلبات في ملف المتطلبات. txt (إصدار Python: 3.10.12).
ما قبل التدريب: يحتوي المجلد المسبق للتدريب على نصين رئيسيين: pre-training.py . بيبي و train-sentencepiece.py . تم استخدام هذه البرامج النصية لتدريب كل من Tekenizer Sectexepience والنماذج. يمكنك العثور على مزيد من المعلومات حول كيفية تشغيلها هنا.
صقل جيد: يحتوي المجلد الناعم على نص supervised-fine-tuning.py . يتم استخدام هذا البرنامج النصي لضبط الإصدار 460M من نماذجنا على إصدار Dataset Tostruct-HiRA 2.0. يمكنك العثور على مزيد من المعلومات حول كيفية تشغيلها هنا.
التقييم: يحتوي مجلد التقييم على نتائج تقييماتنا (eval.MD). كما أنه يحتوي على برنامج نصي evaluation.py للسماح لك بتقييم أي من نقاط التفتيش في الطرز أو النماذج التي قد تأتي لتدريبها. يعرض دفتر Notboor lm-evaluation-harness-pt.ipynb كيفية تقييم نموذج على النسخة laiviet من LM-Evaluation-Harness . يمكنك العثور على مزيد من المعلومات حول كيفية تشغيلها هنا. تتوفر تقييمات على المعايير البرتغالية في المجلد الجديد.
المرافق: يحتوي مجلد المرافق على بعض البرامج النصية الإضافية (مزيد من المعلومات المتاحة هنا):
chinchilla-estimation.py في تقدير حجم مجموعة البيانات فيما يتعلق بحجم النموذج ، باستخدام ورقة Chinchilla كمرجع.quantize.py بإجراء قياس كميات AWQ بأربعة بت على النماذج.tokenize-dataset.py بإنشاء نسخة رمزية من مجموعة بيانات النص وتحميلها إلى مركز الوجه المعانقة. في مجلد img ، ستجد مداخلًا فرعيًا يسمى logs and plots . في ذلك ، يمكنك العثور على جميع السجلات والمؤامرات (والبرنامج النصي المستخدم لصنع المخططات) استخدمنا في preprint لدينا.
@misc{correa24ttllama,
title = {TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese},
author = {Corr{ ^ e}a, Nicholas Kluge and Falk, Sophia and Fatimah, Shiza and Sen, Aniket and De Oliveira, Nythamar},
journal={arXiv preprint arXiv:2401.16640},
year={2024}
}
@misc{correa24ttllama,
doi = {10.1016/j.mlwa.2024.100558},
url = {https://www.sciencedirect.com/science/article/pii/S2666827024000343},
title = {TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese},
author = {Corr{ ^ e}a, Nicholas Kluge and Falk, Sophia and Fatimah, Shiza and Sen, Aniket and De Oliveira, Nythamar},
journal={Machine Learning With Applications},
publisher = {Springer},
year={2024}
}تم تمويل هذا البحث من قبل Raies (Rede de Inteligência الاصطناعي ética e segura). Raies هو مشروع مدعوم من قبل Fappergs (Fundação de Amparo à pesquisa do estado do rio grande do sul) و cnpq (conselho nacional de desenvolvimento científico e tecnológico).
تم ترخيص Teenytinyllama بموجب ترخيص Apache ، الإصدار 2.0. انظر ملف الترخيص لمزيد من التفاصيل.