في هذه المدونة ، أشعر بسعادة غامرة لمشاركة رؤى حول النهج الدقيق الذي تعهدنا به لتدريب قاعدة Amabri (المعرفي-LAB/AMBARI-7B-instruct-V0.1) و AMABRI (المعرفي LAB/AMBARI-7B-instruct-V0.1). يقدم هذا السرد لمحة عالية المستوى في عمليتنا ، بمثابة مقدمة للوحي القادم لجميع التفاصيل الفنية-تتويجا للاختبار والتقييم الواسع. ترقبوا ونحن نكشف التعقيدات التي أدت إلى إنشاء Amabri ، وهو نموذج مبتكر للكانادا-إنجليزي كبير.
الغرض وراء أمابري
في المشهد الديناميكي لنماذج اللغة الكبيرة (LLMS) ، ينبع إنشاء Amabri من غرض متعدد الأوجه:
نظرًا لأن LLMS تتخلل بشكل متزايد الاستخدام السائد ، نماذج مفتوحة المصدر ، بينما تخصب في المعرفة العالمية ، تظهر في الغالب من التدريب المتمحور حول اللغة الإنجليزية. تعمل Amabri كمبادرة رائدة لتوسيع هذا النطاق وتكييف LLMs مع لغات متنوعة.
في المشهد المتطور لـ LLMS ، أصبح الطلب على كميات هائلة من بيانات التدريب ، التي تتراوح من 1 تريليون إلى 10 تريليون رموز ، قاعدة. ومع ذلك ، فإن هذا يمثل تحديًا لللغات ذات الموارد الموثقة المحدودة. في سعينا ، ركزنا على تكييف LLM المدربة مسبقًا ، مثل LLAMA/MISTRAL ، لفهم الفروق الدقيقة للغة الجديدة-Kannada في حالة AMABRI. على الرغم من عدم تصنيف الكانادا كلغة منخفضة للغاية ، إلا أنها كانت بمثابة مرشح مثالي لاختبار فرضياتنا ومنهجياتنا. بوقوع في تحديد مراحل التدريب والتحديد في الرموز المميزة ، وضعنا حد أقصى قدره مليار رموز تدريب للعملية بأكملها.
بعد ذلك ، قمنا بصياغة مجموعات بيانات بدقة ، ووزعناها وفقًا لذلك ، وحددنا مراحل عمليتنا:
وضع هذا النهج المتعمد أساس تطور Amabri ، مما دفع حدود القدرة على التكيف مع اللغة في عالم LLMs.
يمثل الرمز المميز ، وهو مكون حاسم في كفاءة نماذج اللغة ، تحديًا فريدًا لنص الكانادا في سياق LLMs مفتوح المصدر. العديد من النماذج الحالية تلجأ بشكل غير فعال إلى الرمز المميز على مستوى الشخصية ، وخاصة أثناء الاستدلال ، مما يؤثر على الأداء العام. لمعالجة هذا ، قمنا بتطوير نموذج رمزي متخصص لنص الكانادا باستخدام SentencePiece. تم دمج هذا النموذج بسلاسة مع Tokenizer Llama Base ، مما أدى إلى مفردات شاملة قدرها 49600 ، تم توسيعها بمقدار 17600.
يتضمن نهجنا تدريب نموذج الرمز المميز على ثلاثة أحجام مختلفة لمجموعة البيانات ، مما يكشف عن النتائج المثلى مع مجموعة بيانات تضم 100000 رمز. مع تطورنا AMABRI ، سيحتوي التكرار القادم على استراتيجية رمزية مكررة ، باستخدام حجم مفردات مخفضة قدرها 48000. هذا التعديل ، الذي تم التحقق من صحته من خلال الرؤى التي يشاركها Andrej Karpathy في منشوره على Twitter (Andrej Karpathy على Twitter) ، موجه نحو تعزيز الكفاءة الإجمالية.
فضولي لاستكشاف مكاسب الكفاءة مباشرة؟ يمكنك اختبار الرمز المميز في العمل هنا.
قبل التدريب
مع وجود رمز فعال في مكانه ، كانت خطوتنا الحاسمة التالية هي مرحلة ما قبل التدريب ، والتي تهدف إلى التعرف على النموذج مع المفردات المخصب حديثًا. لتحسين هذه العملية ، قمنا برعاية مجموعة بيانات شاملة من مصادر متنوعة. والجدير بالذكر أن قمنا باستكشاف نهجين متميزين خلال هذه المرحلة-التدريب على الرقابة مع لورا وتدريب النموذج بالكامل. ينبع هذا القرار الاستراتيجي من رغبتنا في تمييز المسار الأمثل لتطوير Amabri.
سيتم الكشف عن مقارنة مفصلة بين هذه المنهجيات قريبًا ، لكننا استسلمنا بعض الملاحظات الأولية:
على الرغم من أننا نقر بأن اختبارنا المستمر قد يقوم بتحسين هذه الملاحظات ، فإن هذه اللقطة توفر رؤى قيمة في تقدمنا. استخدمت مرحلة ما قبل التدريب مجموعة من وحدات معالجة الرسومات 2XA100 ، حيث استغرقت حوالي 25 ساعة لتدريب الأوزان بالكامل على مجموعة كبيرة تضم 500 مليون رمز.
تجدر الإشارة إلى أن أوزان الطراز المضبط بالكامل متوفرة الآن على وجه المعانقة؟ -https://huggingface.co/cealitive-lab/ambari-7b-base-v0.1 ، مما يساهم في مشاركة المعرفة مفتوحة المصدر داخل المجتمع.
ثنائي اللغة بجوار التنبؤ الرمزي
كانت هذه المرحلة ، المستوحاة من سلسلة Hathi المفتوحة من Sarvam.ai ، إضافة غير مخطط لها ولكنها محورية لاستراتيجيتنا التدريبية. بإنشاء مجموعة بيانات من 200000 رمز ، استخدمنا Lora من أجل ضبطها ، بهدف تزويد النموذج بفهم اللغة المحسّن. مع تقدمنا ، تحول تركيزنا نحو غرس "المعرفة العالمية" في الكانادا. بالنظر إلى ندرة محتوى الكانادا ، خاصة مقارنة باللغة الإنجليزية ، تحولنا إلى الترجمة. الاستفادة من indictrans2 ، قمنا بترجمة المحتوى الإنجليزي ، الذي تم الحصول عليه في المقام الأول من ويكيبيديا ، إلى الكانادا. ومع ذلك ، بدلاً من التنبؤ التقليدي الأحادي المجاور ، قدمنا نهجًا رائدًا - التنبؤ المميز بجوار بلغتين. جمل بالتناوب بين الكانادا والإنجليزية ، وأجبرت هذه الطريقة النموذج على الالتحاق بالمعلومات عبر المعلومات أثناء التنبؤ القادم. هذا النهج الدقيق لم يعزز زيادة التوافق بين الكانادا والإنجليزية فحسب ، بل أيضًا التعرض المتوازن بشكل طبيعي للرموز الهندية والإنجليزية أثناء التدريب. أضافت هذه المرحلة طبقة إضافية من التطور إلى رحلة تدريب أمابري.
ترجمة Finetuning
كانت النية وراء هذه المرحلة هي إقامة علاقة متماسكة بين اللغة الإنجليزية ورموز الكانادا المقابلة. باستخدام التكيف المنخفض الرتبة من أجل الضبط الدقيق ، واجهنا بعض التحديات ، لا سيما قرار استخدام قيمة منخفضة للغاية ، والتي أثبتت أقل فعالية. مع حجم مجموعة البيانات 100000 رمز ، قدمت هذه المرحلة قيودًا ، ونقر بالحاجة إلى تحسينات. أثناء صقل هذا الجانب من عملية التدريب ، لا يزال التزامنا بتعزيز القدرات ثنائية اللغة من Amabri ثابتًا.
ثنائي اللغة ترشيد صقل جيد
في هذه المرحلة المحورية ، استخدمنا عملية ضبط خاضعة للإشراف مع التكيف المنخفض الرتبة لقلب استجابة النموذج. احتضان بنية قالب الدردشة التي تتكون من مطالبات/تعليمات المستخدم والاستجابات المقابلة ، لقد غامرنا في عالم صياغة دقة ثنائية اللغة. يتضمن هذا النهج تدريب النموذج للرد بشكل بارز باللغة الإنجليزية أو الكانادا بناءً على اللغة المحددة في موجه المستخدم أو التعليمات.
قالب الدردشة
< | user | >
{user prompt / instruction}
< | endoftext | >
< | assistant | >
{response}
< | endoftext | >على سبيل المثال ، بالنظر إلى مثيل المستخدم مثل
"أعطني 10 نصائح دراسة في الكانادا ،"
إجابة
يولد النموذج بسلاسة استجابة في الكانادا ، مع الحفاظ على التماسك اللغوي. لإثراء عملية التدريب ، قمنا بدمج مجموعات بيانات التعليمات المختلفة ، بما في ذلك أدوات الألبكة ، ودولي أدوات ، وأكثر من ذلك. الاستفادة من واجهات برمجة تطبيقات الترجمة مثل Google و Azure ونشر مخصص لنموذج indictrans2 من AI4Bharat ، قمنا بصياغة مجموعة بيانات شاملة ثنائية اللغة.
تشمل مجموعة البيانات ، المتوفرة للجمهور الآن على وجه المعانقة هنا ، سيناريوهات لغوية متنوعة. أثناء التدريب ، قمنا بتنفيذ الضبط الخاضع للإشراف مع أربعة تمثيلات مميزة:
هذا النهج الدقيق لم يعرف النموذج بالاستجابة بلغات مختلفة فحسب ، بل وضع أيضًا الأساس لإتقان المهام عبر اللغات.
يمكن الوصول إلى أوزان هذا النموذج المضبط بدقة على وجه المعانقة ، وللحصول على تجربة عملية ، يمكنك استكشاف الإصدار الكمي المكون من 4 بت على chat.cognitivelab.in.
في المرحلة التي تتوج من تحسين النموذج لدينا ، اتخذنا في عالم تحسين التفضيل المباشر (DPO). هذا الاختيار الاستراتيجي ، المستوحى من النجاح الذي لوحظ في نماذج مختلفة مفتوحة المصدر ، يهدف ليس فقط مواءمة نموذجنا ولكن أيضًا لدفع التحسينات في المعايير. الشروع في هذه الرحلة التجريبية ، استفدنا من مجموعة بيانات الأنثروبور/HH-RLHF. ترجمته إلى الكانادا ، لقد أخضعنا النموذج لضبط DPO ، حيث يخضع حاليًا لتقييم شامل لقياس تأثير أداءه.
نطاق التحسن
من الأهمية بمكان أن ندرك أن النماذج المقدمة في هذا الإطار لم تخضع لإزالة السموم. على الرغم من أنها تعرض قدرات لغوية مثيرة للإعجاب ، إلا أن هناك احتمال توليد محتوى قد يعتبر ضارًا أو مسيئًا. ينصح المستخدمون بشدة بممارسة السلطة التقديرية ومراقبة مخرجات النموذج بشكل وثيق ، وخاصة في التطبيقات العامة أو الحساسة.
نرحب بالمساهمات في تعزيز وتوسيع هذا المشروع. إذا كانت لديك اقتراحات أو تحسينات ، فيرجى فتح مشكلة أو إرسال طلب سحب.
تم ترخيص هذا المشروع بموجب ترخيص GNU GPL V3.0. لمزيد من التفاصيل ، راجع ملف الترخيص.
هام: ينطبق ترخيص GPL 3.0 فقط على التعليمات البرمجية ومجموعات البيانات المقدمة في هذا المستودع. نظرًا لأن indic-llm هو مشتق من نموذج LLAMA 2 Meta ، فهو يخضع للترخيص الأصلي لـ Llama 2 ، والذي لا يمكن تغييره. لذلك ، للحصول على تفاصيل شاملة فيما يتعلق بترخيص النموذج ، يرجى الرجوع إلى ملف LLAMA2-linense.
يستمد هذا المستودع الإلهام من المستودعات التالية: