[ اللغة الإنجليزية |
يتم نشر ملخص لهذا المستودع أيضًا باعتباره مسبقًا: استكشاف نماذج لغة كبيرة مفتوحة للغة اليابانية: دليل عملي
إذا كنت تشير إلى هذا المستودع ، فيرجى الاقتباس:
@article{awesomeJapanese2024,
title={{Exploring Open Large Language Models for the Japanese Language: A Practical Guide}},
author={Kaito Sugimoto},
doi={10.51094/jxiv.682},
journal={Jxiv preprint},
year={2024}
}
تم إجراء بعض التغييرات في الهندسة المعمارية. لمزيد من المعلومات ، انظر أدناه: التعلم المسبق لـ LLM الأصلي "Plamo-100B" بمقياس 100 مليار معلمة ↩
لمزيد من المعلومات ، راجع المقالة التالية: ملاحظات استراتيجية لما قبل التعليم وبعد التعلم عند تطوير نماذج لغة واسعة النطاق ، بما في ذلك إرشادات تحديد المواقع والتطوير لنماذج اللغة الواسعة النطاق Tanuki-8b و 8 × 8 ب ، إلخ-خاصةً على البيانات الاصطناعية-↩ ↩ 2
ومع ذلك ، لتسريع النموذج ، كانت هناك تغييرات على اللاما الأصلية. لمزيد من المعلومات ، انظر أدناه: تم إصدار Plamo-13B ↩
على الرغم من عدم تحديد أي تفاصيل ، فإن البيان الصحفي ينص على ما يلي: بالإضافة إلى مجموعات البيانات المفتوحة ، تتضمن بيانات التدريب مجموعات البيانات الأصلية التي أنشأتها AI Japan ، بالإضافة إلى البيانات التي تم إنشاؤها مع تعاون فريق اللغة اليابانية في مشروع Eleuthrai Polyglot وأعضاء المجتمع المستقر الياباني. '↩
أجرت هذه الدراسة تقييمًا لنموذج لغوي تم تدريبه على التنبؤ بالكلمات من اليمين إلى اليسار بدلاً من اليسار إلى اليمين المعتاد. يتم نشر كل من نماذج اللغة العادية والعكسية. ↩
قبل إجراء ضبط التعليمات ، نضيف متجه الدردشة ، وهو الفرق بين Llama 3 Addruct و Llama 3. ↩ ↩ 2
بعد إجراء ضبط التعليمات ، تتم إضافة متجه الدردشة ، وهو الفرق بين Llama 3 Addruct و Llama 3. ↩ ↩ 2
ومع ذلك ، إذا كنت ترغب في استخدام Karakuri LM لأغراض تجارية ، فستحتاج إلى الاتصال بـ Karakuri Co. ، Ltd. ، المطور. ↩
ضبط التعليمات ، يستخدم النظام البيانات التي تم إنشاؤها بواسطة نماذج Openai مثل GPT-3.5 و GPT-4 للتعلم ، لذلك قد يكون في انتهاك للوائح OpenAI. ↩ ↩ 2 ↩ 3 ↩ 4 ↩ 5 ↩ 6 ↩ 7 ↩ 8 ↩ 9 ↩ 10
قبل إجراء ORPO ، نضيف متجهًا للدردشة للفرق بين Gemma 2 Addruct و Gemma 2. ↩
○: تم تحميل النموذج إلى Huggingface Model Hub ، ويمكن قراءته على الفور باستخدام AutoModel.from_pretrained() إلخ. △: لا يتم تحميل أي نماذج إلى Hub Model ، ولكنها تدعم تنسيق Huggingface (المحولات ، التي كانت سابقًا من محولات Pytorch). ✕: لا يدعم النموذج Huggingface. ↩
هذه هي دراسة تجارب مع مجموعة من مختلف تحليلات المورفيم وتقنيات التفاصيل. من الصعب إدراج النماذج لجميع المجموعات ، لذلك نقدم هنا نموذج Juman +++ BPE ، والذي يحتوي على أعلى متوسط أداء للمهمة في التجربة. ↩
ومع ذلك ، تم تمديد طول السلسلة القصوى إلى عام 2048 ، وتم إجراء تغييرات معمارية مختلفة على BERT الأصلي. انظر README في مستودع Luggingface لمزيد من المعلومات. ↩
NLP-WASEDA/ROBERTA-BASE-JAPANESE و NLP-WASEDA/ROBERTA-LARGE-JAPANESE PRE-TRAIN أقصى طول الرمز المميز لمدخلات النموذج في 128 ، في حين
ومع ذلك ، يتم توسيع الحد الأقصى لطول السلسلة من 512 إلى 1282 العادي ، مما يسمح بمعالجة عبارات الإدخال الأطول ↩
النسخة الصغيرة هي دراسة خدش باستخدام ويكيبيديا اليابانية والجسم المالي الياباني ، في حين أن القاعدة هي دراسة مختلفة باستخدام مجموعة مالية يابانية في جامعة توتوكو بيرت ↩
نموذج WordPiece المقاوم للإنسان هو نموذج يقسم الكلمات باستخدام MECAB (قاموس IPA + القاموس المقاوم للشرف) ثم الكلمات الفرعية باستخدام WordPiece ، في حين أن نموذج الحكم هو نموذج يحول الكلمات مباشرة إلى Unigram دون تقسيم الكلمات ↩
للحصول على تفاصيل عن كل نموذج ، انظر الفصل 4 من ورقة المؤلف. لاحظ أن نموذج SC-2M-Wiki يتم تدريبه مسبقًا فقط على ويكيبيديا ، لذلك ليس نموذجًا خاصًا بمجال. ↩
تم تصنيف نماذج التضمين باستخدام استرجاع النص الكثيف استنادًا إلى نماذج اللغة المسبقة: مسح (Zhao+، 2022). Bi-encoder هو بنية يتم فيها إدخال اثنين من المدخلات بشكل فردي في نموذج ، كل منهما متجه ، ثم صُمِّل كقارب للمدخلات عن طريق صياغة منتج DOT وتشابه جيب التمام لهذه المدخلات. في المقابل ، فإن الشفرات المتقاطعة هي بنية تدخل مدخلتين في نموذج ويحسب مباشرة القرب داخل النموذج. في مجال استخراج المعلومات ، يكون الشفرات المتقاطعة أكثر تكلفة ، ولكن نظرًا لأنه من المتوقع أن يحسب النموذج قرب المدخلات بشكل أكثر دقة ، فإنه غالبًا ما يتم استخدامه كإعادة لإعادة النظر في ترتيب نتائج الاستخراج. بالإضافة إلى ذلك ، بين العوامل الثنائية ، هناك أنواع من العوامل الثنائية التي تمثل المدخلات كمتجهات متعددة (على سبيل المثال ، Colbert) بدلاً من المتجهات المفردة (على سبيل المثال ، Colbert) ، لذلك تم تقسيمها بشكل أكبر إلى عدادات ثنائية النكرات أحادية التمثيل. ↩
ومع ذلك ، فإنه يدعو إلى وضع الناس في الاعتبار استخدامها لأغراض البحث والتعليم. لاحظ أيضًا أن بعض التراخيص للنموذج الذي تم دمجه ليس Apache 2.0. ↩ ↩ 2 ↩ 3