تأكد من تثبيت متطلبات هذه الأمثلة:
pip install -r requirements-examples.txtأمثلة على متجهات التحكم في التدريب من الحالات المخفية للنموذج والتي يمكن استخدامها للتأثير على السلوك والإخراج الناتج أثناء الاستدلال.
تدريب Lora Mistral-7B-instruct-V0.2 مع مجموعة بيانات NVIDIA HelpSteer.
قم بتشغيل train.sh في دليل helpsteer لتنزيل مجموعة البيانات والنموذج من Huggingface وبدء تدريب Lora. يمكنك تخصيص تكوين التدريب عن طريق تحرير config.yml .
تدريب DPO QWEN1.5-7B-Chat مع مجموعة بيانات DPO MIX 7K. يتكون التدريب من ضبط دقيق خاضع للإشراف (SFT) يليه تحسين التفضيل المباشر (DPO).
قم بتشغيل train.sh في دليل dpo-mix-7k لتنزيل مجموعة البيانات والنموذج من Huggingface وبدء التدريب. يمكنك تخصيص تكوين التدريب عن طريق تحرير ملفات التكوين sft.yml و dpo.yml .
تنفيذ "فهم لغة المهام المتعددة الضخمة" باستخدام مجموعة بيانات MMLU.
قم بتشغيل mmlu.py مع النموذج الذي ترغب في تقييمه.
تنفيذ معيار MMLU-PRO باستخدام مجموعة بيانات MMLU-PRO.
قم بتشغيل mmlu-pro.py مع النموذج الذي ترغب في تقييمه.
حساب درجات الحيرة لمجموعة بيانات عينة من فقرات الدخول من مقالات ويكيبيديا.
قم بتشغيل perplexity.py مع النموذج الذي ترغب في تقييمه. إضافة خيارات القياس لتقييم الحيرة مع النماذج الكمية.