Llama-moss-rlhf-lora
لا يتطلب رمز RLHF لهذا الرمز إطار عمل Megatron أو Deepspeed ، فهو يتطلب فقط بطاقات شعلة الخيمياء والرسومات التقليدية. يستخدم ناقد RLHF نسخة مخفضة من GPT الهدف ، والمكافأة يمكننا استخدام نموذج التشابه الذي يقارن مع الإخراج الهدف. وبهذه الطريقة ، تحتاج فقط إلى تعلم خوارزمية PPO الأساسية ، والباقي هي نماذج وهياكل التي فهمتها بالفعل. إنه مفضي للغاية لدخول NLPER إلى RLHF ، ويبدو أن RLHF فقط مطلوب يمكنه إمكانية إمكانية فني النموذج.
يمكن تحديد LLAMA أو MOSS في الكود ، وطريقة التحسين LORA اختيارية.
وظيفة:
- تعريف واستخدام تنسيق بيانات RLHF
- تم ضبط النموذج باستخدام RLHF غي فقط
- دع النموذج يتعرف على ماستره
- تعديل ختم الفولاذ الإدراكي الذاتي
- تقوم الدُفعة بتوليد العديد من الأدوار المختلفة ، ثم RLHF ×
بيئة التثبيت
تشير بيئة التثبيت إلى المتطلبات المستخرج
- يتطلب تشغيل Moss مكتبة تسريع
- يتطلب تشغيل لورا peft
- من بينها ، لقد تغيرت PEFT كثيرًا بسبب تحديثاتها الأسرع. هنا تحتاج إلى تحديد PEFT كإصدار 0.2.0
كيفية استخدام
0 حدد النموذج الذي تحتاجه (تعيين model_name_or_path في rlhf_train_gpt.py ، وما إذا كانت Lora مطلوبة) ، والمعالجة المسبقة
- طحلب
- لاما
- تحتاج إلى تنفيذ مجموعة من النموذج المستند إلى LLAMA وإعادة تجهيز معلمات LORA
- Python merge_llama_with_chinese_lora_to_hf.py
- يمكنك تعيين كميات مختلفة من معلمة Llama و Lora فيه
- يتم حفظ نموذج HF المولد
1 قم بتعديل اسم المالك واللقب الذي تريده وتنفيذ الكود التالي. لإنشاء بيانات مستهدفة ، يمكنك أيضًا استخدام الصورة الافتراضية.
python data / generate_data . py
2 ابدأ RLHF (LORA) قرن التدريب القائم
python rlhf_train_gpt . py
استهلاك الموارد
- طحلب
- 13B الكمية المعلمة
- هناك حاجة إلى أربعة 3090s ، من بينها أن نموذج MOSS يحتاج إلى تحميل حوالي 26 جرام من تدريب ذاكرة الفيديو 46G (3 صور) ، وهناك حاجة إلى مكافأة واحدة أكثر أهمية ومكافأة. يمكنك تجربة A6000 ، والتي قد تعمل أيضًا.
- إجمالي ما يقرب من 50 جرام من ذاكرة الفيديو
- لاما
- 7B الكمية المعلمة
- هناك حاجة إلى اثنان من 3090 ، أحدهما لتحميل وتدريب Llama ، وواحد لوضع النموذج الحرج
عرض تأثير
تدريب حوالي 6 عصر ، أو عندما تكون النسبة تقريبًا 1 ، فهذا يعني أن احتمال توليد النماذج لم يتغير كثيرًا ، حتى تتمكن من تجربته.
- ما هو ميمي؟
- Meimei هو اللقب الذي أعطاه لي يا سيدي.
- من أعطاك الميم؟
- بابا هو لقب بلدي.
- أعطاني السيد ميمي.
- من هو سيدك؟
- تشانغ سان هو سيد بلدي.
- سيدي هو تشانغ سان
- يتم الحفاظ على قدرة التعميم بشكل جيد للغاية
- من هو سيدك
- ما هو لقب الخاص بك
- ما هي علاقتك مع Zhang San
- ما هي علاقتك مع
- Meimei هو اللقب الذي أعطاه لي يا سيدي.
معلومات الاتصال
- مجموعة الاتصال
- QQ Group: 788598358
- مجموعة WeChat: قد تنتهي صلاحية مجموعة WeChat