pip install - r requirements . txt export KAGGLE_USERNAME= " your_kaggle_username "
export KAGGLE_KEY= " your_api_key "
export HF_TOKEN= " your_hf_token " sudo apt install unzipkaggle datasets download -d lizhecheng/lmsys-datasets
unzip lmsys-datasets.zipkaggle datasets download -d lizhecheng/lmsys-lora
unzip lmsys-lora.zip cd src
cd team gemma / cd team llama
python train_xxx.pyانقر فوق رمز التدريب الكامل
تحقق من الكود لدينا في LMSYS Github.
نحن نستخدم ضبط التعليمات ، مما يجعل تنسيق الإدخال أمرًا بالغ الأهمية. بعد تجربة تنسيقات مختلفة ، حددنا النهج الأمثل:
أولاً ، نحدد الحد الأقصى للطول. بعد ذلك ، نقوم بتسلسل دورات متعددة من أزواج الاستجابة السريعة ضمن هذا الحد. إذا تجاوز زوج الاستجابة السريعة السابقة الحد الأقصى للطول ، فسيتم وضع زوج الاستجابة المطبق الجديدة في صف منفصل. على سبيل المثال ، ضع في اعتبارك المطالبات [P1 و P2 و P3] مع الاستجابات المقابلة [A1 و A2 و A3] و [B1 و B2 و B3]. تتيح لنا هذه الطريقة إنشاء صفين: (P1 ، A1 ، B1) و (P2 ، A2 ، B2 ، P3 ، A3 ، B3) ، على افتراض (P1 ، A1 ، B1) لا يتجاوز الحد الأقصى للطول. ومع ذلك ، للتدريب ، نستخدم فقط الدور الأخير لزوج الاستجابة السريعة لكل معرف.
يوفر هذا النهج مزايزتين رئيسيتين:
<start_of_turn>user
Here are two question-answering dialogues. Compare two models' performance on answering questions, determine which is better.
#Prompt1
xxxxx
#Response
##Model A
xxxxx
##Model B
xxxx
#Prompt2
xxxxx
#Response
............
###options
A. Model A
B. Model B
C. Tie
<end_of_turn>
<start_of_turn>model
A<eos>
4bit qlora على gemma-2-9b-it و meta-llama-3.1-8b-instruct ، المعلمات: r = 32 ، وحدات = ["q_proj" ، "k_proj" ، "v_proj" ، "o_proj"].
صرف التعليمات بدلا من التصنيف.
لا gradient_checkpointing_enable () لتقليل وقت التدريب.
تستخدم بيانات إضافية 33k إضافية للضباط الدقيق وعينة 10 كيلو لاتخاذ TTA.
تقسيم سيرة ذاتية كبيرة (80 ٪ / 20 ٪) لتجنب التكرارات بين القطار والتحقق من الصحة.
GPU: متعدد 80 جيجابايت A100 GPU + GPUs متعددة A40.
ضبط درجة الحرارة = 1.03 للاستدلال.
التقديم 1: GEMMA-2-9B-IT + LLAMA-33.1-8B-IT + GEMMA-2-2B-IT & STRIMMINCE2: GEMMA-2-9B-IT + LLAMA-3.1-8B-IT + TTA.
بسبب بعض الأشخاص الخبيثين ، تحولت ما كان في السابق منافسة مستقرة وذات مغزى إلى واحدة من الأسوأ في تاريخ Kaggle.
بفضل الفريق بأكمله للعمل الشاق للجميع. دعنا نستمر في المضي قدمًا!