Kaggle LMSYS
1.0.0
pip install - r requirements . txt export KAGGLE_USERNAME= " your_kaggle_username "
export KAGGLE_KEY= " your_api_key "
export HF_TOKEN= " your_hf_token " sudo apt install unzipkaggle datasets download -d lizhecheng/lmsys-datasets
unzip lmsys-datasets.zipkaggle datasets download -d lizhecheng/lmsys-lora
unzip lmsys-lora.zip cd src
cd team gemma / cd team llama
python train_xxx.py单击全训练代码
在LMSYS GITHUB上检查我们的代码。
我们采用说明调整,使输入格式至关重要。实验各种格式后,我们确定了最佳方法:
首先,我们定义最大长度。然后,我们在此限制内串联多个迅速响应对。如果先前的提示响应对超过最大长度,则将新的提示响应对放在单独的行中。例如,考虑提示[P1,P2,P3],具有相应的响应[A1,A2,A3]和[B1,B2,B3]。此方法允许我们生成两行:(P1,A1,B1)和(P2,A2,B2,P3,A3,B3),假设(P1,A1,B1)不超过最大长度。但是,对于培训,我们仅对每个ID使用及时响应对的最后一回合。
这种方法提供了两个关键优势:
<start_of_turn>user
Here are two question-answering dialogues. Compare two models' performance on answering questions, determine which is better.
#Prompt1
xxxxx
#Response
##Model A
xxxxx
##Model B
xxxx
#Prompt2
xxxxx
#Response
............
###options
A. Model A
B. Model B
C. Tie
<end_of_turn>
<start_of_turn>model
A<eos>
4bit Qlora在Gemma-2-9b-it和Meta-llama-3.1-8b-inscruct上,参数:r = 32,模块= [“ q_proj”,“ k_proj”,“ v_proj”,“ v_proj”,“ o_proj”]。
指导调用而不是分类。
没有gradient_checkpointing_enable()来减少训练时间。
使用其他33K数据进行微调和示例10K数据进行TTA。
大量简历分开(80% / 20%),以避免在火车和验证之间进行重复。
GPU:多个80GB A100 GPU +多个A40 GPU。
设定温度= 1.03用于推理。
提交1:Gemma-2-9b-it + Llama-3.1-8b-it + gemma-2-2b-it&incmission2:gemma-2-9b-it + llama-3.1-8b-it + tta。
由于一些恶意人,曾经是一场非常稳定且有意义的竞争已经变成了卡格格尔历史上最糟糕的比赛之一。
感谢整个团队的辛勤工作。让我们继续前进!