pip install - r requirements . txt export KAGGLE_USERNAME= " your_kaggle_username "
export KAGGLE_KEY= " your_api_key "
export HF_TOKEN= " your_hf_token " sudo apt install unzipkaggle datasets download -d lizhecheng/lmsys-datasets
unzip lmsys-datasets.zipkaggle datasets download -d lizhecheng/lmsys-lora
unzip lmsys-lora.zip cd src
cd team gemma / cd team llama
python train_xxx.pyKlik kode-pelatihan penuh
Periksa kode kami di LMSys GitHub.
Kami menggunakan penyetelan instruksi, menjadikan format input penting. Setelah bereksperimen dengan berbagai format, kami mengidentifikasi pendekatan optimal:
Pertama, kami mendefinisikan panjang maksimum. Kemudian, kami menggabungkan beberapa putaran pasangan respons cepat dalam batas ini. Jika pasangan respons prompt sebelumnya melebihi panjang maksimum, pasangan respons prompt baru ditempatkan di baris terpisah. Sebagai contoh, pertimbangkan prompt [P1, P2, P3] dengan respons yang sesuai [A1, A2, A3] dan [B1, B2, B3]. Metode ini memungkinkan kita untuk menghasilkan dua baris: (P1, A1, B1) dan (P2, A2, B2, P3, A3, B3), dengan asumsi (P1, A1, B1) tidak melebihi panjang maksimum. Namun, untuk pelatihan, kami hanya menggunakan belokan terakhir dari pasangan respons cepat untuk setiap ID.
Pendekatan ini menawarkan dua keunggulan utama:
<start_of_turn>user
Here are two question-answering dialogues. Compare two models' performance on answering questions, determine which is better.
#Prompt1
xxxxx
#Response
##Model A
xxxxx
##Model B
xxxx
#Prompt2
xxxxx
#Response
............
###options
A. Model A
B. Model B
C. Tie
<end_of_turn>
<start_of_turn>model
A<eos>
4bit qlora pada Gemma-2-9b-it dan meta-llama-3.1-8b-instruct, parameter: r = 32, modul = ["q_proj", "k_proj", "v_proj", "o_proj"].
Penyetelan instruksi alih-alih klasifikasi.
Tidak ada gradient_checkpointing_enable () untuk mengurangi waktu pelatihan.
Menggunakan data 33K tambahan untuk fine-tuning dan sampel data 10K untuk melakukan TTA.
CV Great Split (80% / 20%) untuk menghindari duplikat antara kereta dan validasi.
GPU: Beberapa GPU 80GB A100 GPU + beberapa GPU A40.
Atur suhu = 1,03 untuk inferensi.
Submission1: GEMMA-2-9B-IT + LLAMA-3.1-8B-IT + GEMMA-2-2B-IT & Submission2: GEMMA-2-9B-IT + LLAMA-3.1-8B-IT + TTA.
Karena beberapa orang jahat, apa yang dulunya merupakan kompetisi yang sangat stabil dan bermakna telah berubah menjadi salah satu yang terburuk dalam sejarah Kaggle.
Terima kasih kepada seluruh tim untuk kerja keras semua orang. Mari kita terus bergerak maju!