Unduh Kaggle LMSYS - Unduh Kode Sumber Kaggle LMSYS

Kaggle LMSYS

Kode Sumber AI

1.0.0

Unduh

Repo ini untuk Kaggle - LMSys - Prediksi Preferensi Manusia Chatbot Arena

Lingkungan Python

1. Pasang paket

 pip install - r requirements . txt

Menyiapkan data

1. Atur Kaggle API

 export KAGGLE_USERNAME= " your_kaggle_username "
export KAGGLE_KEY= " your_api_key "
export HF_TOKEN= " your_hf_token "

2. Pasang unzip

sudo apt install unzip

3. Unduh set data

kaggle datasets download -d lizhecheng/lmsys-datasets
unzip lmsys-datasets.zip

4. Unduh adaptor lora

kaggle datasets download -d lizhecheng/lmsys-lora
unzip lmsys-lora.zip

Pelatihan

1. Dalam repo ini

 cd src
cd team gemma / cd team llama
python train_xxx.py

2. Pergi ke repo penuh

Klik kode-pelatihan penuh

[Solusi ke -38] Kehilangan medali emas

1. Kode

Periksa kode kami di LMSys GitHub.

2. Metodologi

Kami menggunakan penyetelan instruksi, menjadikan format input penting. Setelah bereksperimen dengan berbagai format, kami mengidentifikasi pendekatan optimal:

Pertama, kami mendefinisikan panjang maksimum. Kemudian, kami menggabungkan beberapa putaran pasangan respons cepat dalam batas ini. Jika pasangan respons prompt sebelumnya melebihi panjang maksimum, pasangan respons prompt baru ditempatkan di baris terpisah. Sebagai contoh, pertimbangkan prompt [P1, P2, P3] dengan respons yang sesuai [A1, A2, A3] dan [B1, B2, B3]. Metode ini memungkinkan kita untuk menghasilkan dua baris: (P1, A1, B1) dan (P2, A2, B2, P3, A3, B3), dengan asumsi (P1, A1, B1) tidak melebihi panjang maksimum. Namun, untuk pelatihan, kami hanya menggunakan belokan terakhir dari pasangan respons cepat untuk setiap ID.

Pendekatan ini menawarkan dua keunggulan utama:

Menyusun input dengan cara ini dapat membantu model mempelajari dua tanggapan mana yang perlu dibandingkan.
Menggabungkan pasangan respons cepat dalam panjang maksimum memastikan bahwa setiap input adalah percakapan lengkap, menghindari pemotongan. Ini mengurangi risiko model membuat pilihan buruk karena tanggapan yang tidak lengkap.

 <start_of_turn>user
Here are two question-answering dialogues. Compare two models' performance on answering questions, determine which is better.
#Prompt1
xxxxx
#Response
##Model A
xxxxx
##Model B
xxxx

#Prompt2
xxxxx
#Response
............

###options
A. Model A
B. Model B
C. Tie
<end_of_turn>
<start_of_turn>model 
A<eos>

3. Detail Pelatihan & Inferensi

4bit qlora pada Gemma-2-9b-it dan meta-llama-3.1-8b-instruct, parameter: r = 32, modul = ["q_proj", "k_proj", "v_proj", "o_proj"].
Penyetelan instruksi alih-alih klasifikasi.
Tidak ada gradient_checkpointing_enable () untuk mengurangi waktu pelatihan.
Menggunakan data 33K tambahan untuk fine-tuning dan sampel data 10K untuk melakukan TTA.
CV Great Split (80% / 20%) untuk menghindari duplikat antara kereta dan validasi.
GPU: Beberapa GPU 80GB A100 GPU + beberapa GPU A40.
Atur suhu = 1,03 untuk inferensi.
Submission1: GEMMA-2-9B-IT + LLAMA-3.1-8B-IT + GEMMA-2-2B-IT & Submission2: GEMMA-2-9B-IT + LLAMA-3.1-8B-IT + TTA.

4. Tidak bekerja

Pseudo-label dan dilatih oleh label keras (mungkin harus mempertimbangkan menggunakan KL-Loss untuk menggunakan pseudo-label).
Hanya menghitung [A, B, C] Token Loss bahkan melakukan penyetelan instruksi, sama seperti tugas klasifikasi.

5. Kesimpulan

Karena beberapa orang jahat, apa yang dulunya merupakan kompetisi yang sangat stabil dan bermakna telah berubah menjadi salah satu yang terburuk dalam sejarah Kaggle.

Terima kasih kepada seluruh tim untuk kerja keras semua orang. Mari kita terus bergerak maju!

Memperluas

Informasi Tambahan