ดาวน์โหลด Kaggle LMSYS - Kaggle LMSYS ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

Kaggle LMSYS

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

repo นี้มีไว้สำหรับ Kaggle - LMSYS - Chatbot Arena การทำนายความพึงพอใจของมนุษย์

สภาพแวดล้อม Python

1. ติดตั้งแพ็คเกจ

 pip install - r requirements . txt

เตรียมข้อมูล

1. ตั้ง Kaggle API

 export KAGGLE_USERNAME= " your_kaggle_username "
export KAGGLE_KEY= " your_api_key "
export HF_TOKEN= " your_hf_token "

2. ติดตั้ง UNZIP

sudo apt install unzip

3. ดาวน์โหลดชุดข้อมูล

kaggle datasets download -d lizhecheng/lmsys-datasets
unzip lmsys-datasets.zip

4. ดาวน์โหลดอะแดปเตอร์ Lora

kaggle datasets download -d lizhecheng/lmsys-lora
unzip lmsys-lora.zip

การฝึกอบรม

1. ใน repo นี้

 cd src
cd team gemma / cd team llama
python train_xxx.py

2. ไปที่ Repo เต็มรูปแบบ

คลิกรหัสการฝึกอบรมเต็มรูปแบบ

[โซลูชันที่ 38] เหรียญทองที่หายไป

1. รหัส

ตรวจสอบรหัสของเราที่ LMSYS GitHub

2. วิธีการ

เราใช้การปรับแต่งการเรียนการสอนทำให้รูปแบบอินพุตมีความสำคัญ หลังจากทดลองกับรูปแบบต่าง ๆ เราได้ระบุวิธีการที่ดีที่สุด:

ก่อนอื่นเรากำหนดความยาวสูงสุด จากนั้นเราเชื่อมต่อคู่ของการตอบสนองต่อการตอบสนองหลายครั้งภายในขีด จำกัด นี้ หากคู่ตอบกลับพรอมต์ก่อนหน้านี้เกินความยาวสูงสุดคู่ตอบกลับพรอมต์ใหม่จะถูกวางไว้ในแถวแยกต่างหาก ตัวอย่างเช่นพิจารณาแจ้งให้ [P1, P2, P3] พร้อมคำตอบที่สอดคล้องกัน [A1, A2, A3] และ [B1, B2, B3] วิธีนี้ช่วยให้เราสามารถสร้างสองแถว: (P1, A1, B1) และ (P2, A2, B2, P3, A3, B3), สมมติว่า (P1, A1, B1) ไม่เกินความยาวสูงสุด อย่างไรก็ตามสำหรับการฝึกอบรมเราใช้เทิร์นสุดท้ายของคู่ตอบสนองต่อการตอบสนองสำหรับแต่ละ ID

วิธีการนี้มีข้อได้เปรียบที่สำคัญสองประการ:

การจัดโครงสร้างอินพุตด้วยวิธีนี้อาจช่วยให้แบบจำลองเรียนรู้ว่าต้องเปรียบเทียบคำตอบสองข้อ
การต่อคู่การตอบสนองต่อการตอบสนองภายในความยาวสูงสุดทำให้มั่นใจได้ว่าการป้อนข้อมูลแต่ละครั้งเป็นการสนทนาที่สมบูรณ์โดยหลีกเลี่ยงการตัดทอน สิ่งนี้จะช่วยลดความเสี่ยงของแบบจำลองการเลือกที่ไม่ดีเนื่องจากการตอบสนองที่ไม่สมบูรณ์

 <start_of_turn>user
Here are two question-answering dialogues. Compare two models' performance on answering questions, determine which is better.
#Prompt1
xxxxx
#Response
##Model A
xxxxx
##Model B
xxxx

#Prompt2
xxxxx
#Response
............

###options
A. Model A
B. Model B
C. Tie
<end_of_turn>
<start_of_turn>model 
A<eos>

3. รายละเอียดการฝึกอบรมและการอนุมาน

4bit Qlora บน Gemma-2-9b-It และ Meta-llama-3.1-8b-Instruct, พารามิเตอร์: r = 32, โมดูล = ["q_proj", "k_proj", "v_proj", "o_proj"]
การปรับแต่งคำสั่งแทนการจำแนกประเภท
ไม่มีการไล่ระดับสี _checkpointing_enable () เพื่อลดเวลาการฝึกอบรม
ใช้ข้อมูลเพิ่มเติม 33K สำหรับการปรับจูนและตัวอย่างข้อมูล 10K เพื่อทำ TTA
Great CV Split (80% / 20%) เพื่อหลีกเลี่ยงการทำซ้ำระหว่างรถไฟและการตรวจสอบความถูกต้อง
GPU: 80GB A100 GPUs + หลาย A40 GPU หลายตัว
ตั้งค่าอุณหภูมิ = 1.03 สำหรับการอนุมาน
Submission1: Gemma-2-9B-IT + LLAMA-3.1-8B-IT + GEMMA-2-2B-IT & SUPNISSION2: GEMMA-2-9B-IT + LLAMA-3.1-8B-IT + TTA

4. ไม่ทำงาน

Pseudo-label และได้รับการฝึกฝนโดย Hard Label (อาจพิจารณาใช้ KL-Loss เพื่อใช้ Pseudo-Label)
คำนวณเฉพาะ [A, B, C] การสูญเสียโทเค็นแม้กระทั่งการปรับแต่งคำสั่งเช่นเดียวกับงานการจำแนกประเภท

5. บทสรุป

เนื่องจากคนที่เป็นอันตรายบางคนครั้งหนึ่งเคยเป็นการแข่งขันที่มั่นคงและมีความหมายได้กลายเป็นหนึ่งในประวัติศาสตร์ที่เลวร้ายที่สุดในประวัติศาสตร์ของ Kaggle

ขอบคุณทั้งทีมสำหรับการทำงานหนักของทุกคน ไปข้างหน้ากันเถอะ!

ขยาย

ข้อมูลเพิ่มเติม