Kaggle LMSYS 다운로드 -Kaggle Kaggle LMSYS 소스 코드 다운로드

Kaggle LMSYS

AI 소스 코드

1.0.0

다운로드

이 repo는 Kaggle -lmsys -Chatbot Arena 인간 선호 예측입니다.

파이썬 환경

1. 패키지를 설치하십시오

 pip install - r requirements . txt

데이터 준비

1. Kaggle API를 설정하십시오

 export KAGGLE_USERNAME= " your_kaggle_username "
export KAGGLE_KEY= " your_api_key "
export HF_TOKEN= " your_hf_token "

2. 압축을 설치하십시오

sudo apt install unzip

3. 데이터 세트를 다운로드하십시오

kaggle datasets download -d lizhecheng/lmsys-datasets
unzip lmsys-datasets.zip

4. 로라 어댑터를 다운로드하십시오

kaggle datasets download -d lizhecheng/lmsys-lora
unzip lmsys-lora.zip

훈련

1.이 리포지토리에서

 cd src
cd team gemma / cd team llama
python train_xxx.py

2. 전체 repo로 이동하십시오

전체 훈련 코드를 클릭하십시오

[38 번째 솔루션] 금메달을 잃었습니다

1. 코드

LMSYS Github에서 코드를 확인하십시오.

2. 방법론

우리는 명령 튜닝을 사용하여 입력 형식을 중요하게 만듭니다. 다양한 형식을 실험 한 후 최적의 접근 방식을 식별했습니다.

먼저 최대 길이를 정의합니다. 그런 다음이 한계 내에서 여러 회전의 프롬프트 응답 쌍을 연결합니다. 이전 프롬프트 응답 쌍이 최대 길이를 초과하면 새 프롬프트 응답 쌍이 별도의 행에 배치됩니다. 예를 들어, 상응하는 응답 [A1, A2, A3] 및 [B1, B2, B3]가있는 프롬프트 [P1, P2, P3]를 고려하십시오. 이 방법을 사용하면 (P1, A1, B1)과 (P1, A1, B1)가 최대 길이를 초과하지 않는다고 가정하면 (P1, A1, B1)과 (P2, A2, B2, P3, A3, B3)을 생성 할 수 있습니다. 그러나 훈련을 위해서는 각 ID에 대한 프롬프트 응답 쌍의 마지막 회전 만 사용합니다.

이 접근법은 두 가지 주요 장점을 제공합니다.

이러한 방식으로 입력을 구성하면 모델이 어떤 두 응답을 비교 해야하는지 학습하는 데 도움이 될 수 있습니다.
최대 길이 내에서 프롬프트-응답 쌍을 연결하면 각 입력이 잘린 대화가 끝나지 않도록합니다. 이는 불완전한 응답으로 인해 모델이 나쁜 선택을 할 위험이 줄어 듭니다.

 <start_of_turn>user
Here are two question-answering dialogues. Compare two models' performance on answering questions, determine which is better.
#Prompt1
xxxxx
#Response
##Model A
xxxxx
##Model B
xxxx

#Prompt2
xxxxx
#Response
............

###options
A. Model A
B. Model B
C. Tie
<end_of_turn>
<start_of_turn>model 
A<eos>

3. 훈련 및 추론 세부 사항

4 비트 QBIT QBOR-GEMMA-2-9B-IT 및 META-LLAMA-3.1-8B-비율, 매개 변수 : r = 32, 모듈 = [ "Q_Proj", "K_Proj", "V_PROJ", "O_PROJ"].
분류 대신 교육 조정.
교육 시간을 줄이기위한 gradient_checkpointing_enable () 없음.
미세 조정 및 샘플 10K 데이터에 추가 33K 데이터를 사용하여 TTA를 수행했습니다.
열차와 검증 간의 복제를 피하기 위해 CV 분할 (80% / 20%).
GPU : 다중 80GB A100 GPU + 다중 A40 GPU.
추론을 위해 온도 = 1.03을 설정하십시오.
제출 1 : 젬마 -2-9B-IT + llama-3.1-8B-IT + gemma-2-2b-IT & 제출 2 : 젬마 -2-9B-IT + llama-3.1-8b-IT + TTA.