Скачать Kaggle LMSYS - Kaggle LMSYS Source Code скачать

Kaggle LMSYS

AI Исходный код

1.0.0

Скачать

Это репо предназначено для Kaggle - LMSYS - Chatbot Arena.

Среда Python

1. Установите пакеты

 pip install - r requirements . txt

Подготовьте данные

1. Установите API Kaggle

 export KAGGLE_USERNAME= " your_kaggle_username "
export KAGGLE_KEY= " your_api_key "
export HF_TOKEN= " your_hf_token "

2. Установите Unzip

sudo apt install unzip

3. Скачать наборы данных

kaggle datasets download -d lizhecheng/lmsys-datasets
unzip lmsys-datasets.zip

4. Скачать адаптеры Lora

kaggle datasets download -d lizhecheng/lmsys-lora
unzip lmsys-lora.zip

Обучение

1. В этом репо

 cd src
cd team gemma / cd team llama
python train_xxx.py

2. Перейти к полному репо

Нажмите на полную тренировку

[38 -е решение] Потерянная золотая медаль

1. Код

Проверьте наш код на LMSYS GitHub.

2. Методология

Мы используем настройку инструкций, делая входной формат решающим. После экспериментов с различными форматами мы определили оптимальный подход:

Сначала мы определяем максимальную длину. Затем мы объединяем множество видов паров быстрого ответа в этом пределе. Если предыдущая пара подсказки-ответов превышает максимальную длину, новая пара подсказки-ответ помещается в отдельную строку. Например, рассмотрим подсказки [P1, P2, P3] с соответствующими ответами [A1, A2, A3] и [B1, B2, B3]. Этот метод позволяет нам генерировать два ряда: (P1, A1, B1) и (P2, A2, B2, P3, A3, B3), предполагая (P1, A1, B1) не превышает максимальную длину. Тем не менее, для обучения мы используем только последний поворот пары оперативного ответа для каждого идентификатора.

Этот подход предлагает два ключевых преимущества:

Структурирование ввода таким образом может помочь модели узнать, какие два ответа необходимо сравнить.
Согласованные пары приглашенного ответа в пределах максимальной длины гарантируют, что каждый вход является полным разговором, избегая усечения. Это снижает риск того, что модель делает плохой выбор из -за неполных ответов.

 <start_of_turn>user
Here are two question-answering dialogues. Compare two models' performance on answering questions, determine which is better.
#Prompt1
xxxxx
#Response
##Model A
xxxxx
##Model B
xxxx

#Prompt2
xxxxx
#Response
............

###options
A. Model A
B. Model B
C. Tie
<end_of_turn>
<start_of_turn>model 
A<eos>

3. Детали обучения и вывода

4bit Qlora на Gemma-2-9B-IT и Meta-Llama-3.1-8b-Instruct, параметры: r = 32, модули = ["q_proj", "k_proj", "v_proj", "o_proj"].
Настройка инструкции вместо классификации.
Нет gradient_checkpointing_enable (), чтобы сократить время обучения.
Использовал дополнительные данные 33K для тонкой настройки и образец 10K данных для выполнения TTA.
Отличный резюме (80% / 20%), чтобы избежать дубликатов между поездом и валидацией.
GPU: несколько графических процессоров 80 ГБ A100 + несколько графических процессоров A40.
Установить температуру = 1,03 для вывода.
Представление1: GEMMA-2-9B-IT + LLAMA-3.1-8B-IT + GEMMA-2-2B-IT & PRESTION2: GEMMA-2-9B-IT + LLAMA-3.1-8B-IT + TTA.

4. не работать

Псевдо-маршрута и обученная жесткой меткой (возможно, следует рассмотреть вопрос о использовании kl-loss для использования псевдо-маршрута).
Только рассчитайте [A, B, C] потерю токена, даже выполняя настройку инструкции, так же, как задача классификации.

5. Заключение

Из -за некоторых злонамеренных людей то, что когда -то было очень стабильным и значимым соревнованием, превратилось в одно из худших в истории Каггла.

Спасибо всей команде за тяжелую работу каждого. Давайте продолжим двигаться вперед!

Расширять

Дополнительная информация