pip install - r requirements . txt export KAGGLE_USERNAME= " your_kaggle_username "
export KAGGLE_KEY= " your_api_key "
export HF_TOKEN= " your_hf_token " sudo apt install unzipkaggle datasets download -d lizhecheng/lmsys-datasets
unzip lmsys-datasets.zipkaggle datasets download -d lizhecheng/lmsys-lora
unzip lmsys-lora.zip cd src
cd team gemma / cd team llama
python train_xxx.pyНажмите на полную тренировку
Проверьте наш код на LMSYS GitHub.
Мы используем настройку инструкций, делая входной формат решающим. После экспериментов с различными форматами мы определили оптимальный подход:
Сначала мы определяем максимальную длину. Затем мы объединяем множество видов паров быстрого ответа в этом пределе. Если предыдущая пара подсказки-ответов превышает максимальную длину, новая пара подсказки-ответ помещается в отдельную строку. Например, рассмотрим подсказки [P1, P2, P3] с соответствующими ответами [A1, A2, A3] и [B1, B2, B3]. Этот метод позволяет нам генерировать два ряда: (P1, A1, B1) и (P2, A2, B2, P3, A3, B3), предполагая (P1, A1, B1) не превышает максимальную длину. Тем не менее, для обучения мы используем только последний поворот пары оперативного ответа для каждого идентификатора.
Этот подход предлагает два ключевых преимущества:
<start_of_turn>user
Here are two question-answering dialogues. Compare two models' performance on answering questions, determine which is better.
#Prompt1
xxxxx
#Response
##Model A
xxxxx
##Model B
xxxx
#Prompt2
xxxxx
#Response
............
###options
A. Model A
B. Model B
C. Tie
<end_of_turn>
<start_of_turn>model
A<eos>
4bit Qlora на Gemma-2-9B-IT и Meta-Llama-3.1-8b-Instruct, параметры: r = 32, модули = ["q_proj", "k_proj", "v_proj", "o_proj"].
Настройка инструкции вместо классификации.
Нет gradient_checkpointing_enable (), чтобы сократить время обучения.
Использовал дополнительные данные 33K для тонкой настройки и образец 10K данных для выполнения TTA.
Отличный резюме (80% / 20%), чтобы избежать дубликатов между поездом и валидацией.
GPU: несколько графических процессоров 80 ГБ A100 + несколько графических процессоров A40.
Установить температуру = 1,03 для вывода.
Представление1: GEMMA-2-9B-IT + LLAMA-3.1-8B-IT + GEMMA-2-2B-IT & PRESTION2: GEMMA-2-9B-IT + LLAMA-3.1-8B-IT + TTA.
Из -за некоторых злонамеренных людей то, что когда -то было очень стабильным и значимым соревнованием, превратилось в одно из худших в истории Каггла.
Спасибо всей команде за тяжелую работу каждого. Давайте продолжим двигаться вперед!