Скачать Bitune - загрузка исходного кода Bitune

Bitune

AI Исходный код

1.0.0

Скачать

Bitune: двунаправленная настройка обучения

[ Paper ] [ Website ]

Этот исходный код содержит реализацию Bitune, и его достаточно, чтобы воспроизвести результаты из статьи. Обратите внимание, что он использовался для изучения различных идей, и многие компоненты имеют разные имена или ссылаются на концепции, не упомянутые в статье.

Мы планируем выпустить чистую репо для Bitune в ближайшем будущем.

LM-Evaluation-Harness

Справочник lm-evaluation-harness содержит хранилище из Eleutherai/LM-Evaluation-Harness, адаптированный к нашему методу. Вы можете установить его со следующей командой:

pip install -e lm-evaluation-harness

Конфигурация

Установите правильный абсолютный путь в этот каталог в файле common_0.sh .
Скрипт оценки требует wandb для ведения журнала. Обновление строки 57 eval.py с вашим именем пользователя wandb .

Сценарии

Настройка настройки инструкции : запустите сценарий instruct.sh .
Обучение задачи вниз по течению : запустите сценарий downstream.sh . Убедитесь установить правильное количество шагов обновлений (на основе значений, представленных в Приложении), и понаправляться соответствующими строками для имени набора данных, оценок (в самомниме) и имени метода.
Абляции : неуместно линии для выбранной абляции в ablations.sh и запустите сценарий.

Краткий обзор кода _{^{спагетти}}

Реализация требовалась несколько модификаций классов модели HuggingFace, доступных в каталоге models :
- Модифицированный кв-кэш, поэтому он сохраняет график вычисления для градиентов.
- Добавлены смесительные модули с обучаемыми коэффициентами ( pass_scale_k , pass_scale_v ).
- Модифицированная маска внимания на основе параметра enforce_bidir функции forward() .
- Добавлен фрагмент кода внутри функции forward() ответственной за вызов обертки Bitune .
Bitune Wrapper ( _pass_fn() в файле passes.py ):
- Пропускает подсказку через модель два раза, чтобы получить два набора KV-кэша, одновременно устанавливая правильные адаптеры Lora и маски внимания для каждого прохода.
- Вызовы смешивания модулей для объединения двух наборов функций ( pass_scale_k , pass_scale_v ).
- Последний проходит ответ (в случае обучения) или генерирует первый токен ответа (для вывода). В случае дальнейшего поколения токенов, Bitune Wrapper вообще не называется, так как к-кВ-кв подсказки уже получается и сохраняется, поэтому генерация продолжается, как и в немодифицированной модели.
- Устанавливает все параметры LORA снова обучаемые, так как по умолчанию библиотеки peft устанавливает неактивные адаптеры как необработанные.
Модуль микширования (класс PassScale , определенный в models/think_gemma.py ):
- Содержит обучаемые коэффициенты для смешивания двух наборов функций, отдельных для ключей и значений, поэтому два коэффициента на блок внимания модели.
- Определяет функцию forward() , которая применяет операцию микширования на основе варианта, указанного в config ( config.pass_type ). Наш окончательный метод определяется вариантом 607 (тот, который используется для экспериментов), и его упрощенная версия 801 .

Библиотечные версии

Были использованы следующие версии библиотек:

transformers==4.38.2
peft==0.11.1
datasets==2.18.0
evaluate==0.4.0

Бибтекс

 @misc { kopiczko2024bitune ,
      title = { Bitune: Bidirectional Instruction-Tuning } ,
      author = { Dawid J. Kopiczko and Tijmen Blankevoort and Yuki M. Asano } ,
      year = { 2024 } ,
      eprint = { 2405.14862 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CL }
}