EasyRLHF скачать - EasyRLHF исходный код скачать

EasyRLHF

AI Исходный код

1.0.0

Скачать

Easyrlhf

EASYRLHF стремится предоставить простой и минимальный интерфейс для обучения выровненных языковых моделей, используя готовые решения и наборы данных (т.е. тренер HF, наборы данных HF, DeepSpeed, TRL).

Следующие разделы будут охватывать грубые концепции методов выравнивания (RLHF, RRHF, DPO, IPO) и предоставит примеры.

Обзор RLHF

Как показано в документе «Инструктор», мы можем обучить модель вознаграждения и усилить языковую модель, чтобы лучше следовать человеческим инструкциям. Мы можем сначала построить модель вознаграждения и SFT-LM с набором данных hh-rlhf и набором данных slimorca-dedup , соответственно. Затем PPO-LM может быть обучен библиотекой TRL.

рабочий процесс

Обучить модель вознаграждения

Нам нужен набор данных для парного сравнения для обучения модели вознаграждения. В документе «Инструктор» авторы использовали 4 ~ 9 ранжированных продолжений по той же подсказке. Например, A < B < C = D < E - ранга, и можно обратить внимание на два произвольных образца (a и c). Здесь C выигрывает над человеческими предпочтениями. Таким образом, мы моделируем logit of C - logit of A чтобы быть логическим шансом на C, лучшую демонстрацию, чем A. logit of X может быть рассчитана с помощью линейной головки, прикрепленной в верхней части декодера трансформатора. Мы используем готовый набор данных от HH-RLHF от антропного. Этот набор данных уже ровный, поэтому нам не нужно беспокоиться о схемах выборки, обсуждаемых в документе «Инструктор».

Обучить модель SFT (контролируемое истечение) модель (WIP)

Мы можем обучить модель SFT со стандартной следующей точкой, используя Slimorca-Dedup.

Обучить модель PPO (WIP)

Теперь, когда у нас есть модель вознаграждения и модель SFT, мы можем провести обучение подкреплению с помощью готовых пакетов RL, предназначенных для языковых моделей. Мы используем TRLTO Укрепление модели SFT. На этапе PPO мы сохраняем копию модели SFT для справки. Эта эталонная модель позволяет модели поведения научиться увеличивать предпочтения человека, избегая при этом взлома вознаграждения. В частности, модель поведения сначала генерирует подсказку о завершении. Распределения токенов хранятся близко к эталонной модели, минимизируя KL-дивергентность по сравнению с распределением токенов эталонной модели. Завершение питается для вознаграждения, чтобы получить оценку вознаграждения. КОР КЛ и Оценка вознаграждения суммируются и рассматриваются как награда за алгоритм ППО.

QuickStart

Подготовьте виртуальную среду (необязательно)

 conda create -n easy-rlhf python=3.8

Клонировать и установить требования

 git clone https://github.com/DaehanKim/EasyRLHF.git
cd EasyRLHF
pip install .

Набор данных Unzip HH-RLHF и обучить модель вознаграждения с помощью rm_train CMD

 cd data
find . -name '*.gz' -print0 | xargs -0 gzip -d
rm_train --devices "0,1,2,3" 
--output_dir "outputs/my-model" 
--train_data data/helpful-base/train.jsonl,data/helpful-online/train.jsonl,data/helpful-rejection-sampled/train.jsonl 
--valid_data data/helpful-base/test.jsonl,data/helpful-online/test.jsonl,data/helpful-rejection-sampled/test.jsonl

В качестве альтернативы, вы можете использовать scripts/rm_train.sh для более индивидуальных настроек

Примечания

Модель по умолчанию-GPT2-XL (1,5b), а потеря-двоичная поперечная энтропия.
DeepSpeed Config находится в configs/ds_config.yaml где вы можете установить предпочтительную распределенную настройку. По умолчанию установлено параллелизм Zero-2.
Тодо
- Обучение модели базовой награды
- Основное обучение модели SFT
- Основное обучение модели PPO

Обзор RRHF

TBD

Обзор DPO

TBD

Обзор IPO

TBD

Ссылки

Инструкторная бумага
TRL
HH-RLHF
Слиморка-дедуп
RRHF
DPO
IPO

Лицензия

Этот проект просто связывает библиотеки и наборы данных из различных источников, поэтому находится в условиях лицензии соответствующих источников. Сам сценарий привязки является лицензированным MIT.

Расширять

Дополнительная информация