Llm-rlhf-tuning
Этот проект реализует трехэтапные тренировки RLHF с нуля и подробно записывает детали реализации в документе. Все могут общаться и обсудить WeChat
Основной контент:
- Поддерживает инструкцию с тонкой настройкой модели альпаки
- Поддержка обучения моделей вознаграждений
- Поддержка алгоритма PPO для обучения моделей RL
- Поддерживает адаптеры на основе двух основных моделей и двух LORA, и загружает четыре модели: RM, SFT, актер и критик одновременно, и поддерживает ускорение распределенного обучения (детали реализации алгоритма PPO)
- Поддерживает два адаптера Lora на основе одной базовой модели, и загружает четыре модели: RM, SFT, актер и критик одновременно, поддерживая ускорение и обучение Deepspeed.
- Поддерживает базовую модель, основанную на базовой модели и адаптере LORA, актере и базовой модели Critic, и реализует четыре функции модели: RM, SFT, актер и критик, а также поддерживает ускоренное и глубокое обучение.
- Поддержка модели обучения алгоритму DPO
обновлять
- [23/8/23] Поддержка модели Llama2; Поддержка обучения DPO; Поддержка обучения PPO на основе одной базовой модели, выберите один или два адаптера Lora, поддержать ускорение, Deepspeed Training
- [23/8/13] Поддержка модели Llama; Поддержка обучения PPO на основе двух базовых моделей и двух адаптеров LORA; Поддержка ускорения распределенного обучения
Функция
Сравнение с функциями учебной структуры RLHF с открытым исходным кодом
| рамка | SFT Train | RM поезда | Поезд PPO | DPO поезд |
|---|
| Наш | ✅ | ✅ | ✅ | ✅ |
| Темно-скорость-чат | ✅ | ✅ | ✅ | |
| TRL | ✅ | ✅ | ✅ | ✅ |
| Moss-rlhf | | | ✅ | |
Поезд PPO
| рамка | Ускорить | Глубокая скорость | Multi Lora | Минимальное количество параметров модели (в качестве примера 7b) |
|---|
| Наш | ✅ | ✅ | ✅ | размер одиночной модели ~ 7b |
| Темно-скорость-чат | | ✅ | | SFT+RM+актер+критик ~ 28b |
| TRL | ✅ | | | Размер одной модели (не используйте модель Ref) ~ 7b |
| Moss-rlhf | модель актера, критическая модель | модель SFT, модель RM | | SFT+RM+актер+критик ~ 28b |
Рекомендации по использованию
Строительство окружающей среды
accelerate==0.21.0
datasets==2.13.1
scikit-learn==1.3.0
sentencepiece==0.1.99
tqdm==4.65.0
transformers==4.31.0
wandb==0.15.8
peft==0.4.0
torch==2.0.1
trl==0.5.0
deepspeed==0.10.0
Модель поддержки
Поддержка методов обучения
Детали обучения
Инструкция с тонкой настройкой
Модель вознаграждения обучения
ППО обучение
DPO обучение
Тодо
Добро пожаловать в группу, чтобы обсудить WeChat