Llm-rlhf-tuning
Proyek ini mengimplementasikan pelatihan tiga tahap RLHF dari awal dan menulis detail implementasi secara rinci dalam dokumen. Setiap orang dipersilakan untuk berkomunikasi dan mendiskusikan WeChat
Konten Utama:
- Mendukung Model Alpaca Menyaring Instruksi
- Dukungan Pelatihan Model Hadiah
- Dukung algoritma PPO untuk melatih model RL
- Mendukung adaptor berdasarkan dua model dasar dan dua LORA, dan memuat empat model: RM, SFT, aktor, dan kritikus pada saat yang sama, dan mendukung pelatihan terdistribusi akselerasi (detail implementasi algoritma PPO)
- Mendukung dua adaptor LORA berdasarkan satu model dasar, dan memuat empat model: RM, SFT, aktor, dan kritikus pada saat yang sama, mendukung pelatihan Accelerate dan Deepspeed.
- Mendukung model dasar berdasarkan model dasar dan adaptor LORA, aktor dan model basis berbagi kritik, dan mengimplementasikan empat fungsi model: RM, SFT, aktor dan kritik, dan mendukung pelatihan percepatan dan kecepatan dalam.
- Mendukung model pelatihan algoritma DPO
memperbarui
- [23/8/23] Mendukung pelatihan model LLAMA2; mendukung pelatihan DPO; Dukungan Pelatihan PPO Berdasarkan satu model dasar, pilih satu atau dua adaptor LORA, Dukungan Accelerate, pelatihan Deepspeed
- [23/8/13] Dukungan Pelatihan Model Llama; Dukung pelatihan PPO berdasarkan dua model dasar dan dua adaptor LORA; Dukungan Pelatihan Terdistribusi Akselerasi
Fungsi
Perbandingan dengan fungsi kerangka pelatihan RLHF open source
| bingkai | Kereta SFT | Kereta RM | Kereta PPO | Kereta DPO |
|---|
| Kita | ✅ | ✅ | ✅ | ✅ |
| DEEK-CHAT DEEP | ✅ | ✅ | ✅ | |
| trl | ✅ | ✅ | ✅ | ✅ |
| Lumut-rlhf | | | ✅ | |
Kereta PPO
| bingkai | Mempercepat | Kecepatan yang dalam | Multi lora | Kuantitas parameter model minimum (7b sebagai contoh) |
|---|
| Kita | ✅ | ✅ | ✅ | Ukuran model tunggal ~ 7b |
| DEEK-CHAT DEEP | | ✅ | | sft+rm+aktor+kritik ~ 28b |
| trl | ✅ | | | Ukuran model tunggal (tidak menggunakan model ref) ~ 7b |
| Lumut-rlhf | model aktor, model kritis | Model SFT, model RM | | sft+rm+aktor+kritik ~ 28b |
Pedoman untuk digunakan
Konstruksi Lingkungan
accelerate==0.21.0
datasets==2.13.1
scikit-learn==1.3.0
sentencepiece==0.1.99
tqdm==4.65.0
transformers==4.31.0
wandb==0.15.8
peft==0.4.0
torch==2.0.1
trl==0.5.0
deepspeed==0.10.0
Model Dukungan
Metode Pelatihan Dukungan
Detail Pelatihan
Model penyempurnaan instruksi
Model Hadiah Pelatihan
Pelatihan PPO
Pelatihan DPO
Todo
Selamat datang untuk bergabung dengan grup untuk membahas WeChat