Unduh LLM RLHF Tuning - LLM RLHF Tuning source code download

Indonesia

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

Beranda>Terkait pemrograman>Kode Sumber AI

LLM RLHF Tuning

Kode Sumber AI

1.0.0

Unduh

Llm-rlhf-tuning

Proyek ini mengimplementasikan pelatihan tiga tahap RLHF dari awal dan menulis detail implementasi secara rinci dalam dokumen. Setiap orang dipersilakan untuk berkomunikasi dan mendiskusikan WeChat

Konten Utama:

Mendukung Model Alpaca Menyaring Instruksi
Dukungan Pelatihan Model Hadiah
Dukung algoritma PPO untuk melatih model RL
- Mendukung adaptor berdasarkan dua model dasar dan dua LORA, dan memuat empat model: RM, SFT, aktor, dan kritikus pada saat yang sama, dan mendukung pelatihan terdistribusi akselerasi (detail implementasi algoritma PPO)
- Mendukung dua adaptor LORA berdasarkan satu model dasar, dan memuat empat model: RM, SFT, aktor, dan kritikus pada saat yang sama, mendukung pelatihan Accelerate dan Deepspeed.
- Mendukung model dasar berdasarkan model dasar dan adaptor LORA, aktor dan model basis berbagi kritik, dan mengimplementasikan empat fungsi model: RM, SFT, aktor dan kritik, dan mendukung pelatihan percepatan dan kecepatan dalam.
Mendukung model pelatihan algoritma DPO

memperbarui

[23/8/23] Mendukung pelatihan model LLAMA2; mendukung pelatihan DPO; Dukungan Pelatihan PPO Berdasarkan satu model dasar, pilih satu atau dua adaptor LORA, Dukungan Accelerate, pelatihan Deepspeed
[23/8/13] Dukungan Pelatihan Model Llama; Dukung pelatihan PPO berdasarkan dua model dasar dan dua adaptor LORA; Dukungan Pelatihan Terdistribusi Akselerasi

Fungsi

Perbandingan dengan fungsi kerangka pelatihan RLHF open source

bingkai	Kereta SFT	Kereta RM	Kereta PPO	Kereta DPO
Kita	✅	✅	✅	✅
DEEK-CHAT DEEP	✅	✅	✅
trl	✅	✅	✅	✅
Lumut-rlhf			✅

Kereta PPO

bingkai	Mempercepat	Kecepatan yang dalam	Multi lora	Kuantitas parameter model minimum (7b sebagai contoh)
Kita	✅	✅	✅	Ukuran model tunggal ~ 7b
DEEK-CHAT DEEP		✅		sft+rm+aktor+kritik ~ 28b
trl	✅			Ukuran model tunggal (tidak menggunakan model ref) ~ 7b
Lumut-rlhf	model aktor, model kritis	Model SFT, model RM		sft+rm+aktor+kritik ~ 28b

Pedoman untuk digunakan

Konstruksi Lingkungan

 accelerate==0.21.0
datasets==2.13.1
scikit-learn==1.3.0
sentencepiece==0.1.99
tqdm==4.65.0
transformers==4.31.0
wandb==0.15.8
peft==0.4.0
torch==2.0.1
trl==0.5.0
deepspeed==0.10.0