Unduh EasyRLHF - Unduh Kode Sumber EasyRLHF

EasyRLHF

Kode Sumber AI

1.0.0

Unduh

Easyrlhf

Easyrlhf bertujuan untuk menyediakan antarmuka yang mudah dan minim untuk melatih model bahasa yang selaras, menggunakan solusi dan dataset di luar rak (yaitu pelatih HF, dataset HF, Deepspeed, TRL).

Bagian berikut akan mencakup konsep kasar metode penyelarasan (RLHF, RRHF, DPO, IPO) dan memberikan cara menjalankan contoh.

Tinjauan RLHF

Seperti yang ditunjukkan dalam Paper Instruktur, kita dapat melatih model hadiah dan memperkuat model bahasa untuk mengikuti instruksi manusia dengan lebih baik. Pertama-tama kita dapat melatih model hadiah dan SFT-LM dengan dataset hh-rlhf dan dataset slimorca-dedup masing-masing. Kemudian PPO-LM dapat dilatih dengan perpustakaan TRL.

alur kerja

Latih model hadiah

Kami membutuhkan dataset perbandingan berpasangan untuk melatih model hadiah. Dalam makalah Instruktur, penulis menggunakan 4 ~ 9 peringkat kelanjutan pada prompt yang sama. Misalnya, A < B < C = D < E adalah urutan peringkat dan satu dapat mencicipi dua sampel sewenang -wenang (A dan C). Di sini, C menang atas preferensi manusia. Dengan demikian kami memodelkan logit of C - logit of A menjadi peluang log C menjadi demonstrasi yang lebih baik daripada A. logit of X dapat dihitung oleh kepala linier yang terpasang di bagian atas dekoder transformator. Kami menggunakan dataset off-the-shelf dari HH-RLHF oleh Anthropic. Dataset ini sudah datar sehingga kita tidak perlu khawatir tentang skema pengambilan sampel yang dibahas dalam kertas Instruktur.

Latih model SFT (yang diawasi finetuned) (WIP)

Kami dapat melatih model SFT dengan prediksi standar berikutnya menggunakan slimorca-dedup.

Latih model PPO (WIP)

Sekarang kami memiliki model hadiah dan model SFT, kami dapat melakukan pembelajaran penguatan dengan paket RL di luar rak yang dirancang untuk model bahasa. Kami menggunakan TRLTO memperkuat model SFT. Pada tahap PPO, kami menyimpan salinan model SFT untuk referensi. Model referensi ini memungkinkan model perilaku untuk belajar meningkatkan preferensi manusia sambil menghindari peretasan hadiah. Secara khusus, Model Perilaku pertama -tama menghasilkan penyelesaian yang diberikan prompt. Distribusi token tetap dekat dengan model referensi melalui meminimalkan divergensi KL terhadap distribusi token model referensi. Penyelesaian diberi makan model hadiah untuk mendapatkan skor hadiah. Istilah KL dan skor hadiah dijumlahkan dan dianggap sebagai hadiah untuk algoritma PPO.

QuickStart

Siapkan Lingkungan Virtual (Opsional)

 conda create -n easy-rlhf python=3.8

Klon dan pasang persyaratan

 git clone https://github.com/DaehanKim/EasyRLHF.git
cd EasyRLHF
pip install .

Unzip HH-RLHF Dataset dan Latih Model Hadiah dengan Menggunakan rm_train CMD

 cd data
find . -name '*.gz' -print0 | xargs -0 gzip -d
rm_train --devices "0,1,2,3" 
--output_dir "outputs/my-model" 
--train_data data/helpful-base/train.jsonl,data/helpful-online/train.jsonl,data/helpful-rejection-sampled/train.jsonl 
--valid_data data/helpful-base/test.jsonl,data/helpful-online/test.jsonl,data/helpful-rejection-sampled/test.jsonl

Atau, Anda dapat menggunakan scripts/rm_train.sh untuk pengaturan yang lebih disesuaikan

Catatan

Model default adalah GPT2-XL (1.5b) dan kerugiannya adalah entropi silang biner.
Deepspeed Config ada di configs/ds_config.yaml di mana Anda dapat mengatur pengaturan terdistribusi yang Anda sukai. Default diatur ke paralelisme nol-2.
Todo
- Pelatihan Model Hadiah Dasar
- Pelatihan Model SFT Dasar
- Pelatihan Model PPO Dasar

Tinjauan RRHF

Tbd

Tinjauan DPO

Tbd

Ikhtisar IPO

Tbd

Referensi

Instruksikan kertas
trl
HH-RLHF
Slimorca-DeDup
Rrhf
Dpo
IPO

Lisensi

Proyek ini hanya mengikat pustaka dan dataset dari berbagai sumber, sehingga berada di bawah ketentuan lisensi sumber yang sesuai. Binding Script itu sendiri adalah MIT berlisensi.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-09-06
ukuran 75.62MB
Berasal dari Github

Aplikasi Terkait

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua