Diseksi terfokus dari detail implementasi dari proyek mainan mandiri kecil yang disederhanakan yang menunjukkan pembelajaran penguatan dari Human Feedback (RLHF) dengan penekanan khusus pada menghubungkan persamaan yang menggambarkan optimasi kebijakan proksimal ke baris kode pytorch yang menerapkan PPO untuk bekerja dengan urutan, seperti menyelesaikan hukuman sehingga mereka diakhiri dengan sentimen positif. Kami melakukan ini bukan dengan pembelajaran yang diawasi sendiri atau diawasi, tetapi dengan menghasilkan teks dan pembelajaran dari skor yang ditugaskan untuk teks itu setelah dihasilkan, ini analog dengan cara chatgpt dilatih menggunakan skor manusia dari model yang dihasilkan jawaban untuk instruksi.
you@you chat-api % python3 -m venv venv
you@you chat-api % source venv/bin/activate
(venv) you@you chat-api % pip install --upgrade pip
(venv) you@you chat-api % pip install -r requirements.txt Untuk menginstal paket untuk pengembangan, dari dalam direktori tingkat atas atau minichatgpt utama (yang jika ls Anda melihat setup.py , requirements.txt dan README.md di folder yang sama seperti Anda) jalankan di bawah ini di baris perintah atau terminal:
pip install -e . meninggalkan -e untuk pip install . , untuk paket pengembangan lainnya seperti Jupyter Notebook dan Matplotlib, jalankan:
pip install -e ".[interactive]"Anda harus melihat sesuatu seperti
Obtaining file:///Users/.../minichatgpt
Preparing metadata (setup.py) ... done
Installing collected packages: minichatgpt
Running setup.py develop for minichatgpt
Successfully installed minichatgpt-0....
Sekarang dari direktori selain direktori minichatgpt tingkat atas atau Anda bisa
import minichatgpt
from minichatgpt . example_script import example_class_function Dan perubahan yang Anda buat ke example_class_function akan tersedia untuk Anda dengan import minichatgpt Anda berikutnya, tidak ada pip install -e . diperlukan
@misc {vonwerra2022trl, penulis = {leandro von werra dan younes belkada dan lewis tunstall dan edward beeching dan tristan thrush dan nathan lambert}, title = {trl: transformer penguat}, tahun = {2020}, publisher = {{{{{{{tahun 2020 {{2020 {{2020 {{publishor = { url {https://github.com/lvwerra/trl}}}