การแยกรายละเอียดการใช้งานของโครงการของเล่นที่เรียบง่ายขนาดเล็กที่แสดงให้เห็นถึงการเรียนรู้การเสริมแรงจากข้อเสนอแนะของมนุษย์ (RLHF) โดยเน้นเป็นพิเศษในการเชื่อมต่อสมการที่อธิบายถึงการเพิ่มประสิทธิภาพนโยบายใกล้เคียงกับบรรทัดของรหัส pytorch ที่ใช้ PPO เพื่อทำงานกับลำดับ เราทำสิ่งนี้ไม่ได้เกิดจากการเรียนรู้ที่ดูแลตนเองหรือมีการดูแล แต่โดยการสร้างข้อความและการเรียนรู้จากคะแนนที่กำหนดให้กับข้อความนั้นหลังจากที่มันถูกสร้างขึ้นสิ่งนี้คล้ายกับวิธีที่ ChatGPT ได้รับการฝึกฝนโดยใช้คะแนนมนุษย์ของแบบจำลองที่สร้างคำตอบ
you@you chat-api % python3 -m venv venv
you@you chat-api % source venv/bin/activate
(venv) you@you chat-api % pip install --upgrade pip
(venv) you@you chat-api % pip install -r requirements.txt ในการติดตั้งแพ็คเกจเพื่อการพัฒนาจากภายในไดเรกทอรี MinichatGpt ระดับบนสุดหรือหลัก (หนึ่งที่ถ้าคุณ ls เห็น setup.py , requirements.txt และ README.md ในโฟลเดอร์เดียวกันกับคุณ) เรียกใช้ด้านล่างที่บรรทัดคำสั่งหรือเทอร์มินัล:
pip install -e . ปล่อย -e สำหรับ pip install . สำหรับแพ็คเกจการพัฒนาอื่น ๆ เช่น Jupyter Notebook และ Matplotlib, Run:
pip install -e ".[interactive]"คุณควรเห็นบางอย่างเช่น
Obtaining file:///Users/.../minichatgpt
Preparing metadata (setup.py) ... done
Installing collected packages: minichatgpt
Running setup.py develop for minichatgpt
Successfully installed minichatgpt-0....
ตอนนี้มาจากไดเรกทอรีอื่นนอกเหนือจากไดเรกทอรีระดับบนสุดหรือ MinichatGpt หลักที่คุณสามารถทำได้
import minichatgpt
from minichatgpt . example_script import example_class_function และการเปลี่ยนแปลงที่คุณทำกับ example_class_function จะพร้อมใช้งานสำหรับคุณด้วย import minichatgpt ครั้งต่อไปของคุณไม่มี pip install -e . ที่จำเป็น
@misc {vonwerra2022trl, ผู้แต่ง = {Leandro von Werra และ Younes Belkada และ Lewis Tunstall และ Edward Beeching และ Tristan Thrush และ Nathan Lambert}, title = {trl: การเรียนรู้การเสริมแรงของหม้อแปลง { url {https://github.com/lvwerra/trl}}}