Fokussierte Dissektion der Implementierungsdetails eines kleinen vereinfachten, selbst enthaltenen Spielzeugprojekts, das das Verstärkungslernen aus dem menschlichen Feedback (RLHF) zeigt, wobei der Schwerpunkt darauf liegt, die Gleichungen zu verbinden, in der die proximale Richtlinienoptimierung mit den Zeilen des Pytorch -Codes beschrieben wird, die PPO für die Arbeit mit Sequenzen anwenden, z. B. Sätze abschließen, damit sie mit einem positiven Sentiment vervollständigen. Wir tun dies nicht durch selbstüberprüfte oder überwachtes Lernen, sondern durch das Generieren von Text und Lernen aus den Punkten, die diesem Text nach seiner Erstellung zugewiesen wurden, analog zu der Art und Weise, wie Chatgpt mit menschlichen Zahlen von Modell-generierten Antworten auf Anweisungen trainiert wurde.
you@you chat-api % python3 -m venv venv
you@you chat-api % source venv/bin/activate
(venv) you@you chat-api % pip install --upgrade pip
(venv) you@you chat-api % pip install -r requirements.txt Um ein Paket für die Entwicklung zu installieren, aus dem Verzeichnis oberster Ebene oder Main Minichatgpt (das, in dem Sie ls setup.py , requirements.txt und README.md im selben Ordner wie Sie sehen), führen Sie die folgende unter der Befehlszeile oder des Terminals aus:
pip install -e . Lassen Sie die -e für die Produktionspip pip install . Für andere Entwicklungspakete wie Jupyter Notebook und Matplotlib rennen Sie:
pip install -e ".[interactive]"Sie sollten so etwas sehen
Obtaining file:///Users/.../minichatgpt
Preparing metadata (setup.py) ... done
Installing collected packages: minichatgpt
Running setup.py develop for minichatgpt
Successfully installed minichatgpt-0....
Jetzt aus anderen Verzeichnis
import minichatgpt
from minichatgpt . example_script import example_class_function Und die Änderungen, die Sie an Beispiel_Class_Function vornehmen, stehen Ihnen mit Ihrem nächsten import minichatgpt , kein pip install -e . erforderlich
@misc{vonwerra2022trl, author = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert}, title = {TRL: Transformer Reinforcement Learning}, year = {2020}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = { url {https://github.com/lvwerra/trl}}}