人間のフィードバック(RLHF)からの強化学習を実証する小さな単純化された自己含有玩具プロジェクトの実装の詳細の焦点を当てて、PPOを適用するPPOを適用するPPOのラインに近位のポリシーの最適化を記述する方程式を接続することに特に重点を置いて、肯定的な感情で終わります。これは、自己教師または監視された学習によってではなく、テキストを生成し、生成後にそのテキストに割り当てられたスコアから学習することによって行われますが、これは、指示に対するモデル生成の回答の人間のスコアを使用してCHATGPTがトレーニングされた方法に類似しています。
you@you chat-api % python3 -m venv venv
you@you chat-api % source venv/bin/activate
(venv) you@you chat-api % pip install --upgrade pip
(venv) you@you chat-api % pip install -r requirements.txt開発用のパッケージをインストールするには、トップレベルまたはメインのminichatgptディレクトリ内から( setup.py 、 requirements.txt 、およびREADME.mdが表示されls場合と同じフォルダーに表示される場合)。コマンドラインまたは端子で以下を実行します。
pip install -e . Production Pipインストール用に-eを除外しますpip install . 、Jupyter NotebookやMatplotlibなどの他の開発パッケージについては、実行してください。
pip install -e ".[interactive]"あなたは次のようなものを見るはずです
Obtaining file:///Users/.../minichatgpt
Preparing metadata (setup.py) ... done
Installing collected packages: minichatgpt
Running setup.py develop for minichatgpt
Successfully installed minichatgpt-0....
現在、トップレベルまたはメインのminichatgptディレクトリ以外のディレクトリから
import minichatgpt
from minichatgpt . example_script import example_class_functionまた、example_class_functionに変更する変更は、次のimport minichatgpt 、 pip install -e .必須
@misc {vonwerra2022trl、著者= {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Edward Thrush and Nathan Lambert}、titl = {trl:trl:Transformer Reanforcement Learning}、year = {2020}、sublusub = {github} { url {https://github.com/lvwerra/trl}}}