專注於小型簡化的自我包含的玩具項目的實施細節,該項目表明了從人類反饋(RLHF)中學習的強化學習,特別強調將描述近端策略優化的方程式連接到與PPO的近端策略優化的方程式,該方程式將PPO應用於PPO的線路,以適用於序列,以與句子一起使用,例如完成句子,以使他們產生積極的情緒。我們不是通過自我監督或監督的學習來做到這一點,而是通過生成文本和從該文本生成後分配給該文本的分數學習的方式來做到這一點,這與使用人類的模型生成的說明的答案來培訓ChatGpt的方式相似。
you@you chat-api % python3 -m venv venv
you@you chat-api % source venv/bin/activate
(venv) you@you chat-api % pip install --upgrade pip
(venv) you@you chat-api % pip install -r requirements.txt要安裝用於開發的軟件包,從頂級或MAIN MINICHATGPT目錄內部內部(如果您ls在同一文件夾中查看setup.py , requirements.txt和README.md )在命令行或終端上運行以下內容:
pip install -e .將-e丟棄用於生產pip install . ,對於Jupyter筆記本和Matplotlib等其他開發包,請運行:
pip install -e ".[interactive]"你應該看到類似的東西
Obtaining file:///Users/.../minichatgpt
Preparing metadata (setup.py) ... done
Installing collected packages: minichatgpt
Running setup.py develop for minichatgpt
Successfully installed minichatgpt-0....
現在,除了頂級或主要MinichAtgpt目錄以外的目錄,您可以
import minichatgpt
from minichatgpt . example_script import example_class_function您對example_class_function進行的更改將通過下一個import minichatgpt (無pip install -e .必需的
@misc {vonwerra20222trl,作者= {Leandro von Werra和Younes Belkada和Lewis Tunstall以及Edward Beeching和Edward Beeching和Tristan thrush and Nathan Lambert},title = {trl:trl:Transformer informenter informenter informenter informenter informenter informenter informenter informenter學習},year = {2020},publisher = {github = {github = {gith} { url {https://github.com/lvwerra/trl}}}}}