专注于小型简化的自我包含的玩具项目的实施细节,该项目表明了从人类反馈(RLHF)中学习的强化学习,特别强调将描述近端策略优化的方程式连接到与PPO的近端策略优化的方程式,该方程式将PPO应用于PPO的线路,以适用于序列,以与句子一起使用,例如完成句子,以使他们产生积极的情绪。我们不是通过自我监督或监督的学习来做到这一点,而是通过生成文本和从该文本生成后分配给该文本的分数学习的方式来做到这一点,这与使用人类的模型生成的说明的答案来培训ChatGpt的方式相似。
you@you chat-api % python3 -m venv venv
you@you chat-api % source venv/bin/activate
(venv) you@you chat-api % pip install --upgrade pip
(venv) you@you chat-api % pip install -r requirements.txt要安装用于开发的软件包,从顶级或MAIN MINICHATGPT目录内部内部(如果您ls在同一文件夹中查看setup.py , requirements.txt和README.md )在命令行或终端上运行以下内容:
pip install -e .将-e丢弃用于生产pip install . ,对于Jupyter笔记本和Matplotlib等其他开发包,请运行:
pip install -e ".[interactive]"你应该看到类似的东西
Obtaining file:///Users/.../minichatgpt
Preparing metadata (setup.py) ... done
Installing collected packages: minichatgpt
Running setup.py develop for minichatgpt
Successfully installed minichatgpt-0....
现在,除了顶级或主要MinichAtgpt目录以外的目录,您可以
import minichatgpt
from minichatgpt . example_script import example_class_function您对example_class_function进行的更改将通过下一个import minichatgpt (无pip install -e .必需的
@misc {vonwerra20222trl,作者= {Leandro von Werra和Younes Belkada和Lewis Tunstall以及Edward Beeching和Edward Beeching和Tristan thrush and Nathan Lambert},title = {trl:trl:Transformer informenter informenter informenter informenter informenter informenter informenter informenter学习},year = {2020},publisher = {github = {github = {gith} { url {https://github.com/lvwerra/trl}}}}}