Dissecção focada dos detalhes da implementação de um pequeno projeto de brinquedos autônomos simplificados, demonstrando aprendizado de reforço com o feedback humano (RLHF), com ênfase especial na conexão das equações que descrevem a otimização de políticas proximais às linhas do código Pytorch que aplicam o PPO para funcionar com sequências, como concluir as sentenças para que terminem com um sentimento positivo. Fazemos isso não por aprendizado auto-supervisionado ou supervisionado, mas, ao gerar texto e aprender com as pontuações atribuídas a esse texto após a geração, isso é análogo à maneira como o ChatGPT foi treinado usando escores humanos de respostas geradas por modelo para instruções.
you@you chat-api % python3 -m venv venv
you@you chat-api % source venv/bin/activate
(venv) you@you chat-api % pip install --upgrade pip
(venv) you@you chat-api % pip install -r requirements.txt Para instalar o pacote para desenvolvimento, de dentro do diretório de nível superior ou principal do MinichatGPT (aquele em que, se você ls você vê setup.py , requirements.txt e README.md na mesma pasta que você) execute o abaixo na linha de comando ou terminal:
pip install -e . Deixe de fora o -e para pip install . , para outros pacotes de desenvolvimento como Jupyter Notebook e Matplotlib, Run:
pip install -e ".[interactive]"você deveria ver algo como
Obtaining file:///Users/.../minichatgpt
Preparing metadata (setup.py) ... done
Installing collected packages: minichatgpt
Running setup.py develop for minichatgpt
Successfully installed minichatgpt-0....
Agora de diretórios diferentes do diretório de nível superior ou principal do Minichatgpt, você pode
import minichatgpt
from minichatgpt . example_script import example_class_function e as alterações que você faz no exemplo_class_function estarão disponíveis para você com seu próximo import minichatgpt , sem pip install -e . obrigatório
@misc {vonwerra2022trl, autor = {LeanDro von Werra e Younes Belkada e Lewis Tunstall e Edward Beeching e Tristan Thrush e Nathan Lambert}, title = {TRL: Transformer Reforcent}, ano = {2020}, publicador = {Giths {GithUr. = { url {https://github.com/lvwerra/trl}}}