Сфокусированное рассечение деталей реализации небольшого упрощенного самоконтроля игрушечного проекта, демонстрирующего обучение подкреплению от обратной связи человека (RLHF) с особым акцентом на соединение уравнений, описывающих оптимизацию проксимальной политики с линиями кода Pytorch, которые применяют PPO для работы с последовательностями, такими как предложения, чтобы они заканчивали положительными настроениями. Мы делаем это не с помощью самоотверженного или контролируемого обучения, а скорее, генерируя текст и обучаясь на оценках, присвоенном этому тексту после его создания, это аналогично тому, как CHATGPT обучался с использованием человеческих результатов модели, сгенерированных ответов на инструкции.
you@you chat-api % python3 -m venv venv
you@you chat-api % source venv/bin/activate
(venv) you@you chat-api % pip install --upgrade pip
(venv) you@you chat-api % pip install -r requirements.txt Чтобы установить пакет для разработки, изнутри каталога верхнего или основного Minichatgpt (тот, где, если вы ls setup.py , requirements.txt и README.md в той же папке, что и вы). Запустите ниже командную строку или терминал:
pip install -e . Оставьте -e для производственной pip install . , для других пакетов разработки, таких как ноутбук Jupyter и Matplotlib, запустите:
pip install -e ".[interactive]"Вы должны увидеть что -то вроде
Obtaining file:///Users/.../minichatgpt
Preparing metadata (setup.py) ... done
Installing collected packages: minichatgpt
Running setup.py develop for minichatgpt
Successfully installed minichatgpt-0....
Теперь из каталогов, отличных от верхнего или основного каталога Minichatgpt, вы можете
import minichatgpt
from minichatgpt . example_script import example_class_function И изменения, которые вы вносите в example_class_function, будут доступны для вас с вашим следующим import minichatgpt , без pip install -e . необходимый
@misc {vonwerra2022trl, Author = {Leandro von Werra и Younes Belkada и Lewis Tunstall и Edward Beeching и Tristan Thrush и Nathan Lambert}, tit { url {https://github.com/lvwerra/trl}}}