La disección enfocada de los detalles de implementación de un pequeño proyecto de juguete autodenominado simplificado que demuestra el aprendizaje de refuerzo de la retroalimentación humana (RLHF) con especial énfasis en conectar las ecuaciones que describen la optimización de políticas proximales a las líneas del código de Pytorch que aplican PPO para trabajar con secuencias, como completar las oraciones para que terminen con un sentimiento positivo. Hacemos esto no mediante el aprendizaje auto-supervisado o supervisado, sino más bien, generando texto y aprendiendo de puntajes asignados a ese texto después de que se genere, esto es análogo a la forma en que ChatGPT se entrenó utilizando puntajes humanos de respuestas generadas por el modelo a las instrucciones.
you@you chat-api % python3 -m venv venv
you@you chat-api % source venv/bin/activate
(venv) you@you chat-api % pip install --upgrade pip
(venv) you@you chat-api % pip install -r requirements.txt Para instalar el paquete para el desarrollo, desde el interior del directorio MinichatGPT de nivel superior o principal (el que si se ls , ¿ves setup.py , requirements.txt y README.md en la misma carpeta que tu) ejecuta la siguiente línea de comando o terminal:
pip install -e . Deje de lado el -e para pip install . , Para otros paquetes de desarrollo como Jupyter Notebook y Matplotlib, ejecute:
pip install -e ".[interactive]"Deberías ver algo como
Obtaining file:///Users/.../minichatgpt
Preparing metadata (setup.py) ... done
Installing collected packages: minichatgpt
Running setup.py develop for minichatgpt
Successfully installed minichatgpt-0....
Ahora de directorios que no sean el directorio de nivel superior o principal que pueda
import minichatgpt
from minichatgpt . example_script import example_class_function y los cambios que realice a Ejemplo_class_Function estarán disponibles para usted con su próxima import minichatgpt , no pip install -e . requerido
@misc {vonwerra2022Trl, autor = {Leandro von Werra y Younes Belkada y Lewis Tunstall y Edward Beeching y Tristan Thrush y Nathan Lambert}, title = {trl: aprendizaje de refuerzo de transformador}, año = {2020}, editor = {github} { url {https://github.com/lvwerra/trl}}}