소규모 단순화 된 자체 포함 된 장난감 프로젝트의 구현 세부 사항의 초점 해부는 인간 피드백 (RLHF)의 강화 학습 (RLHF)을 보여주는 근위 정책 최적화를 설명하는 방정식을 긍정적 인 감정으로 완료하는 등 시퀀스와 함께 작업에 적용되는 Pytorch 코드의 라인에 설명하는 방정식을 특별히 강조하는 데 특히 중점을 둡니다. 우리는 자기 감독 또는 감독 학습에 의해 이렇게하는 것이 아니라, 텍스트가 생성 된 후 텍스트에 할당 된 점수로부터 텍스트를 생성하고 학습함으로써, Chatgpt가 지침에 대한 수많은 모델 생성 답변을 사용하여 Chatgpt가 훈련 된 방식과 유사합니다.
you@you chat-api % python3 -m venv venv
you@you chat-api % source venv/bin/activate
(venv) you@you chat-api % pip install --upgrade pip
(venv) you@you chat-api % pip install -r requirements.txt 최상위 수준 또는 기본 MinichatGpt 디렉토리 (LS가 ls 와 동일한 폴더에 setup.py , requirements.txt 및 README.md 표시되는 경우) 내부에서 개발을위한 패키지를 설치하려면 명령 줄 또는 터미널에서 아래를 실행하십시오.
pip install -e . 생산 pip install . 위해 -e 제외하십시오. , Jupyter Notebook 및 Matplotlib와 같은 다른 개발 패키지의 경우 : 실행 :
pip install -e ".[interactive]"당신은 같은 것을보아야합니다
Obtaining file:///Users/.../minichatgpt
Preparing metadata (setup.py) ... done
Installing collected packages: minichatgpt
Running setup.py develop for minichatgpt
Successfully installed minichatgpt-0....
이제 최상위 또는 기본 Minichatgpt 디렉토리 이외의 디렉토리에서
import minichatgpt
from minichatgpt . example_script import example_class_function example_class_function에 대한 변경 사항은 다음 import minichatgpt pip install -e . 필수의
@misc {vonwerra2022trl, author = {Leandro von Werra와 Younes Belkada 및 Lewis Tunstall과 Edward Beeching 및 Tristan Thrush 및 Nathan Lambert}, title = {trl : transporcement}, year = {2020}, publisher = {github}, github}, github} { url {https://github.com/lvwerra/trl}}}