다음 예제의 요구 사항을 설치하십시오.
pip install -r requirements-examples.txt추론 중에 동작 및 생성 된 출력에 영향을 미치는 데 사용할 수있는 모델의 숨겨진 상태로부터의 훈련 제어 벡터의 예.
NVIDIA HELPSTEER 데이터 세트를 사용한 LORA 교육 MISTRAL-7B-Instruct-V0.2.
helpsteer 디렉토리에서 train.sh 실행하여 Huggingface에서 데이터 세트 및 모델을 다운로드하고 LORA 교육을 시작하십시오. config.yml 편집하여 교육 구성을 사용자 정의 할 수 있습니다.
DPO 믹스 7K 데이터 세트를 사용한 DPO 교육 QWEN1.5-7B-Chat. 교육은 감독 된 미세 조정 (SFT)과 직접 환경 설정 최적화 (DPO)로 구성됩니다.
dpo-mix-7k 디렉토리에서 train.sh 실행하여 HuggingFace에서 데이터 세트 및 모델을 다운로드하고 교육을 시작하십시오. 구성 파일 sft.yml 및 dpo.yml 편집하여 교육 구성을 사용자 정의 할 수 있습니다.
MMLU 데이터 세트를 사용한 "대규모 멀티 태스킹 언어 이해"벤치 마크 구현.
평가하려는 모델로 mmlu.py 실행하십시오.
MMLU-PRO 데이터 세트를 사용하여 MMLU-Pro 벤치 마크 구현.
평가하려는 모델로 mmlu-pro.py 실행하십시오.
Wikipedia 기사의 입력 단락의 샘플 데이터 세트에 대한 수신성 점수 계산.
평가하려는 모델로 perplexity.py 실행하십시오. 양자화 옵션을 추가하여 양자 모델로 당황을 평가하십시오.