ChatGLM Efficient Tuning 다운로드 -Catglm ChatGLM Efficient Tuning 소스 코드 다운로드

Chatglm 효율적인 튜닝

미세 조정? chatglm-6b 모델과 함께.

WeChat에 가입하십시오.

[영어 | 中文]

궁금한 점이 있으면 Wiki를 참조하십시오.

알아채다

이 저장소는 미래에 유지되지 않을 것입니다 . 언어 모델 (ChatGLM2-6B 포함)을 미세 조정하려면 Llama-Factory를 따르십시오.

changelog

[23/07/15] 이제 우리는 교육, 평가 및 추론을위한 올인원 웹 UI를 개발합니다. train_web.py 사용하여 웹 브라우저에서 ChatGLM-6B 모델을 미세 조정하십시오. 개발에 대한 노력에 대해 @kanadesiina와 @codemayq에게 감사드립니다.

[23/07/09] 이제 우리는 대형 언어 모델에 대한 사실 지식을 효율적으로 편집하기위한 사용하기 쉬운 패키지 인 FastedIt⚡?를 출시합니다. 관심이 있으시면 금식을 따르십시오.

[23/06/25] 이제 우리는 Demo API를 OpenAI의 형식과 정렬하여 임의의 chatgpt 기반 응용 프로그램에 미세 조정 된 모델을 삽입 할 수 있습니다.

[23/06/25] 이제 우리는 프레임 워크를 통해 ChatGLM2-6B 모델을 미세 조정하는 것을 지원합니다!

[23/06/05] 이제 우리는 4 비트 로라 훈련 (일명 Qlora)을 지원합니다. 시도 --quantization_bit 4 인수는 4 비트 양자화 모델로 작동합니다. (실험 기능)

[23/06/01] 우리는 LLAMA 및 블룸 모델의 효율적인 튜닝을 지원하는 프레임 워크를 구현했습니다. 관심이 있으시면 llama-efficients 튜닝을 따르십시오.

[23/05/19] 이제 우리는 훈련 중에 모델을 평가하기 위해 개발 세트를 사용하여 지원합니다. 개발 세트의 크기를 지정하려면 --dev_ratio 인수를 시도하십시오.

[23/04/29] 이제 우리는 인간 피드백 (RLHF)을 사용한 강화 학습 으로 ChatGLM을 교육합니다! RLHF 교육을 실행하기위한 몇 가지 예를 제공합니다. 자세한 내용은 examples 폴더를 참조하십시오.

[23/04/20] 우리의 리포는 12 일 이내에 100 개의 별을 달성했습니다! 축하해요!

[23/04/19] 이제 우리는 Lora가 훈련 한 미세 조정 된 모델의 무게를 병합하는 것을 지원합니다! 시도 --checkpoint_dir checkpoint1,checkpoint2 인수는 모델을 지속적으로 미세 조정하기위한 인수를 시도하십시오.

[23/04/18] 이제 우리는 세 가지 미세 조정 방법을 사용하여 양자화 된 모델 훈련을 지원합니다! 4/8 비트로 모델을 훈련시키기위한 quantization_bit 인수를 시도하십시오.

[23/04/12] 이제 우리는 체크 포인트의 교육을 지원합니다! --checkpoint_dir 인수를 사용하여 체크 포인트 모델을 지정하여 미세 조정하십시오.

[23/04/11] 이제 우리는 결합 된 데이터 세트 로 교육을 지원합니다! 시도 --dataset dataset1,dataset2 인수 여러 데이터 세트로 훈련을 받으십시오.

데이터 세트

감독 된 미세 조정 :
- 스탠포드 알파카 (en)
- 스탠포드 알파카 (ZH)
- GPT-4 생성 데이터 (EN & ZH)
- 오픈 비서 (다국어)
- 자기인지 (ZH)
- sharegpt (zh)
- refgpt (Zh)
- 구아나코 데이터 세트 (다국어)
- 벨 2M (ZH)
- 벨 1M (ZH)
- 벨 0.5m (ZH)
- Belle Dialogue 0.4M (ZH)
- Belle School Math 0.25m (ZH)
- Belle Multiturn Chat 0.8m (ZH)
- Firefly 1.1m (ZH)
- 리마 (en)
- Codealpaca 20K (en)
- 알파카 침대 (다국어)
- 웹 QA (ZH)
- Ultrachat (en)
- WebNovel (ZH)
보상 모델링 :
- HH-RLHF (en)
- 오픈 비서 (다국어)
- GPT-4 생성 데이터 (EN & ZH)

자세한 내용은 data/readme.md를 참조하십시오.

일부 데이터 세트는 사용하기 전에 확인이 필요하므로 이러한 명령을 사용하여 Hugging Face 계정으로 로그인하는 것이 좋습니다.

pip install --upgrade huggingface_hub
huggingface-cli login

미세 조정 방법

우리의 스크립트는 이제 다음과 같은 미세 조정 방법을 지원합니다.

로라
- 모델의 저 순위 어댑터를 미세 조정합니다.
p- 튜닝 v2
- 모델의 접두사 인코더를 미세 조정합니다.
꼭 매달리게 하다
- 모델의 마지막 N 블록에서 MLP를 미세 조정합니다.
완전한 튜닝
- 모델의 모든 매개 변수를 미세 조정합니다.

요구 사항

파이썬 3.8+ 및 Pytorch 1.13.1+
? 변압기, 데이터 세트, 가속, PEFT 및 TRL
Fire, Protobuf, CPM-Kernel 및 문장
Jieba, Rouge-Chinese 및 NLTK (평가시 사용)
Gradio 및 Matplotlib (Train_web.py에서 사용)
Uvicorn, Fastapi 및 Sse-Starlette (API_DEMO.PY에서 사용)

그리고 강력한 GPU !

시작하기

데이터 준비 (선택 사항)

데이터 세트 파일 형식에 대한 세부 정보를 확인하려면 data/example_dataset 참조하십시오. 여러 파일이있는 단일 .json 파일 또는 데이터 세트로드 스크립트를 사용하여 사용자 정의 데이터 세트를 만들 수 있습니다.

참고 : 사용자 정의 데이터 세트를 사용하려면 data/dataset_info.json 을 업데이트하십시오. 이 파일의 형식은 data/README.md 를 참조하십시오.

의존성 설치 (선택 사항)

git lfs install
git clone https://github.com/hiyouga/ChatGLM-Efficient-Tuning.git
conda create -n chatglm_etuning python=3.10
conda activate chatglm_etuning
cd ChatGLM-Efficient-Tuning
pip install -r requirements.txt

Windows 플랫폼에서 양자화 된 LORA (QLORA)를 활성화하려면 CUDA 11.1 ~ 12.1을 지원하는 사전 구축 된 bitsandbytes Library 버전을 설치해야합니다.

pip install https://github.com/jllllll/bitsandbytes-windows-webui/releases/download/wheels/bitsandbytes-0.39.1-py3-none-win_amd64.whl

올인원 웹 UI

CUDA_VISIBLE_DEVICES=0 python src/train_web.py

현재 웹 UI는 단일 GPU 에 대한 교육 만 지원합니다.

단일 GPU로 미세 조정

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py 
    --stage sft 
    --model_name_or_path path_to_your_chatglm_model 
    --do_train 
    --dataset alpaca_gpt4_en 
    --finetuning_type lora 
    --output_dir path_to_sft_checkpoint 
    --per_device_train_batch_size 4 
    --gradient_accumulation_steps 4 
    --lr_scheduler_type cosine 
    --logging_steps 10 
    --save_steps 1000 
    --learning_rate 5e-5 
    --num_train_epochs 3.0 
    --plot_loss 
    --fp16

논쟁의 세부 사항에 대해 Wiki를 참조하십시오.

다중 GPU로 분산 된 미세 조정

accelerate config # configure the environment
accelerate launch src/train_bash.py # arguments (same as above)

교육 보상 모델

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py 
    --stage rm 
    --model_name_or_path path_to_your_chatglm_model 
    --do_train 
    --dataset comparison_gpt4_en 
    --finetuning_type lora 
    --resume_lora_training False 
    --checkpoint_dir path_to_sft_checkpoint 
    --output_dir path_to_rm_checkpoint 
    --per_device_train_batch_size 4 
    --gradient_accumulation_steps 4 
    --lr_scheduler_type cosine 
    --logging_steps 10 
    --save_steps 1000 
    --learning_rate 1e-5 
    --num_train_epochs 1.0 
    --plot_loss 
    --fp16

RLHF와의 훈련

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py 
    --stage ppo 
    --model_name_or_path path_to_your_chatglm_model 
    --do_train 
    --dataset alpaca_gpt4_en 
    --finetuning_type lora 
    --resume_lora_training False 
    --checkpoint_dir path_to_sft_checkpoint 
    --reward_model path_to_rm_checkpoint 
    --output_dir path_to_ppo_checkpoint 
    --per_device_train_batch_size 2 
    --gradient_accumulation_steps 4 
    --lr_scheduler_type cosine 
    --logging_steps 10 
    --save_steps 1000 
    --learning_rate 1e-5 
    --num_train_epochs 1.0 
    --plot_loss

평가 (Bleu and Rouge_chinese)

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py 
    --stage sft 
    --model_name_or_path path_to_your_chatglm_model 
    --do_eval 
    --dataset alpaca_gpt4_en 
    --finetuning_type lora 
    --checkpoint_dir path_to_checkpoint 
    --output_dir path_to_eval_result 
    --per_device_eval_batch_size 8 
    --max_samples 50 
    --predict_with_generate

예측하다

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py 
    --stage sft 
    --model_name_or_path path_to_your_chatglm_model 
    --do_predict 
    --dataset alpaca_gpt4_en 
    --finetuning_type lora 
    --checkpoint_dir path_to_checkpoint 
    --output_dir path_to_predict_result 
    --per_device_eval_batch_size 8 
    --max_samples 100 
    --predict_with_generate

빈 응답이있는 샘플을 예측하려면, 전처리 단계에서 샘플을 폐기하지 않도록 더미 토큰 으로 response 열을 친절하게 채우십시오.

API 데모

python src/api_demo.py 
    --model_name_or_path path_to_your_chatglm_model 
    --finetuning_type lora 
    --checkpoint_dir path_to_checkpoint

API 문서는 http://localhost:8000/docs 방문하십시오.

CLI 데모

python src/cli_demo.py 
    --model_name_or_path path_to_your_chatglm_model 
    --finetuning_type lora 
    --checkpoint_dir path_to_checkpoint

웹 데모

python src/web_demo.py 
    --model_name_or_path path_to_your_chatglm_model 
    --finetuning_type lora 
    --checkpoint_dir path_to_checkpoint

수출 모델

python src/export_model.py 
    --model_name_or_path path_to_your_chatglm_model 
    --finetuning_type lora 
    --checkpoint_dir path_to_checkpoint 
    --output_dir path_to_export

하드웨어 요구 사항

미세 조정 방법	배치 크기	방법	그램	속도
로라 (R = 8)	16	FP16	28GB	8ex/s
로라 (R = 8)	8	FP16	24GB	8ex/s
로라 (R = 8)	4	FP16	20GB	8ex/s
로라 (R = 8)	4	int8	10GB	8ex/s
로라 (R = 8)	4	int4	8GB	8ex/s
p- 튜닝 (p = 16)	4	FP16	20GB	8ex/s
p- 튜닝 (p = 16)	4	int8	16GB	8ex/s
p- 튜닝 (p = 16)	4	int4	12GB	8ex/s
동결 (l = 3)	4	FP16	24GB	8ex/s

RM 메소드	배치 크기	방법	그램	속도
로라 (r = 8) + rm	4	FP16	22GB	-
로라 (r = 8) + rm	1	int8	11GB	-

RLHF 방법	배치 크기	방법	그램	속도
로라 (r = 8) + PPO	4	FP16	23GB	-
로라 (r = 8) + PPO	1	int8	12GB	-

참고 : r 은 LORA 순위, p 접두사 토큰의 수입니다. l 훈련 가능한 층의 수입니다. ex/s 훈련시 초당 예입니다. gradient_accumulation_steps 는 1 으로 설정됩니다. 모두 단일 Tesla V100 (32g) GPU에서 평가되며 근사 값이며 GPU에 따라 다를 수 있습니다.

미세 조정 chatglm : 사례

훈련 결과

우리는 전체 alpaca_gpt4_zh 데이터 세트를 사용하여 기본 하이퍼 파라미터를 사용하여 하나의 epoch의 lora (r = 8)로 ChatGlm 모델을 미세 조정합니다. 훈련 중 손실 곡선은 다음과 같습니다.

훈련 상실

평가 결과

미세 조정 된 ChatGLM 모델을 평가하고 BLEU 및 ROUGE 점수를 계산하기 위해 alpaca_gpt4_zh 데이터 세트에서 100 개의 인스턴스를 선택합니다. 결과는 아래에 나와 있습니다.

점수	원래의	FZ (L = 2)	PT (P = 16)	로라 (R = 8)
블루 -4	15.75	16.85	16.06	17.01 ( +1.26 )
루즈 -1	34.51	36.62	34.80	36.77 ( +2.26 )
루즈 -2	15.11	17.04	15.32	16.83 ( +1.72 )
루즈 -L	26.18	28.17	26.35	28.86 ( +2.68 )
매개 변수 (%)	/	4.35%	0.06%	0.06%

FZ : Freeze Tuning, PT : P-Tuning V2 (LORA와의 공정한 비교에는 pre_seq_len=16 사용합니다), 매개 변수 : 훈련 가능한 매개 변수의 백분율.

프로젝트

Wartyoung/rlhf-label-tool : RLHF 훈련에 사용되는 주석이 달린 샘플을 생성하기 위해 LLM의 응답 순위를 매기는 도구.

기존 구현과 비교했습니다

thudm/chatglm-6b
- Adgen 데이터 세트에서 p- 튜닝 v2를 사용하여 미세 조정 chatglm의 공식 구현.
- 우리의 미세 조정 스크립트는 크게 달라집니다. LORA 튜닝 방법을 더 구현합니다. 또한, 미세 조정을 가속화하기 위해 최대 길이 대신 배치에서 입력을 가장 긴 시퀀스로 동적으로 패드합니다.
MyMusise/Chatglm-Tuning
- Stanford Alpaca 데이터 세트에서 Lora와의 미세 조정 chatglm의 비공식 구현.
- 우리는 그것으로부터 몇 가지 아이디어를 빌 렸습니다. 미세 조정 스크립트는 데이터 사전 처리 부분을 교육 절차에 통합하므로 교육 전에 사전 처리 된 데이터 세트를 생성 할 필요가 없습니다.
ssbuild/chatglm_finetuning
- Stanford Alpaca 데이터 세트에서 여러 PEFT 방법을 사용하여 미세 조정 ChatGLM의 비공식 구현.
- 우리의 미세 조정 스크립트는 포옹 페이스 트랜스포머와 함께 순전히 구현되며 Deep_training 프레임 워크와 무관합니다.
lich99/chatglm-finetune-lora
- Stanford Alpaca 데이터 세트에서 Lora와의 미세 조정 chatglm의 비공식 구현.
- 우리는 포옹 페이스 페프트를 사용하여 최신 PEFT 방법을 제공합니다.
liucongg/chatglm-finetuning
- 산업 데이터 세트에서 Freeze, LORA 및 P-Tuning을 포함한 여러 가지 방법을 사용하여 미세 조정 ChatGLM의 비공식 구현.
- ChatGLM 모델을 미세 조정하기 위해 더 많은 명령어 가로지는 데이터 세트를 통합하는 것을 목표로합니다.
Yanqiangmiffy/습스 GructGlm
- 명령을 내리는 데이터 세트에 대한 ChatGLM의 능력을 탐구하는 미세 조정 Chatglm의 비공식 구현.
- 미세 조정 스크립트는 데이터 사전 처리 부분을 교육 절차에 통합합니다.

TODO

특허

이 저장소는 Apache-2.0 라이센스에 따라 라이센스가 부여됩니다. Model 라이센스를 따라 ChatGLM-6B 모델을 사용하십시오.

소환

이 작업이 도움이된다면 다음과 같이 인용하십시오.

 @Misc { chatglm-efficient-tuning ,
  title = { ChatGLM Efficient Tuning } ,
  author = { hiyouga } ,
  howpublished = { url{https://github.com/hiyouga/ChatGLM-Efficient-Tuning} } ,
  year = { 2023 }
}

승인

이 repo는 ChatGLM-6B, ChatGLM-Tuning 및 Yuanzhoulvpi2017/Zero_nlp의 혜택을받습니다. 그들의 멋진 작품에 감사드립니다.

스타 역사

확장하다