การดาวน์โหลด ChatGLM Efficient Tuning

การปรับแต่งที่มีประสิทธิภาพของ chatglm

ปรับแต่งโมเดล chatglm-6b กับ? peft

เข้าร่วม WeChat ของเรา

[ภาษาอังกฤษ | 中文]

หากคุณมีคำถามใด ๆ โปรดดูวิกิของเรา?.

สังเกต

repo นี้จะ ไม่ได้รับการดูแล ในอนาคต โปรดติดตาม Llama-Factory เพื่อปรับแต่งรูปแบบภาษา (รวมถึง chatglm2-6b)

การเปลี่ยนแปลง

[23/07/15] ตอนนี้เราพัฒนาเว็บ UI ทั้งหมดสำหรับการฝึกอบรมการประเมินผลและการอนุมาน ลองใช้โมเดล train_web.py เพื่อปรับแต่ง chatglm-6b ในเว็บเบราว์เซอร์ของคุณ ขอบคุณ @kanadesiina และ @codemayq สำหรับความพยายามในการพัฒนา

[23/07/09] ตอนนี้เราเปิดตัวFastEdit⚡? แพ็คเกจที่ใช้งานง่ายสำหรับการแก้ไขความรู้ที่เป็นข้อเท็จจริงเกี่ยวกับรูปแบบภาษาขนาดใหญ่อย่างมีประสิทธิภาพ โปรดติดตาม FastEdit หากคุณสนใจ

[23/06/25] ตอนนี้เราจัดตำแหน่ง Demo API กับรูปแบบของ OpenAI ที่คุณสามารถแทรกโมเดลที่ได้รับการปรับแต่งในแอปพลิเคชันที่ใช้ CHATGPT โดยพลการ

[23/06/25] ตอนนี้เราสนับสนุนการปรับแต่งรุ่น Chatglm2-6B ด้วยกรอบของเรา!

[23/06/05] ตอนนี้เราสนับสนุนการฝึกอบรม LORA 4 บิต (aka Qlora) ลอง-อาร์กิวเมนต์ --quantization_bit 4 เพื่อทำงานกับโมเดลเชิงปริมาณ 4 บิต (คุณสมบัติการทดลอง)

[23/06/01] เราใช้เฟรมเวิร์กที่รองรับการปรับแต่งที่มีประสิทธิภาพของรุ่น Llama และ Bloom โปรดติดตาม Llama-Efficient-Tuning หากคุณสนใจ

[23/05/19] ตอนนี้เราสนับสนุนการใช้ชุดพัฒนาเพื่อประเมินโมเดลขณะฝึกอบรม ลอง -อาร์กิวเมนต์ --dev_ratio เพื่อระบุขนาดของชุดการพัฒนา

[23/04/29] ตอนนี้เราสนับสนุนการฝึกอบรม chatglm ด้วย การเรียนรู้การเสริมแรงด้วยความคิดเห็นของมนุษย์ (RLHF) ! เราให้ตัวอย่างหลายตัวอย่างเพื่อเรียกใช้การฝึกอบรม RLHF โปรดดูที่โฟลเดอร์ examples สำหรับรายละเอียด

[23/04/20] repo ของเราประสบความสำเร็จ 100 ดาวภายใน 12 วัน! ยินดีด้วย!

[23/04/19] ตอนนี้เรารองรับ การรวมน้ำหนัก ของรุ่นปรับแต่งที่ได้รับการฝึกฝนโดย Lora! ลอง --checkpoint_dir checkpoint1,checkpoint2 อาร์กิวเมนต์สำหรับการปรับแต่งโมเดลอย่างต่อเนื่อง

[23/04/18] ตอนนี้เราสนับสนุนการฝึกอบรม แบบจำลองเชิงปริมาณ โดยใช้วิธีการปรับแต่งสามวิธี! ลองใช้อาร์กิวเมนต์ quantization_bit สำหรับการฝึกอบรมแบบจำลองใน 4/8 บิต

[23/04/12] ตอนนี้เราสนับสนุน การฝึกอบรมจากจุดตรวจ ! ใช้ --checkpoint_dir อาร์กิวเมนต์ checkpoint_dir เพื่อระบุรูปแบบจุดตรวจสอบเพื่อปรับแต่งจาก

[23/04/11] ตอนนี้เราสนับสนุนการฝึกอบรมด้วย ชุดข้อมูลรวมกัน ! ลอง --dataset dataset1,dataset2 อาร์กิวเมนต์สำหรับการฝึกอบรมด้วยชุดข้อมูลหลายชุด

ชุดข้อมูล

สำหรับการปรับแต่งภายใต้การดูแล:
- Stanford Alpaca (EN)
- Stanford Alpaca (ZH)
- GPT-4 สร้างข้อมูล (en & zh)
- ผู้ช่วยเปิด (หลายภาษา)
- การรับรู้ตนเอง (ZH)
- ShareGpt (ZH)
- refgpt (ZH)
- ชุดข้อมูล Guanaco (หลายภาษา)
- Belle 2M (ZH)
- Belle 1M (ZH)
- Belle 0.5m (ZH)
- บทสนทนาเบลล์ 0.4m (ZH)
- คณิตศาสตร์โรงเรียนเบลล์ 0.25m (ZH)
- Belle Multiturn Chat 0.8m (ZH)
- หิ่งห้อย 1.1m (ZH)
- ลิมา (en)
- Codealpaca 20K (EN)
- Alpaca Cot (หลายภาษา)
- เว็บ QA (ZH)
- ultachat (en)
- WebNovel (ZH)
สำหรับการสร้างแบบจำลองรางวัล:
- hh-rlhf (en)
- ผู้ช่วยเปิด (หลายภาษา)
- GPT-4 สร้างข้อมูล (en & zh)

โปรดดูข้อมูล/readme.md สำหรับรายละเอียด

ชุดข้อมูลบางชุดต้องมีการยืนยันก่อนที่จะใช้ดังนั้นเราขอแนะนำให้เข้าสู่ระบบด้วยบัญชี Hugging Face ของคุณโดยใช้คำสั่งเหล่านี้

pip install --upgrade huggingface_hub
huggingface-cli login

วิธีการปรับแต่ง

ตอนนี้สคริปต์ของเรารองรับวิธีการปรับแต่งต่อไปนี้:

Lora
- ปรับแต่งอะแดปเตอร์ระดับต่ำของโมเดล
P-tuning v2
- ปรับแต่งเครื่องเข้ารหัสคำนำหน้าของโมเดล
แช่แข็ง
- ปรับแต่ง MLPs ในบล็อก N สุดท้ายของโมเดล
การปรับแต่งเต็มรูปแบบ
- ปรับพารามิเตอร์ทั้งหมดของโมเดล

ความต้องการ

Python 3.8+ และ Pytorch 1.13.1+
? Transformers, ชุดข้อมูล, เร่ง, PEFT และ TRL
ไฟ, protobuf, cpm-kernels และชิ้นส่วนประโยค
Jieba, Rouge-Chinese และ NLTK (ใช้ในการประเมินผล)
gradio และ matplotlib (ใช้ใน train_web.py)
Uvicorn, Fastapi และ SSE-Starlette (ใช้ใน api_demo.py)

และ GPU ที่ทรงพลัง !

เริ่มต้น

การเตรียมข้อมูล (ไม่บังคับ)

โปรดดู data/example_dataset สำหรับการตรวจสอบรายละเอียดเกี่ยวกับรูปแบบของไฟล์ชุดข้อมูล คุณสามารถใช้ไฟล์ .json เดียวหรือสคริปต์การโหลดชุดข้อมูลที่มีหลายไฟล์เพื่อสร้างชุดข้อมูลที่กำหนดเอง

หมายเหตุ: โปรดอัปเดต data/dataset_info.json เพื่อใช้ชุดข้อมูลที่กำหนดเองของคุณ เกี่ยวกับรูปแบบของไฟล์นี้โปรดดู data/README.md

การติดตั้งการพึ่งพาอาศัยกัน (ไม่บังคับ)

git lfs install
git clone https://github.com/hiyouga/ChatGLM-Efficient-Tuning.git
conda create -n chatglm_etuning python=3.10
conda activate chatglm_etuning
cd ChatGLM-Efficient-Tuning
pip install -r requirements.txt

หากคุณต้องการเปิดใช้งาน Lora (Qlora) เชิงปริมาณบนแพลตฟอร์ม Windows คุณจะต้องติดตั้งไลบรารี bitsandbytes รุ่นที่สร้างไว้ล่วงหน้าซึ่งรองรับ CUDA 11.1 ถึง 12.1

pip install https://github.com/jllllll/bitsandbytes-windows-webui/releases/download/wheels/bitsandbytes-0.39.1-py3-none-win_amd64.whl

เว็บ all-in-one ui

CUDA_VISIBLE_DEVICES=0 python src/train_web.py

ปัจจุบัน Web UI รองรับการฝึกอบรมใน GPU เดียว เท่านั้น

ปรับแต่งด้วย GPU เดียว

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py 
    --stage sft 
    --model_name_or_path path_to_your_chatglm_model 
    --do_train 
    --dataset alpaca_gpt4_en 
    --finetuning_type lora 
    --output_dir path_to_sft_checkpoint 
    --per_device_train_batch_size 4 
    --gradient_accumulation_steps 4 
    --lr_scheduler_type cosine 
    --logging_steps 10 
    --save_steps 1000 
    --learning_rate 5e-5 
    --num_train_epochs 3.0 
    --plot_loss 
    --fp16

โปรดดูวิกิของเราเกี่ยวกับรายละเอียดของข้อโต้แย้ง

แจกจ่ายการปรับแต่งด้วย GPU หลายตัว

accelerate config # configure the environment
accelerate launch src/train_bash.py # arguments (same as above)

รูปแบบรางวัลการฝึกอบรม

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py 
    --stage rm 
    --model_name_or_path path_to_your_chatglm_model 
    --do_train 
    --dataset comparison_gpt4_en 
    --finetuning_type lora 
    --resume_lora_training False 
    --checkpoint_dir path_to_sft_checkpoint 
    --output_dir path_to_rm_checkpoint 
    --per_device_train_batch_size 4 
    --gradient_accumulation_steps 4 
    --lr_scheduler_type cosine 
    --logging_steps 10 
    --save_steps 1000 
    --learning_rate 1e-5 
    --num_train_epochs 1.0 
    --plot_loss 
    --fp16

การฝึกอบรมกับ RLHF

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py 
    --stage ppo 
    --model_name_or_path path_to_your_chatglm_model 
    --do_train 
    --dataset alpaca_gpt4_en 
    --finetuning_type lora 
    --resume_lora_training False 
    --checkpoint_dir path_to_sft_checkpoint 
    --reward_model path_to_rm_checkpoint 
    --output_dir path_to_ppo_checkpoint 
    --per_device_train_batch_size 2 
    --gradient_accumulation_steps 4 
    --lr_scheduler_type cosine 
    --logging_steps 10 
    --save_steps 1000 
    --learning_rate 1e-5 
    --num_train_epochs 1.0 
    --plot_loss

การประเมินผล (bleu และ rouge_chinese)

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py 
    --stage sft 
    --model_name_or_path path_to_your_chatglm_model 
    --do_eval 
    --dataset alpaca_gpt4_en 
    --finetuning_type lora 
    --checkpoint_dir path_to_checkpoint 
    --output_dir path_to_eval_result 
    --per_device_eval_batch_size 8 
    --max_samples 50 
    --predict_with_generate

ทำนาย

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py 
    --stage sft 
    --model_name_or_path path_to_your_chatglm_model 
    --do_predict 
    --dataset alpaca_gpt4_en 
    --finetuning_type lora 
    --checkpoint_dir path_to_checkpoint 
    --output_dir path_to_predict_result 
    --per_device_eval_batch_size 8 
    --max_samples 100 
    --predict_with_generate

หากคุณต้องการทำนายตัวอย่างที่มีการตอบกลับที่ว่างเปล่าโปรดกรอกคอลัมน์ response ด้วย โทเค็นจำลอง เพื่อให้แน่ใจว่าตัวอย่างจะไม่ถูกทิ้งตลอดระยะการประมวลผลล่วงหน้า

การสาธิต API

python src/api_demo.py 
    --model_name_or_path path_to_your_chatglm_model 
    --finetuning_type lora 
    --checkpoint_dir path_to_checkpoint

เยี่ยมชม http://localhost:8000/docs สำหรับเอกสาร API

การสาธิต CLI

python src/cli_demo.py 
    --model_name_or_path path_to_your_chatglm_model 
    --finetuning_type lora 
    --checkpoint_dir path_to_checkpoint

การสาธิตเว็บ

python src/web_demo.py 
    --model_name_or_path path_to_your_chatglm_model 
    --finetuning_type lora 
    --checkpoint_dir path_to_checkpoint

รูปแบบการส่งออก

python src/export_model.py 
    --model_name_or_path path_to_your_chatglm_model 
    --finetuning_type lora 
    --checkpoint_dir path_to_checkpoint 
    --output_dir path_to_export

ข้อกำหนดของฮาร์ดแวร์

วิธีการปรับแต่ง	ขนาดแบทช์	โหมด	กรัม	ความเร็ว
lora (r = 8)	16	FP16	28GB	8EX/S
lora (r = 8)	8	FP16	24GB	8EX/S
lora (r = 8)	4	FP16	20GB	8EX/S
lora (r = 8)	4	int8	10GB	8EX/S
lora (r = 8)	4	INT4	8GB	8EX/S
P-tuning (P = 16)	4	FP16	20GB	8EX/S
P-tuning (P = 16)	4	int8	16GB	8EX/S
P-tuning (P = 16)	4	INT4	12GB	8EX/S
แช่แข็ง (l = 3)	4	FP16	24GB	8EX/S

วิธี RM	ขนาดแบทช์	โหมด	กรัม	ความเร็ว
lora (r = 8) + rm	4	FP16	22GB	-
lora (r = 8) + rm	1	int8	11GB	-

วิธี RLHF	ขนาดแบทช์	โหมด	กรัม	ความเร็ว
lora (r = 8) + ppo	4	FP16	23GB	-
lora (r = 8) + ppo	1	int8	12GB	-

หมายเหตุ: r คืออันดับ lora, p คือจำนวนโทเค็นคำนำหน้า, l คือจำนวนเลเยอร์ที่สามารถฝึกอบรมได้ ex/s เป็นตัวอย่างต่อวินาทีในการฝึกอบรม gradient_accumulation_steps ถูกตั้งค่าเป็น 1 ทั้งหมดได้รับการประเมินใน GPU Tesla V100 (32G) เดียวซึ่งเป็นค่าประมาณและอาจแตกต่างกันไปใน GPU ที่แตกต่างกัน

การปรับแต่ง chatglm: กรณี

ผลการฝึกอบรม

เราใช้ชุดข้อมูล alpaca_gpt4_zh ทั้งหมดเพื่อปรับแต่งโมเดล chatglm ด้วย lora (r = 8) สำหรับหนึ่งยุคโดยใช้พารามิเตอร์ไฮเปอร์เริ่มต้น เส้นโค้งการสูญเสียในระหว่างการฝึกอบรมแสดงไว้ด้านล่าง

การสูญเสียการฝึกอบรม

ผลการประเมินผล

เราเลือก 100 อินสแตนซ์ในชุดข้อมูล alpaca_gpt4_zh เพื่อประเมินโมเดล Chatglm ที่ปรับแต่งอย่างละเอียดและคำนวณคะแนน Bleu และ Rouge ผลลัพธ์จะถูกนำเสนอด้านล่าง

คะแนน	ต้นฉบับ	fz (l = 2)	pt (p = 16)	lora (r = 8)
bleu-4	15.75	16.85	16.06	17.01 ( +1.26 )
rouge-1	34.51	36.62	34.80	36.77 ( +2.26 )
Rouge-2	15.11	17.04	15.32	16.83 ( +1.72 )
rouge-l	26.18	28.17	26.35	28.86 ( +2.68 )
params (%)	-	4.35%	0.06%	0.06%

FZ: Freeze Tuning, PT: P-tuning V2 (เราใช้ pre_seq_len=16 สำหรับการเปรียบเทียบที่เป็นธรรมกับ Lora), params: เปอร์เซ็นต์ของพารามิเตอร์การฝึกอบรม

โครงการ

Suprityoung/RLHF-Label-Tool: เครื่องมือสำหรับจัดอันดับการตอบสนองของ LLM เพื่อสร้างตัวอย่างที่มีคำอธิบายประกอบที่ใช้ในการฝึกอบรม RLHF

เมื่อเทียบกับการใช้งานที่มีอยู่

thudm/chatglm-6b
- การใช้งานอย่างเป็นทางการของการปรับแต่ง Chatglm ด้วย P-tuning V2 บนชุดข้อมูล ADGEN
- สคริปต์การปรับแต่งของเราขึ้นอยู่กับมันเป็นส่วนใหญ่ เราใช้วิธีการปรับแต่ง LORA ต่อไป นอกจากนี้เรา ยัง คงจุดอินพุตไปยังลำดับที่ยาวที่สุดในแบทช์แทนความยาวสูงสุดเพื่อเร่งการปรับแต่ง
mymusise/chatglm-tuning
- การใช้งาน chatglm ที่ปรับแต่งอย่างไม่เป็นทางการกับ Lora ในชุดข้อมูล Stanford Alpaca
- เรายืมความคิดบางอย่างจากมัน สคริปต์การปรับแต่งของเรา รวม ส่วนการประมวลผลข้อมูลล่วงหน้าเข้ากับขั้นตอนการฝึกอบรมดังนั้นเราจึงไม่จำเป็นต้องสร้างชุดข้อมูลที่ประมวลผลล่วงหน้าก่อนการฝึกอบรม
ssbuild/chatglm_finetuning
- การใช้งานอย่างไม่เป็นทางการของการปรับแต่ง Chatglm ด้วยวิธี PEFT หลายวิธีในชุดข้อมูล Stanford Alpaca
- สคริปต์การปรับแต่งของเรานั้นถูกนำไปใช้ อย่างหมดจด ด้วยการกอดหม้อแปลงใบหน้าและเป็นอิสระจากกรอบการทำงาน DEEP_Training
lich99/chatglm-finetune-lora
- การใช้งานอย่างไม่เป็นทางการของการปรับแต่ง Chatglm กับ Lora ในชุดข้อมูล Stanford Alpaca
- เราใช้ Peft กอดใบหน้าเพื่อให้วิธีการที่ล้ำสมัยของ PEFT
liucongg/chatglm-finetuning
- การใช้งานอย่างไม่เป็นทางการของการปรับแต่ง Chatglm ด้วยวิธีการหลายวิธีรวมถึงการแช่แข็ง, LORA และ P-tuning บนชุดข้อมูลอุตสาหกรรม
- เรามุ่งมั่นที่จะรวมชุดข้อมูลที่ตามคำสั่งเพิ่มเติมเพื่อปรับแต่งโมเดล Chatglm อย่างละเอียด
Yanqiangmiffy/Instranceglm
- การใช้งานอย่างไม่เป็นทางการของการปรับแต่ง Chatglm ที่สำรวจความสามารถของ Chatglm ในชุดข้อมูลที่ตามคำสั่ง
- สคริปต์การปรับแต่งของเรารวมส่วนการประมวลผลข้อมูลล่วงหน้าไว้ในขั้นตอนการฝึกอบรม

สิ่งที่ต้องทำ

ใบอนุญาต

ที่เก็บนี้ได้รับใบอนุญาตภายใต้ใบอนุญาต Apache-2.0 โปรดติดตามใบอนุญาตรุ่นเพื่อใช้รุ่น Chatglm-6B

การอ้างอิง

หากงานนี้มีประโยชน์โปรดอ้างอิงเป็น:

 @Misc { chatglm-efficient-tuning ,
  title = { ChatGLM Efficient Tuning } ,
  author = { hiyouga } ,
  howpublished = { url{https://github.com/hiyouga/ChatGLM-Efficient-Tuning} } ,
  year = { 2023 }
}

การรับทราบ

repo นี้ได้รับประโยชน์จาก chatglm-6b, chatglm-tuning และ yuanzhoulvpi2017/zero_nlp ขอบคุณสำหรับผลงานที่ยอดเยี่ยมของพวกเขา

ประวัติดาว

ขยาย