تنزيل ChatGLM Efficient Tuning - تنزيل رمز مصدر ChatGLM Efficient Tuning

توليف ChatGlm فعال

صقل جيد؟ نموذج chatglm-6b مع؟ peft.

انضم إلى WeChat لدينا.

[الإنجليزية | 中文]

إذا كان لديك أي أسئلة ، يرجى الرجوع إلى ويكي؟

يلاحظ

لن يتم الحفاظ على هذا الريبو في المستقبل. يرجى متابعة Llama-Factory لضبط نماذج اللغة (بما في ذلك ChatGLM2-6B).

Changelog

[23/07/15] الآن نقوم بتطوير واجهة مستخدم ويب الكل في واحد للتدريب والتقييم والاستدلال. جرب train_web.py لضبط طراز ChatGlm-6B في متصفح الويب الخاص بك. شكر kanadesiina و codemayq لجهودهم في التنمية.

[23/07/09] الآن نقوم بإطلاق حزمة FastEdit⚡؟ ، حزمة سهلة الاستخدام لتحرير المعرفة الواقعية لنماذج اللغة الكبيرة بكفاءة. يرجى متابعة FastEdit إذا كنت مهتمًا.

[23/06/25] الآن نقوم بمحاذاة واجهة برمجة التطبيقات التجريبية مع تنسيق Openai حيث يمكنك إدراج النموذج الذي تم ضبطه في التطبيقات المستندة إلى ChatGPT التعسفي.

[23/06/25] الآن نحن ندعم صياغة نموذج ChatGLM2-6B مع إطار عملنا!

[23/06/05] الآن نحن ندعم تدريب Lora 4-Bit (المعروف أيضًا باسم Qlora). حاول- --quantization_bit 4 وسيطة للعمل مع نموذج كمي 4 بت. (الميزة التجريبية)

[23/06/01] قمنا بتنفيذ إطار عمل يدعم الضبط الفعال لنماذج LAMA و Bloom. يرجى اتباع صقل لاما فعال إذا كنت مهتمًا.

[23/05/19] الآن نحن ندعم استخدام مجموعة التطوير لتقييم النموذج أثناء التدريب. جرب -وسيطة --dev_ratio لتحديد حجم مجموعة التطوير.

[23/04/29] الآن نحن ندعم تدريب ChatGlm مع التعلم التعزيز مع التعليقات البشرية (RLHF) ! نحن نقدم العديد من الأمثلة لتشغيل تدريب RLHF ، يرجى الرجوع إلى مجلد examples للحصول على التفاصيل.

[23/04/20] حقق ريبو لدينا 100 نجمة في غضون 12 يومًا! مبروك!

[23/04/19] الآن نحن ندعم دمج أوزان النماذج التي تم ضبطها بواسطة Lora! TREE --checkpoint_dir checkpoint1,checkpoint2 للضبط باستمرار على النماذج.

[23/04/18] الآن نحن ندعم تدريب النماذج الكمية باستخدام ثلاث طرق صقل! جرب وسيطة quantization_bit لتدريب النموذج في 4/8 بت.

[23/04/12] الآن نحن ندعم التدريب من نقاط التفتيش ! use --checkpoint_dir وسيطة لتحديد نموذج نقطة التفتيش للضبط من.

[23/04/11] الآن نحن ندعم التدريب مع مجموعات البيانات المشتركة ! جرب --dataset dataset1,dataset2 للتدريب مع مجموعات بيانات متعددة.

مجموعات البيانات

لضبط خاضع للإشراف:
- ستانفورد الألباكا (EN)
- ستانفورد الألباكا (ZH)
- بيانات GPT-4 التي تم إنشاؤها (EN & ZH)
- مساعد مفتوح (متعدد اللغات)
- الإدراك الذاتي (ZH)
- ShareGPT (ZH)
- refgpt (ZH)
- مجموعة بيانات Guanaco (متعددة اللغات)
- Belle 2M (ZH)
- Belle 1M (ZH)
- Belle 0.5m (ZH)
- حوار الحسناء 0.4m (ZH)
- رياضيات مدرسة الحسناء 0.25m (ZH)
- Belle Multiturn Chat 0.8m (ZH)
- Firefly 1.1m (ZH)
- ليما (en)
- CodeAlpaca 20k (EN)
- سرير الألبكة (متعدد اللغات)
- ويب QA (ZH)
- Ultrachat (en)
- WebNovel (ZH)
لنمذجة المكافآت:
- HH-RLHF (EN)
- مساعد مفتوح (متعدد اللغات)
- بيانات GPT-4 التي تم إنشاؤها (EN & ZH)

يرجى الرجوع إلى البيانات/README.MD للحصول على التفاصيل.

تتطلب بعض مجموعات البيانات تأكيدًا قبل استخدامها ، لذلك نوصي بتسجيل الدخول باستخدام حساب Face الخاص بك باستخدام هذه الأوامر.

pip install --upgrade huggingface_hub
huggingface-cli login

طرق الضبط

يدعم البرنامج النصي الآن أساليب الضبط الدقيقة التالية:

لورا
- صقل المحولات ذات الرتبة المنخفضة للنموذج.
P Tuning V2
- صقل تشفير البادئة للنموذج.
تجميد
- صقل MLPs في كتل N الأخيرة من النموذج.
ضبط كامل
- صقل جميع معلمات النموذج.

متطلبات

Python 3.8+ و Pytorch 1.13.1+
؟ المحولات ، مجموعات البيانات ، التسارع ، PEFT و TRL
Fire ، Protobuf ، CPM-Kernels و Sentnespiece
Jieba ، Rouge-Chinese و NLTK (المستخدمة في التقييم)
Gradio و Matplotlib (المستخدمة في Train_Web.py)
Uvicorn ، fastapi و sse-starlette (المستخدمة في api_demo.py)

ووحدة معالجة الرسومات القوية !

ابدء

إعداد البيانات (اختياري)

يرجى الرجوع إلى data/example_dataset للتحقق من تفاصيل حول تنسيق ملفات مجموعة البيانات. يمكنك إما استخدام ملف .json واحد أو برنامج تحميل مجموعة بيانات مع ملفات متعددة لإنشاء مجموعة بيانات مخصصة.

ملاحظة: يرجى تحديث data/dataset_info.json لاستخدام مجموعة البيانات المخصصة. حول تنسيق هذا الملف ، يرجى الرجوع إلى data/README.md .

تثبيت الاعتماد (اختياري)

git lfs install
git clone https://github.com/hiyouga/ChatGLM-Efficient-Tuning.git
conda create -n chatglm_etuning python=3.10
conda activate chatglm_etuning
cd ChatGLM-Efficient-Tuning
pip install -r requirements.txt

إذا كنت ترغب في تمكين Lora (Qlora) الكمي على منصة Windows ، فسيتم مطالبتك بتثبيت نسخة مصممة مسبقًا من مكتبة bitsandbytes ، والتي تدعم CUDA 11.1 إلى 12.1.

pip install https://github.com/jllllll/bitsandbytes-windows-webui/releases/download/wheels/bitsandbytes-0.39.1-py3-none-win_amd64.whl

الكل في واحد واجهة المستخدم على شبكة الإنترنت

CUDA_VISIBLE_DEVICES=0 python src/train_web.py

حاليًا يدعم واجهة المستخدم على الويب التدريب فقط على وحدة معالجة الرسومات الواحدة .

صقل مع وحدة معالجة الرسومات واحدة

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py 
    --stage sft 
    --model_name_or_path path_to_your_chatglm_model 
    --do_train 
    --dataset alpaca_gpt4_en 
    --finetuning_type lora 
    --output_dir path_to_sft_checkpoint 
    --per_device_train_batch_size 4 
    --gradient_accumulation_steps 4 
    --lr_scheduler_type cosine 
    --logging_steps 10 
    --save_steps 1000 
    --learning_rate 5e-5 
    --num_train_epochs 3.0 
    --plot_loss 
    --fp16

يرجى الرجوع إلى ويكي حول تفاصيل الحجج.

صقل موزع مع وحدات معالجة الرسومات المتعددة

accelerate config # configure the environment
accelerate launch src/train_bash.py # arguments (same as above)

نموذج مكافأة التدريب

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py 
    --stage rm 
    --model_name_or_path path_to_your_chatglm_model 
    --do_train 
    --dataset comparison_gpt4_en 
    --finetuning_type lora 
    --resume_lora_training False 
    --checkpoint_dir path_to_sft_checkpoint 
    --output_dir path_to_rm_checkpoint 
    --per_device_train_batch_size 4 
    --gradient_accumulation_steps 4 
    --lr_scheduler_type cosine 
    --logging_steps 10 
    --save_steps 1000 
    --learning_rate 1e-5 
    --num_train_epochs 1.0 
    --plot_loss 
    --fp16

التدريب مع RLHF

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py 
    --stage ppo 
    --model_name_or_path path_to_your_chatglm_model 
    --do_train 
    --dataset alpaca_gpt4_en 
    --finetuning_type lora 
    --resume_lora_training False 
    --checkpoint_dir path_to_sft_checkpoint 
    --reward_model path_to_rm_checkpoint 
    --output_dir path_to_ppo_checkpoint 
    --per_device_train_batch_size 2 
    --gradient_accumulation_steps 4 
    --lr_scheduler_type cosine 
    --logging_steps 10 
    --save_steps 1000 
    --learning_rate 1e-5 
    --num_train_epochs 1.0 
    --plot_loss

التقييم (Bleu و Rouge_Chinese)

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py 
    --stage sft 
    --model_name_or_path path_to_your_chatglm_model 
    --do_eval 
    --dataset alpaca_gpt4_en 
    --finetuning_type lora 
    --checkpoint_dir path_to_checkpoint 
    --output_dir path_to_eval_result 
    --per_device_eval_batch_size 8 
    --max_samples 50 
    --predict_with_generate

يتنبأ

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py 
    --stage sft 
    --model_name_or_path path_to_your_chatglm_model 
    --do_predict 
    --dataset alpaca_gpt4_en 
    --finetuning_type lora 
    --checkpoint_dir path_to_checkpoint 
    --output_dir path_to_predict_result 
    --per_device_eval_batch_size 8 
    --max_samples 100 
    --predict_with_generate

إذا كنت ترغب في التنبؤ بالعينات ذات الاستجابات الفارغة ، فيرجى تفضل ملء عمود response برموز وهمية لضمان عدم تجاهل العينة خلال مرحلة المعالجة المسبقة.

API Demo

python src/api_demo.py 
    --model_name_or_path path_to_your_chatglm_model 
    --finetuning_type lora 
    --checkpoint_dir path_to_checkpoint

تفضل بزيارة http://localhost:8000/docs لوثائق API.

CLI DEMO

python src/cli_demo.py 
    --model_name_or_path path_to_your_chatglm_model 
    --finetuning_type lora 
    --checkpoint_dir path_to_checkpoint

تجريبي الويب

python src/web_demo.py 
    --model_name_or_path path_to_your_chatglm_model 
    --finetuning_type lora 
    --checkpoint_dir path_to_checkpoint

نموذج التصدير

python src/export_model.py 
    --model_name_or_path path_to_your_chatglm_model 
    --finetuning_type lora 
    --checkpoint_dir path_to_checkpoint 
    --output_dir path_to_export

متطلبات الأجهزة

طريقة ضبطها	حجم الدُفعة	وضع	غرام	سرعة
لورا (ص = 8)	16	FP16	28 جيجابايت	8ex/s
لورا (ص = 8)	8	FP16	24 جيجابايت	8ex/s
لورا (ص = 8)	4	FP16	20 جيجابايت	8ex/s
لورا (ص = 8)	4	int8	10 جيجابايت	8ex/s
لورا (ص = 8)	4	int4	8 جيجا بايت	8ex/s
P-Tuning (P = 16)	4	FP16	20 جيجابايت	8ex/s
P-Tuning (P = 16)	4	int8	16 جيجابايت	8ex/s
P-Tuning (P = 16)	4	int4	12 جيجابايت	8ex/s
تجميد (L = 3)	4	FP16	24 جيجابايت	8ex/s

طريقة RM	حجم الدُفعة	وضع	غرام	سرعة
لورا (ص = 8) + RM	4	FP16	22 جيجا بايت	-
لورا (ص = 8) + RM	1	int8	11 جيجا بايت	-

طريقة RLHF	حجم الدُفعة	وضع	غرام	سرعة
لورا (ص = 8) + PPO	4	FP16	23 جيجابايت	-
لورا (ص = 8) + PPO	1	int8	12 جيجابايت	-

ملاحظة: r هي رتبة Lora ، p هو عدد الرموز المميزة للبادئة ، l هو عدد الطبقات القابلة للدرار ، ex/s هي الأمثلة في الثانية في التدريب. يتم تعيين gradient_accumulation_steps على 1 . يتم تقييم جميعها على وحدة معالجة الرسومات Tesla V100 (32G) ، وهي قيم تقريبًا وقد تختلف في وحدات معالجة الرسومات المختلفة.

ChatGLM النصيحة: حالة

نتائج التدريب

نحن نستخدم مجموعة بيانات alpaca_gpt4_zh بالكامل لضبط نموذج ChatGlm مع Lora (r = 8) لعصر واحد ، باستخدام المقاييس المفرطة الافتراضية. يتم تقديم منحنى الخسارة أثناء التدريب أدناه.

فقدان التدريب

نتائج التقييم

نختار 100 مثيلات في مجموعة بيانات alpaca_gpt4_zh لتقييم نموذج ChatGlm الذي تم ضبطه وحساب درجات Bleu و Rouge. وترد النتائج أدناه.

نتيجة	إبداعي	FZ (L = 2)	PT (P = 16)	لورا (ص = 8)
Bleu-4	15.75	16.85	16.06	17.01 ( +1.26 )
روج -1	34.51	36.62	34.80	36.77 ( +2.26 )
Rouge-2	15.11	17.04	15.32	16.83 ( +1.72 )
روج ل	26.18	28.17	26.35	28.86 ( +2.68 )
params (٪)	/	4.35 ٪	0.06 ٪	0.06 ٪

FZ: TREEZE TUNING ، PT: P-Tuning V2 (نستخدم pre_seq_len=16 للمقارنة العادلة مع LORA) ، params: النسبة المئوية للمعلمات القابلة للتدريب.

المشاريع

Suprityoung/RLHF-Label-Tool: أداة لترتيب ردود LLMS لإنشاء عينات مشروحة المستخدمة في تدريب RLHF.

مقارنة بالتطبيقات الحالية

thudm/chatglm-6b
- التنفيذ الرسمي لضبط ChatGlm مع P-tuning V2 على مجموعة بيانات ADGEN.
- يعتمد البرنامج النصي الخاص بنا إلى حد كبير على ذلك. نحن كذلك تنفيذ طريقة ضبط لورا. بالإضافة إلى ذلك ، فإننا نقوم بتطوير المدخلات بشكل ديناميكي إلى أطول تسلسل في الدفعة بدلاً من الحد الأقصى للطول ، لتسريع الضبط.
MyMusise/ChatGlm Tuning
- تطبيق غير موضح من ChatGLM لضبط مع Lora على مجموعة بيانات Stanford Alpaca.
- استعارنا بعض الأفكار منه. يدمج البرنامج النصي الذي يضعه في صقل البيانات المسبقة للبيانات في إجراء التدريب ، لذلك لا نحتاج إلى إنشاء مجموعة بيانات معالجة مسبقًا قبل التدريب.
ssbuild/chatglm_finetuning
- تطبيق غير رسمي لـ ChatGLM لضبطه مع العديد من طرق PEFT على مجموعة بيانات ستانفورد الألباكا.
- يتم تنفيذ البرنامج النصي الخاص بالضوء لدينا بحتة مع محولات الوجه المعانقة وهو مستقل عن إطار العمل العميق.
lich99/chatglm-finetune-lora
- تطبيق غير رسمي لـ ChatGLM لضبطه مع Lora على مجموعة بيانات Stanford Alpaca.
- نحن نستخدم PEFT الوجه المعانقة لتوفير أساليب PEFT الحديثة.
liucongg/chatglm-finetuning
- تطبيق غير رسمي لـ ChatGLM لضبطه مع العديد من الطرق بما في ذلك التجميد و Lora و P-Tuning على مجموعة البيانات الصناعية.
- نحن نهدف إلى دمج المزيد من مجموعات البيانات التي تتبع التعليمات لضبط طراز ChatGlm.
Yanqiangmiffy/instructGlm
- تطبيق غير رسمي لـ ChatGLM لضبطه يستكشف قدرة ChatGLM على مجموعات بيانات تتبع التعليمات.
- يدمج البرنامج النصي الذي يضعه في المعالجة المسبقة للبيانات في إجراء التدريب.

تودو

رخصة

تم ترخيص هذا المستودع بموجب ترخيص Apache-2.0. يرجى اتباع ترخيص الطراز لاستخدام نموذج chatglm-6b.

اقتباس

إذا كان هذا العمل مفيدًا ، فيرجى الإشارة إلى:

 @Misc { chatglm-efficient-tuning ,
  title = { ChatGLM Efficient Tuning } ,
  author = { hiyouga } ,
  howpublished = { url{https://github.com/hiyouga/ChatGLM-Efficient-Tuning} } ,
  year = { 2023 }
}

شكر وتقدير

يستفيد هذا الريبو من ChatGlm-6B و ChatGlm Tuning و YuanzhoulVPI2017/Zero_nlp. شكرا لأعمالهم الرائعة.

تاريخ النجوم

يوسع