تنزيل Alpaca CoT - تنزيل رمز مصدر Alpaca CoT

中文| إنجليزي

الألبكة-سوت

الألباكا-كووت: منصة ضبط التعليمات مع واجهة موحدة لجمع التعليمات ، وطرق كفاءة المعلمة ، ونماذج اللغة الكبيرة

هذا هو المستودع لمشروع Alpaca-CoT ، الذي يهدف إلى إنشاء منصة للتعليمات (IFT) مع مجموعة تعليمات واسعة النطاق (وخاصة مجموعات بيانات COT) وواجهة موحدة لمختلف نماذج اللغة الكبيرة وطرق المعلمة. نقوم باستمرار بتوسيع نطاق جمع بيانات تعليماتنا ، ودمج المزيد من LLMs وطرق أكثر كفاءة في الكفاءة. بالإضافة إلى ذلك ، أنشأنا فرعًا جديدًا tabular_llm لإنشاء LLM جدولي لحل مهام ذكاء الجدول.

نرحب بحرارة بتزويدنا بأي مجموعات بيانات غير متعلقة بالتعليمات (أو مصادرها). سنقوم بتنسيقهم بشكل موحد ، وندرب نموذج الألبكة (وغيرها من LLMs في المستقبل المبكرة) مع مجموعات البيانات هذه ، ومفتوح المصدر نقاط التفتيش النموذجية ، وإجراء دراسات تجريبية واسعة النطاق. نأمل أن يتمكن مشروعنا من تقديم مساهمة متواضعة في العملية المفتوحة للمصدر لنماذج اللغة الكبيرة ، وأن يقلل من عتبة الباحثين في NLP للبدء.

يمكنك أيضًا اختيار الانضمام إلى الدردشة الجماعية الخاصة بنا (WeChat) والتواصل مع المزيد من الأشخاص ذوي الاهتمامات نفسها. في الوقت الحاضر ، يكون عدد أعضاء المجموعة كبيرًا جدًا للانضمام إلى المجموعة مباشرة من خلال رمز QR Group. تحتاج إلى التواصل معي أولاً للدخول إلى المجموعة.

أخبار

إذا كنت ترغب في استخدام طرق أخرى إلى جانب Lora ، فيرجى تثبيت الإصدار المعدل في Project pip install -e ./peft .
12.8: تم دمج LLM InternLM .
8.16: 4bit quantization متاحة لـ lora و qlora و adalora .
8.16: تم دمج أساليب Qlora الموفرة Sequential adapter Parallel adapter .
7.24: تم دمج LLM ChatGLM v2 .
7.20: تم دمج LLM Baichuan .
6.25: إضافة رمز تقييم النموذج ، بما في ذلك Belle و MMCU.

- أكثر

5.20: إصلاح الأخطاء في حفظ النموذج وإضافة دعم WANDB.
5.15: المزيد من مجموعات البيانات مثل GPT4Tools ، Auto CoT ، pCLUE إضافة.
5.5: يتم إنشاء فرع جديد tabular_llm لإنشاء LLM جدولي. نقوم بجمع بيانات صياغة تعليمات للمهام المتعلقة بالجدول مثل الإجابة على أسئلة الجدول واستخدامها لضبط LLMs في هذا الريبو.
5.4: تم دمج جميع الطرق الموفرة للمعلمة في PEFT (على سبيل المثال ، صخب P) ، والتي يمكن تعيينها بواسطة المعلمة المفرطة مباشرة.
5.4: تم دمج LLM MOSS .
4.21: يتم جمع مجموعات البيانات GAOKAO ، camel ، FLAN-Muffin ، COIG وتنسيقها.
4.15: مجموعات البيانات webGPT ، dolly ، baize ، hh-rlhf ، OIG(part) يتم جمعها وتنسيقها.
4.12: الآن يمكنك تجربة الألباكا-كوت على Google Colab.
4.11: تمت إضافة multi-turn conversation بواسطة paulcx.
4.9: مجموعات البيانات firefly ، instruct ، يتم جمع وتنسيق Code Alpaca وتنسيقها ، والتي يمكن العثور عليها هنا.
4.7: Parameter merging الوظائف المضافة ، Local chatting ، Batch predicting Web service building بواسطة Weberr.
4.4: يتم جمع مجموعات البيانات GPTeacher ، Guanaco ، HC3 ، prosocial-dialog ، belle-chat&belle-math ، xP3 natural-instructions وتنسيقها.
4.3: يمكن العثور على مجموعة بيانات COT الصينية CoT_CN_data.json هنا.

ملخص

Llama [1] هو عمل رائع يوضح القدرة الصفر المذهلة وقدرة قليلة. إنه يقلل بشكل كبير من تكلفة التدريب ، والتحديد ، واستخدام نماذج اللغة الكبيرة التنافسية ، IE ، LLAMA-13B يتفوق على GPT-3 (175B) و LLAMA-65B تنافسية مع PALM-540B. في الآونة الأخيرة ، لتعزيز قدرة متابعة التعليمات في LLAMA ، Stanford Alpaca [2] LAMA-7B على بيانات 52K تتبع التعليمات التي تم إنشاؤها بواسطة تقنيات التقنية الذاتية [3]. ومع ذلك ، في الوقت الحالي ، لا يزال مجتمع أبحاث LLM يواجه ثلاثة تحديات: 1. حتى LLAMA-7B لا يزال لديه متطلبات عالية للحوسبة ؛ 2. هناك عدد قليل من مجموعات البيانات مفتوحة المصدر للتعليمات. و 3. هناك نقص في دراسة تجريبية حول تأثير أنواع مختلفة من التعليمات على قدرات النموذج ، مثل القدرة على الاستجابة للتعليم الصيني وتفكير المهد.

تحقيقًا لهذه الغاية ، نقترح هذا المشروع ، الذي يستفيد من التحسينات المختلفة التي تم اقتراحها لاحقًا ، مع المزايا التالية:

1. يحتوي هذا الريبو على رمز ، تم تعديله من هنا وهنا ، يمكنه أن يتغذى على Llama بثمن بخس وكفاءة (دون تدهور الأداء مقارنةً بـ Stanford Alpaca) باستخدام التكيف منخفض الرتبة (Lora) [4] ، Peft و Bitsandbytes. يمكن تدريب إصدارات 7b و 13b و 30b من نماذج Llama بسهولة على 80G A100.
1. النماذج المنشورة في هذا الريبو تعمل بشكل كبير على تحسين قدرة COT (التفكير) .
1. النماذج المنشورة في هذا الريبو تعمل على تحسين القدرة على اتباع التعليمات الصينية بشكل كبير.
1. يحتوي هذا الريبو على مجموعة من مجموعات البيانات التي يتم جمعها في التعليمات التي يتم جمعها بشكل مستمر ، والتي تشمل حتى الآن تعليمات اللغة الإنجليزية والصينية والسعة. بالإضافة إلى ذلك ، يتم أيضًا توفير مجموعة من نقاط التفتيش المدربة مع مجموعات بيانات التعليمات المختلفة.
1. يدمج هذا الريبو LLMs متعددة وتوحيد واجهاتها ، ويمكن تبديله بسهولة من خلال المقاييس المفرطة. حاليًا ، يشمل Llama و ChatGlm [5] و Bloom [6] و Moss ، وسيستمر إضافة المزيد في المستقبل للباحثين للاستدعاء بسهولة ومقارنة LLMs المختلفة.
1. يدمج هذا الريبو طرقًا متعددة كفاءة المعلمة وتوحيد واجهاتها ، ويمكن تبديلها بسهولة من خلال أجهزة التمييز المفرطة. في الوقت الحالي ، يشتمل على لورا ، و p-tuning [5] ، وضبط Adalora و Prefix ، وسيستمر إضافة المزيد في المستقبل للباحثين للاستدعاء بسهولة ومقارنة طرق مختلفة موفرة للمعلمة.
1. يحتوي هذا الريبو على دراسات تجريبية واسعة النطاق والتحليل النوعي ، والتي قد توفر نتائج قيمة وتعزز استكشاف LLM في المستقبل.

على حد علمنا ، هذا العمل هو أول من يدرس التفكير في سرير الأطفال على أساس لاما والألباكا. لذلك ، فإننا نختصر عملنا إلى Alpaca-CoT .

جمع البيانات

يمكن عرض الحجم النسبي لمجموعات البيانات التي تم جمعها بواسطة هذا الرسم البياني:

بالإشارة إلى هذا (@yaodongc) ، وصفنا كل مجموعة بيانات تم جمعها وفقًا للقواعد التالية:

(لانج) العلامات اللغوية:

EN: مجموعات بيانات التعليمات باللغة الإنجليزية
CN: مجموعات بيانات التعليمات باللغة الصينية
ML: [متعدد اللغات] مجموعات بيانات التعليمات بلغات متعددة

(مهمة) علامات المهام:

MT: مجموعات بيانات [متعددة المهام] تحتوي على مهام متعددة
TS: [محددة المهام] مجموعات بيانات مصممة لمهام محددة

(الجنرال) جيل-ميثود:

HG: [مجموعة البيانات التي تم إنشاؤها البشري] مجموعات بيانات التي أنشأها البشر
SI: [تخصيص الذات] مجموعات البيانات التي تم إنشاؤها باستخدام طرق التخصيص الذاتي
MIX: [مجموعة البيانات المختلطة] تحتوي مجموعة البيانات على كل من البيانات التي تم إنشاؤها البشري والآلة
Col: [مجموعة مجموعة البيانات] مصنوعة من مجموعة من مجموعات البيانات الأخرى

إحصائيات

مجموعة البيانات	أرقام	لانغ	مهمة	الجنرال	يكتب	SRC	عنوان URL
سلسلة من الفكر	74771	en/cn	MT	زئبق	تعليمات مع سرير الأطفال	التعليق على سرير الأطفال على البيانات الموجودة	تحميل
GPT4ALL	806199	en	MT	العقيد	رمز وقصص وحوار	التقطير من GPT-3.5 توربو	تحميل
GPTEACHER	29013	en	MT	سي	عام ، لعب الأدوار ، Toolformer	GPT-4 & Toolformer	تحميل
جواناكو	534610	مل	MT	سي	مهام لغوية مختلفة	نص davinci-003	تحميل
HC3	37175	en/cn	TS	مزج	تقييم الحوار	الإنسان أو شاتغبت	تحميل
الألبكة	52002	en	MT	سي	تعليمات عامة	نص davinci-003	تحميل
التعليمات الطبيعية	5040134	مل	MT	العقيد	مهام NLP متنوعة	مجموعة مجموعات البيانات المشروحة البشرية	تحميل
belle_cn	1079517	CN	TS/MT	سي	التفكير العام ، المنطق الرياضي ، الحوار	نص davinci-003	تحميل
Instinwild	52191	en/cn	MT	سي	الجيل ، المفتوح QA ، عاصفة العقل	نص davinci-003	تحميل
مربع حوار اجتماعي	165681	en	TS	مزج	حوار	يعيد GPT-3 إعادة كتابة الأسئلة + التعليقات البشر يدويًا	تحميل
finance_en	68912	en	TS	العقيد	QA المالي	GPT3.5	تحميل
XP3	78883588	مل	MT	العقيد	مجموعة من المطالبات ومجموعات البيانات عبر 46 من اللغات و 16 مهمة NLP	مجموعة مجموعات البيانات المشروحة البشرية	تحميل
يراعة	1649398	CN	MT	العقيد	23 مهام NLP	مجموعة مجموعات البيانات المشروحة البشرية	تحميل
إرشاد	888969	en	MT	العقيد	معزز من GPT4ALL ، الألبكة ، مجموعات بيانات ميتا مفتوحة المصدر	تم إجراء زيادة باستخدام أدوات NLP المتقدمة التي توفرها Allenai	تحميل
رمز الألبكة	20022	en	TS	سي	توليد الكود ، التحرير ، التحسين	نص davinci-003	تحميل
alpaca_gpt4	52002	en/cn	MT	سي	تعليمات عامة	تم إنشاؤه بواسطة GPT-4 باستخدام الألبكة	تحميل
webgpt	18994	en	TS	مزج	استرجاع المعلومات (IR) QA	GPT-3 ، كل تعليمة تم ضبطها ، كل تعليمة لها مخرجان ، حدد واحد أفضل	تحميل
دوللي 2.0	15015	en	TS	زئبق	QA مغلق ، تلخيص وما إلى ذلك ، ويكيبيديا كمراجع	مشروح الإنسان	تحميل
بايز	653699	en	MT	العقيد	مجموعة من أسئلة الألبكة والكورا و Stackoverflow و Medquad	مجموعة مجموعات البيانات المشروحة البشرية	تحميل
HH-RLHF	284517	en	TS	مزج	حوار	مربع حوار بين نماذج الإنسان و RLHF	تحميل
OIG (جزء)	49237	en	MT	العقيد	تم إنشاؤها من مختلف المهام ، مثل السؤال والإجابة	باستخدام زيادة البيانات ، جمع مجموعات البيانات المشروحة البشرية	تحميل
غوكاو	2785	CN	MT	العقيد	أسئلة متعددة الخيارات ، ملء الفراغ والمفتوحة من الفحص	مشروح الإنسان	تحميل
جمل	760620	en	MT	سي	محادثات لعب الأدوار في مجتمع الذكاء الاصطناعي ، الكود ، الرياضيات ، الفيزياء ، الكيمياء ، البيولوجي	GPT-3.5 توربو	تحميل
flan-muffin	1764800	en	MT	العقيد	60 مهام NLP	مجموعة مجموعات البيانات المشروحة البشرية	تحميل
Coig (flaginstruct)	298428	CN	MT	العقيد	اجمع امتحان FRON ، تعليمات محاذاة القيمة البشرية المترجمة ، والتصحيح المضاد للتصحيح متعدد الدورات	استخدام الأداة التلقائية والتحقق اليدوي	تحميل
GPT4Tools	71446	en	MT	سي	مجموعة من الإرشادات المتعلقة بالأدوات	GPT-3.5 توربو	تحميل
Sharechat	1663241	en	MT	مزج	تعليمات عامة	التعهيد الجماعي لجمع المحادثات بين الأشخاص و ChatGPT (ShareGPT)	تحميل
سرير السيارات	5816	en	MT	العقيد	الحساب ، المنطقية ، مهام التفكير المنطقي وغيرها من المهام المنطقية	مجموعة مجموعات البيانات المشروحة البشرية	تحميل
طحلب	1583595	en/cn	TS	سي	تعليمات عامة	نص davinci-003	تحميل
Ultrachat	28247446	en			أسئلة حول العالم والكتابة والخلق والمساعدة على المواد الموجودة	اثنان منفصل GPT-3.5 توربو	تحميل
صينية طبية	792099	CN	TS	العقيد	أسئلة حول المشورة الطبية	الزحف	تحميل
CSL	396206	CN	MT	العقيد	توليد نص الورق ، استخراج الكلمات الرئيسية ، تلخيص النص وتصنيف النص	الزحف	تحميل
PCLUE	1200705	CN	MT	العقيد	تعليمات عامة		تحميل
news_commentary	252776	CN	TS	العقيد	يترجم		تحميل
Stackllama	تودو	en

تحميل

يمكنك تنزيل جميع البيانات المنسقة هنا. ثم يجب عليك وضعها في مجلد البيانات.

يمكنك تنزيل جميع نقاط التفتيش المدربة على أنواع مختلفة من بيانات التعليمات من هنا. بعد ذلك ، بعد تعيين LoRA_WEIGHTS (في generate.py ) إلى المسار المحلي ، يمكنك تنفيذ استنتاج النموذج مباشرة.

تنسيق البيانات

يتم تنسيق جميع البيانات الموجودة في مجموعتنا في نفس القوالب ، حيث تكون كل عينة كما يلي:

 [
{"instruction": instruction string,
"input": input string, # (may be empty)
"output": output string}
]

لاحظ أنه بالنسبة لمجموعات بيانات COT ، نستخدم أولاً القالب الذي توفره Flan لتغيير مجموعة البيانات الأصلية إلى أشكال سلسلة من الأفضل ، ثم تحويله إلى التنسيق أعلاه. يمكن العثور على نص تنسيق هنا.

منصة موحدة متعددة الواجهة

يثبت

 pip install -r requirements.txt

لاحظ ذلك ، تأكد من Python> = 3.9 عند chatglm finetuning.

PEFT

إذا كنت ترغب في استخدام طرق أخرى إلى جانب Lora ، فيرجى تثبيت الإصدار المعدل في مشروعنا

 pip install -e ./peft

تعليمات Finetuning

لكي يقوم الباحثون بإجراء أبحاث IFT المنهجية على LLMS ، قمنا بجمع أنواع مختلفة من بيانات التعليمات ، و LLMs متعددة ، وواجهات موحدة ، مما يجعل من السهل تخصيص التجميع المطلوب:

--model_type : اضبط LLM الذي تريد استخدامه. حاليًا ، يتم دعم [Llama ، ChatGlm ، Bloom ، Moss]. الأخيرين لهما قدرات صينية قوية ، وسيتم دمج المزيد من LLMs في المستقبل.
--peft_type : اضبط PEFT الذي تريد استخدامه. حاليًا ، يتم دعم [Lora ، Adalora ، ضبط البادئة ، ضبط P ، موجه].
--data : قم بتعيين نوع البيانات المستخدم لـ IFT لتكييف قدرة امتثال الأوامر المرونة بمرونة. على سبيل المثال ، من أجل القدرة القوية على التفكير ، قم بتعيين "alpaca-cot" ، من أجل القدرة الصينية القوية ، وضع "Belle1.5m" ، من أجل توليد الترميز وتوليد القصة ، وضع "GPT4ALL" ، وللحصول على قدرة الاستجابة المالية ذات الصلة ، تعيين "التمويل".
--model_name_or_path : تم تعيين هذا لتحميل إصدارات مختلفة من أوزان النموذج للهدف LLM --model_type . على سبيل المثال ، لتحميل إصدار LLAMA 13B من الأوزان ، يمكنك تعيين Decapoda-Research/Llama-13B-HF.

وحدة معالجة الرسومات المفردة

للااما

 python3 uniform_finetune.py --model_type llama --model_name_or_path decapoda-research/llama-7b-hf 
    --data alpaca-belle-cot --lora_target_modules q_proj v_proj 
    --per_gpu_train_batch_size 4 --learning_rate 3e-4 --epochs 1

ملاحظة: بالنسبة لمجموعات البيانات المتعددة ، يمكنك استخدام --data مثل --data ./data/alpaca.json ./data/finance.json <path2yourdata_1>

ل chatglm

 python3 uniform_finetune.py   --model_type chatglm --model_name_or_path THUDM/chatglm-6b 
    --data alpaca-belle-cot --lora_target_modules query_key_value 
    --lora_r 32 --lora_alpha 32 --lora_dropout 0.1 --per_gpu_train_batch_size 2 
    --learning_rate 2e-5 --epochs 1

لاحظ أن load_in_8bit غير مناسب بعد لـ ChatGLM ، لذلك يجب أن يكون Batch_size أصغر من غيرها.

لزهر

 python3 uniform_finetune.py   --model_type bloom --model_name_or_path bigscience/bloomz-7b1-mt 
    --data alpaca-belle-cot --lora_target_modules query_key_value 
    --per_gpu_train_batch_size 4 --learning_rate 3e-4 --epochs 1

للموس

 python3 uniform_finetune.py   ---model_type moss --model_name_or_path fnlp/moss-moon-003-sft  
    --data alpaca --lora_target_modules q_proj v_proj --per_gpu_train_batch_size 1 
    --learning_rate 3e-4 --epochs 3

للمتدرب

 python3 uniform_finetune.py   --model_type internlm --model_name_or_path internlm/internlm-7b 
    --data alpaca --lora_target_modules q_proj v_proj --lora_r 32 --lora_alpha 32 
    --lora_dropout 0.1 --per_gpu_train_batch_size 1 --learning_rate 2e-5 --epochs 1 
    --compute_dtype="fp32"

لاحظ أنه يمكنك أيضًا تمرير المسار المحلي (حيث يتم حفظ أوزان LLM) إلى --model_name_or_path . ويمكن ضبط نوع البيانات --data بحرية وفقًا لمصالحك.

وحدات معالجة الرسومات المتعددة

torchrun --nnodes 1 --nproc_per_node $ngpu uniform_finetune.py $args --data $data

للااما

 python3 -m torch.distributed.launch --nproc_per_node 4  
    --nnodes=1 --node_rank=0 --master_addr=xxx --master_port=yyy uniform_finetune.py 
    --model_type llama --model_name_or_path decapoda-research/llama-7b-hf 
    --data alpaca-belle-cot --lora_target_modules q_proj v_proj 
    --per_gpu_train_batch_size 4 --learning_rate 3e-4 --epochs 1

ل chatglm

 python3 -m torch.distributed.launch --nproc_per_node 4  
    --nnodes=1 --node_rank=0 --master_addr=xxx --master_port=yyy 
    uniform_finetune.py   --model_type chatglm --model_name_or_path THUDM/chatglm-6b 
    --data alpaca-belle-cot --lora_target_modules query_key_value 
    --lora_r 32 --lora_alpha 32 --lora_dropout 0.1 --per_gpu_train_batch_size 2 
    --learning_rate 2e-5 --epochs 1

لاحظ أن load_in_8bit غير مناسب بعد لـ ChatGLM ، لذلك يجب أن يكون Batch_size أصغر من غيرها.

لزهر

 python3 -m torch.distributed.launch --nproc_per_node 4  
    --nnodes=1 --node_rank=0 --master_addr=xxx --master_port=yyy 
    uniform_finetune.py   --model_type bloom --model_name_or_path bigscience/bloomz-7b1-mt 
    --data alpaca-belle-cot --lora_target_modules query_key_value 
    --per_gpu_train_batch_size 4 --learning_rate 3e-4 --epochs 1

للمتدرب

 python3 -m torch.distributed.launch --nproc_per_node 4  
    --nnodes=1 --node_rank=0 --master_addr=xxx --master_port=yyy 
    uniform_finetune.py   --model_type internlm --model_name_or_path internlm/internlm-7b 
    --data alpaca --lora_target_modules q_proj v_proj --lora_r 32 --lora_alpha 32 
    --lora_dropout 0.1 --per_gpu_train_batch_size 1 --learning_rate 2e-5 --epochs 1 
    --compute_dtype="fp32"

الاستدلال

 python3 generate.py  --data alpaca-belle-cot --model_type llama

python3 generate.py  --data alpaca-belle-cot --model_type chatglm

python3 generate.py  --data alpaca-belle-cot --model_type bloom

يمكن العثور على مزيد من تفاصيل التعليمات المعيارية والاستدلال هنا من حيث قمنا بتعديلها. لاحظ أن المجلدات saved-xxx7b هي المسار حفظ أوزان Lora ، ويتم تنزيل أوزان Llama تلقائيًا من Hugging Face.

التفسير المفرط للمعلمة

 top_p=0.9,
        #Moderately increase the probability threshold of nucleus sampling to increase the quantity of candidate tokens and increase generation diversity.

temperature=1.0,
        #The previous low temperature parameter could lead to a severe polarization in the probability distribution of generated words, which degenerates the generation strategy into greedy decoding.

do_sample=True,
        #do_sample parameter is set to False by default. After setting to True, the generation methods turn into beam-search multinomial sampling decoding strategy.

no_repeat_ngram_size=6,
        #Configure the probability of the next repeating n-gram to 0, to ensure that there are no n-grams appearing twice. This setting is an empirical preliminary exploration.

repetition_penalty=1.8,
        #For words that have appeared before, in the subsequent prediction process, we reduce the probability of their reoccurrence by introducing the repetition_penalty parameter. This setting is an empirical preliminary exploration.

دمج المعلمة

 python3 merge.py --model_type llama --size 7b --lora_dir xxx --merged_dir yyy

الدردشة المحلية

 python3 server.py --model_type chatglm --size 6b --lora_dir xxx

دفعة التنبؤ

 python3 predict.py --model_type chatglm --size 6b --data for_dict_data --lora_dir xxx --result_dir yyy

بناء خدمة الويب

 python3 web.py --model_type chatglm --size 6b --lora_dir xxx

دراسة تجريبية لضرب التعليم المفتوح باللغة الصينية (اعتبارًا من 25 يونيو)

ملاحظة: يتم الحصول على جميع النتائج التجريبية التالية من ___AN دراسة تجريبية لنماذج اللغة الكبيرة في صناديق التعليمات باللغة الصينية.

1. المعايير

تختار هذه الورقة معايير التقييم ، Belle-Eval و MMCU ، لتقييم كفاءات LLM بشكل شامل باللغة الصينية.

تم بناء Belle-eval بواسطة بنية ذاتية مع ChatGPT ، والتي لديها 1000 تعليمات متنوعة تتضمن 10 فئات تغطي مهام NLP الشائعة (على سبيل المثال ، QA) والمهام الصعبة (على سبيل المثال ، الكود والرياضيات). نستخدم chatgpt لتقييم الاستجابات النموذجية بناءً على الإجابات الذهبية. يعتبر هذا المعيار بمثابة تقييم قدرة AGI (تتبع التعليمات).

MMCU هي مجموعة من أسئلة الاختيار الصيني من متعدد في أربعة تخصصات مهنية للطب والقانون وعلم النفس والتعليم (على سبيل المثال ، امتحان Gaokao). إنها تتيح LLMs لإجراء الامتحانات في المجتمع البشري بطريقة اختبار متعدد الخيارات ، مما يجعلها مناسبة لتقييم اتساع وعمق المعرفة من LLMs عبر تخصصات متعددة.

يتم عرض إحصائيات البيانات من Belle-eval و MMCU في الجدول أعلاه.

2. العوامل الرئيسية

نقوم بإجراء تجارب لدراسة العوامل الرئيسية الثلاثة في Tuning Tuning LLMs: قواعد LLM ، طرق معلمة موفرة ، مجموعات بيانات التعليمات الصينية.

2.1 قواعد LLM

بالنسبة إلى LLMs المفتوحة ، نقوم باختبار LLMs الحالي و LLMs تم ضبطه مع Lora على الألباكا-GPT4 على Belle-eval و MMCU ، على التوالي.

يوضح الجدول 2 عشرات LLMs المفتوحة على الحسناء. يوضح الجدول 3 دقة LLMS على MMCU. إنهم يقومون بضبط جميع LLMs المفتوحة بنفس طريقة LORA الموفرة للمعلمة ونفس مجموعة بيانات التعليمات الألباكا-GPT4.

النتائج التجريبية:

تقييم LLMs الحالية
الأداء على الحسناء
(1) لقاعدة LLMS ، بلوم يؤدي الأفضل.
(2) بالنسبة إلى SFT LLMS ، يتفوق ChatGlm على الآخرين بهوامش كبيرة ، وذلك بفضل حقيقة أنه تم تدريبه مع أكثر الرموز الصينية و HFRL.
(3) لا تزال فئات ضمان الجودة المفتوحة والرياضيات و CloorQa و Lext صعبة للغاية بالنسبة LLMs المفتوحة الحالية.
(4) لدى Vicuna و Moss-SFT تحسينات واضحة مقارنة بقواعدهما ، Llama و Moss-Base ، على التوالي.
(5) على النقيض من ذلك ، يتم تقليل أداء نماذج SFT ، Bloomz و Bloomz-MT ، مقارنة مع إزهار النموذج الأساسي ، لأنها تميل إلى توليد استجابة أقصر.
الأداء على MMCU
(1) تعمل جميع LLMs الأساسية بشكل سيء لأنه من الصعب تقريبًا إنشاء محتوى بالتنسيق المحدد قبل صقل الأرقام ، على سبيل المثال ، أرقام الخيارات.
(2) جميع SFT LLMS تتفوق على قاعدتها المقابلة LLMS ، على التوالي. على وجه الخصوص ، يقوم Bloomz بأفضل (حتى Beats ChatGlm) لأنه يمكن أن ينشئ رقم الخيار مباشرة كما هو مطلوب دون إنشاء محتوى آخر غير ذي صلة ، والذي يرجع أيضًا إلى خصائص البيانات الخاصة بمجموعة بيانات البيانات الخاضعة للإشراف XP3.
(3) من بين التخصصات الأربعة ، القانون هو الأكثر تحديا بالنسبة إلى LLMs.

يتم عرض نتائج أداء LLMs بعد صقل التعليمات على الألبكة-GPT4-ZH في الشكل 1.

تعليمات صقل LLMs مختلفة
(1) في Belle-eval ، فإن تحسين أداء SFT LLMS الذي تم إحضاره عن طريق ضبط التعليمات ليس بنفس أهمية ذلك في قاعدة LLMS ، باستثناء SFT Bloomz و Bloomz-MT.
(2) تنخفض أداء Vicuna و ChatGlm بعد صقل التعليمات ، لأن Vicuna مدرّب من محادثات Chatgpt الحقيقية ، بجودة أفضل من Alpaca-GPT4. تعتمد ChatGlm HFRL ، والتي قد لا تكون مناسبة لمزيد من صياغة التعليمات.
(3) على MMCU ، تحقق معظم LLMs تعزيز الأداء بعد ضبط التعليمات ، باستثناء Bloomz و Bloomz-MT ، والتي انخفضت أداء بشكل غير متوقع بشكل غير متوقع.
(4) بعد ضبط التعليمات ، يتمتع بلوم بتحسينات كبيرة ويؤدي أداءً جيدًا على كلتا المعايير. على الرغم من أن chatglm يتفوق على بلوم باستمرار ، إلا أنه يعاني من انخفاض الأداء أثناء ضبط التعليمات. لذلك ، من بين جميع LLMs المفتوحة ، يعد Bloom هو الأكثر ملاءمة كنموذج أساس في التجارب اللاحقة لاستكشاف صياغة التعليمات الصينية.

2.2 أساليب معلمة فعالة

بالنسبة للطرق الموفرة للمعلمة بخلاف LORA ، تجمع الورقة مجموعة من الأساليب الموفرة للمعلمة لتزدهر نضيف التعليمات على مجموعة بيانات الألباكا-GPT4.

النتائج التجريبية:

مقارنة بين أساليب المعلمة
(1) يؤدي Sadapterh الأفضل بين جميع الطرق الموفرة للمعلمة ، والتي يمكن استخدامها كبديل لـ Lora.
(2) P-Tuning و STROFTING OFFERMONT OPHENTY من خلال هوامش كبيرة ، مما يشير إلى أن إضافة طبقات قابلة للدراب فقط في طبقة التضمين ليست كافية لدعم LLMs لمهام التوليد.
(3) على الرغم من أن Adalora هو تحسن في Lora ، إلا أن أدائها له انخفاض واضح ، ربما لأن المعلمات القابلة للتدريب في Lora لـ LLMs ليست مناسبة لمزيد من التخفيض.
(4) مقارنة الأجزاء العلوية والسفلية ، يمكن ملاحظة أن زيادة عدد المعلمات القابلة للتدريب للمحولات المتسلسلة (IE ، Sadapterp و Sadapterh) لا تجلب كسبًا ، في حين يتم ملاحظة الظاهرة المعاكسة للمحولات المتوازية (أي ، P-Adapter)
فقدان التدريب
(1) تتقارب الضبط السريع وصقل P أبطأ ولديه أعلى الخسائر بعد التقارب. هذا يدل على أن محولات التضمين فقط ليست مناسبة لتعليمات تعليمات LLMs.
(2) الخسارة الأولية لـ Adalora مرتفع جدًا لأنها تتطلب تعلمًا متزامنًا لتخصيص ميزانية المعلمة ، مما يجعل النموذج غير قادر على احتواء بيانات التدريب بشكل جيد.
(3) يمكن أن تتقارب الطرق الأخرى بسرعة في بيانات التدريب وتناسبها جيدًا.

2.3 مجموعات بيانات التعليمات الصينية

لتأثير أنواع مختلفة من مجموعات بيانات التعليمات الصينية ، يجمع المؤلفون تعليمات صينية مفتوحة شهيرة (كما هو موضح في الجدول 5) لضبط الإزاحة مع Lora.

يوضح الجدول 6 والجدول 7 صقل بلوم على مجموعات بيانات التعليمات المختلفة.

النتائج التجريبية:

الأداء على الحسناء
(1) بيانات التعليمات التي تم إنشاؤها بواسطة chatgpt (على سبيل المثال ، باستخدام طرق التعيين الذاتي أو جمع محادثات تشاتغبت البشرية الحقيقية) تعزز باستمرار قدرة متابعة التعليمات مع زيادة درجة 3.1 ∼ 11 نقطة.
(2) من بين مجموعات البيانات هذه ، لدى Belle أفضل أداء بسبب أكبر قدر من بيانات التعليمات. ومع ذلك ، فإن أداء النماذج المدربة على moss-sft-data ، التي تحتوي على المزيد من البيانات المدمجة بطريقة مماثلة ، غير مرضٍ.
(3) الأداء الذي جلبته تعليمات الألباكا-GPT4 هو ثاني الأفضل ، حيث يكون 49 كيلو سوى مقارنته بـ 1.54 متر.
(4) يجلب InstinWild أقل مكاسب الأداء بينهم لأن تعليمات البذور التي تزحفها من تغريدة ("في البرية") ليست شاملة مثل تلك (مثل الألبكة) التي صممها البشر بعناية.
(5) لها هذه البيانات المستندة إلى chatgpt بشكل أساسي تأثير تحسين كبير على مهام التوليد المفتوح مثل عاصفة الدماغ وتوليدها ، في حين أن هناك انخفاضًا كبيرًا في المهام التي تتطلب مهارات فهم عالية القراءة ، مثل QA القريبة والاستخراج.
(6) تتسبب مجموعات بيانات التعليمات هذه في تلف قدرة متابعة تعليمات النموذج ، لأن شكل وقصد كل مجموعة بيانات NLP أو الفحص موحدة ، والتي يمكن تجهيزها بسهولة.
(7) من بينها ، يؤدي Coig-Trans الأفضل لأنه يتضمن أكثر من 2000 مهمة مختلفة مع مجموعة واسعة من تعليمات المهمة. على النقيض من ذلك ، فإن XP3 و Coig-CCMC لهما أسوأ تأثير سلبي على أداء النموذج. يغطي كلاهما فقط أنواع قليلة من المهام (الترجمة و QA للمحادثات السابقة للتصحيح المضاد للأخير) ، والتي بالكاد تغطي التعليمات والمهام الشائعة للبشر.
الأداء على MMCU
(1) يمكن أن يؤدي ضبط التعليمات على كل مجموعة بيانات دائمًا إلى تحسين الأداء.
(2) من بين البيانات المستندة إلى ChatGPT الموضحة في الجزء العلوي ، فإن sharegpt-zh يضعف الآخرين بهوامش كبيرة. قد يكون هذا بسبب حقيقة أن المستخدمين الحقيقيين نادراً ما يطرحون أسئلة متعددة حول الموضوعات الأكاديمية.
(3) من بين بيانات جمع البيانات الموضحة في الجزء السفلي ، ينتج عن HC3 و COIG-CCMC أدنى دقة لأن الأسئلة الفريدة لـ HC3 هي فقط 13K ، وتنسيق مهمة COIG-CCMC يختلف اختلافًا كبيرًا عن MMCU.
(4) يجلب Coig-Exam أكبر تحسين في الدقة ، ويستفيد من تنسيق المهمة المماثل مثل MMCU.

3. عوامل أخرى

أربعة عوامل أخرى: سرير الأطفال ، توسع المفردات الصينية ، لغة المطالبات والمواءمة ذات القيمة الإنسانية

3.1 COT

بالنسبة إلى COT ، يقارن المؤلفون الأداء قبل وبعد إضافة بيانات COT أثناء ضبط التعليمات.

إعدادات التجربة:

نجمع 9 مجموعات بيانات COT ومطالباتها من Flan ، ثم نترجمها إلى الصينية باستخدام Google Translate. يقارنون الأداء قبل وبعد إضافة بيانات COT أثناء ضبط التعليمات.

لاحظ أولاً طريقة إضافة بيانات COT باسم "alpaca-gpt4+cot". بالإضافة إلى ذلك ، أضف جملة "先思考，再决定再决定" ("فكر خطوة بخطوة" باللغة الصينية) في نهاية كل تعليمات ، لحث النموذج على الاستجابة للتعليمات القائمة على المهد ، وتصنيف بهذه الطريقة باسم "الألباكا-GPT4+Cot*".

النتائج التجريبية:

"alpaca-gpt4+cot" يتفوق على "alpaca-gpt4" في مهام الكود والرياضيات التي تتطلب قدرة على التفكير القوية. علاوة على ذلك ، هناك أيضًا تحسن كبير في مهمة تعليم MMCU.
كما هو موضح في سطر "alpaca-gpt4+cot*" ، يمكن أن تزيد الجملة البسيطة من أداء رمز مهام التفكير والتعليم ، في حين أن أداء الرياضيات أقل شأناً من "alpaca-gpt4+cot". قد يتطلب هذا المزيد من استكشاف مطالبات أكثر قوة.

3.2 توسيع المفردات الصينية

لتوسيع المفردات الصينية ، يختبر المؤلفون تأثير عدد الرموز الصينية في مفردات الرمز المميز حول قدرة LLMS على التعبير عن الصينيين. على سبيل المثال ، إذا كانت هناك شخصية صينية في المفردات ، فيمكن تمثيلها برمز واحد ، وإلا فقد يتطلب الأمر رموزًا متعددة لتمثيلها.

إعدادات التجربة: يقوم المؤلفون بشكل أساسي بإجراء تجارب على LLAMA ، والتي تستخدم Sentsexpiece (حجم المفردات 32K من الأحرف الصينية) التي تغطي عدد أقل من الأحرف الصينية من Bloom (250k).

النتائج التجريبية:

إن التدريب المسبق على المزيد من الجسم الصيني مع التوسع في المفردات الصينية مفيد باستمرار لقدرة متابعة التعليمات.
وبشكل مضاد ، "llama-voc-pre-l" (100b) أدنى من "llama-voc-pre" (20B) على MMCU ، مما يدل على أن التدريب المسبق على المزيد من البيانات قد لا يؤدي بالضرورة إلى أداء أعلى للامتحانات الأكاديمية.

3.3 لغة المطالبات

بالنسبة لغية المطالبات ، يختبر المؤلفون مدى ملاءمة تعليمات التثبيت لاستخدام المطالبات الصينية.

يوضح الشكل 4 نتائج استخدام المطالبات الصينية والإنجليزية على أساس Llama و Bloom. عند تعليمات تعليمات لاما ، يمكن أن يؤدي استخدام المطالبات الصينية إلى تحسين الأداء على كلا المعايير مقارنة بمطالبات اللغة الإنجليزية ، في حين يمكن ملاحظة الظاهرة المعاكسة على الإزهار.

النتائج التجريبية:

بالنسبة للنماذج ذات القدرات الصينية الأضعف (على سبيل المثال ، LLAMA) ، يمكن أن يساعد استخدام المطالبات الصينية بشكل فعال في الاستجابة باللغة الصينية.
بالنسبة للموديلات ذات القدرات الصينية الجيدة (على سبيل المثال ، بلوم) ، يمكن باستخدام مطالبات باللغة الإنجليزية (اللغة التي تكون أفضل في) توجيه النموذج بشكل أفضل لفهم عملية التثبيت مع التعليمات.

3.4 محاذاة قيمة الإنسان

لتجنب LLMS لتوليد محتوى سام ، يعد محاذاة القيم الإنسانية مشكلة حاسمة. نضيف بيانات محاذاة القيمة البشرية التي صممها Coig إلى صياغة التعليمات لاستكشاف تأثيرها.

يقارن الشكل 5 نتائج صقل التعليمات مع أو بدون محاذاة قيمة الإنسان.

النتائج التجريبية: ينتج عن محاذاة القيمة الإنسانية انخفاضًا بسيطًا في الأداء. كيفية تحقيق التوازن بين الضرر وأداء LLMS هو اتجاه البحث يستحق الاستكشاف في المستقبل.

التحليل الكمي

ملاحظة: يوضح الشكل التالي إحصائيات مجموعة البيانات التي تم جمعها اعتبارًا من 26 مارس ، والتي يتم عرضها فقط كتحفيز لجمع البيانات. تم جمع المزيد من مجموعات البيانات ، مثل مجموعات بيانات التعليمات المالية ذات الصلة.

إحصائيات جمع البيانات تتكون المجموعة الحالية من مجموعات بيانات التمهيديات بشكل أساسي من ثلاثة أجزاء:

alpaca_data_cleaned.json : حوالي 52 ألف عينات تدريب متابعة للتعليمات الإنجليزية.
CoT_data.json : 9 مجموعات بيانات COT تتضمن حوالي 75K عينة. (نشرته فلان [7])
belle_data_cn.json : حوالي 0.5 متر صينية | عينات تدريب متابعة التعليمات. (نشرته بيل [8])

استئصال التعليمات الستيل والتعليمات الصينية

كوت الاجتثاث يشير "W/O COT" و "W/O CN" إلى النماذج التي تستبعد بيانات COT والتعليمات الصينية من بيانات التعليمات الخاصة بهم ، على التوالي.

يوضح الجدول أعلاه مثالين (يتضمن مع حسابات عددية) يتطلب قدرًا معينًا من قدرة التفكير على الاستجابة بشكل صحيح. كما هو موضح في العمود الأوسط ، فشلنا Ours w/o CoT في توليد الاستجابة الصحيحة ، مما يدل على أنه بمجرد أن لا تحتوي البيانات على بيانات COT ، تنخفض قدرة التفكير بشكل كبير. هذا يوضح كذلك أن بيانات COT ضرورية لنماذج LLM.

كوت الاجتثاث

يوضح الجدول أعلاه مثالين يتطلبان القدرة على الاستجابة للتعليمات الصينية. كما هو موضح في العمود الأيمن ، إما أن المحتوى الذي تم إنشاؤه Ours w/o CN غير معقول ، أو يتم الرد على التعليمات الصينية باللغة الإنجليزية من Ours w/o CN . هذا يدل على أن إزالة البيانات الصينية أثناء التحويلات اللاإرادية سيؤدي إلى عدم قدرة النموذج على التعامل مع التعليمات الصينية ، ويوضح أيضًا الحاجة إلى جمع بيانات التعليمات الصينية.

كوت الاجتثاث

يوضح الجدول أعلاه مثالًا صعبًا نسبيًا ، والذي يتطلب تراكمًا معينًا لمعرفة التاريخ الصيني والقدرة المنطقية والكاملة على تحديد الأحداث التاريخية. كما هو موضح في هذا الجدول ، لا يمكن Ours w/o CN سوى توليد استجابة قصيرة وخاطئة فقط ، لأنه بسبب عدم وجود بيانات صينية للتكنولوجيا ، فإن المعرفة المقابلة للتاريخ الصيني تفتقر بشكل طبيعي. على الرغم من أن Ours w/o CoT يسرد بعض الأحداث التاريخية الصينية ذات الصلة ، إلا أن منطق التعبير هو المتناقض الذاتي ، وهو الناجم عن عدم وجود بيانات COT. `

باختصار ، يمكن للموديلات التي تم تحريكها من مجموعة البيانات الكاملة (بيانات تعليمات اللغة الإنجليزية والصينية والتهابية) تحسين التفكير النموذجي والتعليم الصيني بشكل كبير.

تأثير بيانات COT

COT-Comparon لا تطبق عينات من كل عدد فردي من الصفوف موجه COT ، مثل "التفكير خطوة بخطوة". يعتمد كل Ours(w/CoT) و ALPACA على LLAMA-7B ، والفرق الوحيد بينهما اثنان هو أن بيانات التمهيديات Ours(w/CoT) لديها بيانات COT إضافية من الألبكة.

من الجدول أعلاه ، نجد ذلك:

Ours(w/CoT) دائمًا الأساس المنطقي الصحيح قبل الإجابة ، بينما تفشل الألبكة في توليد أي مبررات معقولة ، كما هو موضح في الأمثلة الأربعة الأولى (أسئلة المنطقية). هذا يدل على أن استخدام بيانات COT للتكنولوجيا يمكن أن يحسن قدرة التفكير بشكل كبير.
بالنسبة Ours(w/CoT) ، فإن مطالبة COT (على سبيل المثال ، متسلسلة "خطوة بخطوة" مع سؤال الإدخال) لها تأثير ضئيل على أمثلة سهلة (على سبيل المثال ، أسئلة المنطقية) ولها تأثير مهم على الأسئلة الصعبة (على سبيل المثال ، الأسئلة التي تتطلب التفكير ، مثل الأمثلة الأربعة الأخيرة).
بالنسبة إلى الألبكة ، فإن مطالبة COT لها دائمًا تأثير ضئيل أو حتى تأثير سلبي. خلال المثالين الأخيرين ، بعد إضافة موجه COT ، يغير Aplpaca الإجابة الصحيح التي تم إنشاؤها على الإجابة الخطأ. قد يكون هذا بسبب عدم الاتساق بين أشكال المدخلات للتكنولوجيا والاستدلال.

تأثير بيانات التعليمات الصينية

المقارنة الكمية للاستجابات للتعليمات الصينية. CN_COMPARE_CN

تم تصميم نموذجنا من 7 ب llama على تعليمات اللغة الإنجليزية 52k وتعليمات صينية 0.5m. ستانفورد الألباكا (إعادة تنفيذنا) تم تحريكه من 7 ب لاما على تعليمات اللغة الإنجليزية 52k. يتم تحطيم الحسناء من بلوم 7B على تعليمات صينية 2 ب.

من الجدول أعلاه ، يمكن العثور على عدة ملاحظات:

بالمقارنة مع الألبكة ، ours (w/ CN) قدرة أقوى على فهم التعليمات الصينية. على سبيل المثال ، فشل الألبكة في التمييز بين جزء instruction وجزء input ، بينما نفعل ذلك.
يمكن أن تعزز بيانات التعليمات الصينية بيانات التعليمات الصينية القدرة على التفاعل مع الصينية. على سبيل المثال الثاني ، لا يوفرنا ours (w/ CN) الرمز الصحيح فحسب ، بل يوفر أيضًا التعليق التوضيحي الصيني المقابل ، في حين أن الألبكة لا. بالإضافة إلى ذلك ، كما هو موضح في الأمثلة 3-5 ، لا يمكن أن تستجيب الألبكة فقط للتعليم الصيني باستخدام استجابة باللغة الإنجليزية.
بالمقارنة مع Belle ، لا يزال يتعين تحسين أداءنا ours (w/ CN) بشأن الإرشادات التي تتطلب استجابة مفتوحة (كما هو موضح في آخر مثالين). يرجع الأداء المتميز لـ Belle مقابل مثل هذه التعليمات إلى: 1. يواجه طراز Bloom Backbone بيانات متعددة اللغات خلال التدريب المسبق ؛ 2. إن بيانات التعليمات الصينية الخاصة بها هي أكثر من لدينا ، أي 2M مقابل 0.5 متر.

المقارنة الكمية للاستجابات لتعليمات اللغة الإنجليزية. الغرض من هذا القسم الفرعي هو استكشاف ما إذا كان للتكوين المعاني على التعليمات الصينية تأثير سلبي على الألبكة. CN_COMPARE_EN

من الجدول أعلاه ، نجد ذلك:

لا يضعف التعرّف على تعليمات التعليمات الصينية قدرة التعليمات الإنجليزية الأصلية ، على العكس من ذلك ، هناك أيضًا تعزيز معين في توليد استجابة أفضل للتعليمات الإنجليزية. تُظهر استجابة استجابة ours (w/ CN) تفاصيل أكثر من استجابة الألبكة ، على سبيل المثال ، على سبيل المثال الثالث ، ours (w/ CN) ثلاث مقاطعات أخرى أكثر من الألبكة.

اقتباس

يرجى الاستشهاد بالربط إذا كنت تستخدم جمع البيانات والرمز والنتائج التجريبية في هذا الريبو.

 @misc{si2023empirical,
      title={An Empirical Study of Instruction-tuning Large Language Models in Chinese}, 
      author={Qingyi Si and Tong Wang and Zheng Lin and Xu Zhang and Yanan Cao and Weiping Wang},
      year={2023},
      eprint={2310.07328},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

بالنسبة للبيانات والموديلات ، يرجى الاستشهاد بالبيانات الأصلية وطرق الكفاءة المعلمة ومصدر LLMS أيضًا.

نود أن نعرب عن امتناننا الخاص لـ Apus Ailme Lab لرعايته لقيام وحدات معالجة الرسومات 8 A100 للتجارب.

(العودة إلى الأعلى)

كل شكر المساهمين لدينا

يوسع