ดาวน์โหลด Alpaca CoT - ดาวน์โหลดซอร์สโค้ด Alpaca CoT

中文| ภาษาอังกฤษ

Alpaca-cot

ALPACA-COT: แพลตฟอร์มการปรับแต่งคำสั่งพร้อมอินเทอร์เฟซแบบครบวงจรสำหรับการรวบรวมคำสั่งวิธีการที่มีประสิทธิภาพพารามิเตอร์และแบบจำลองภาษาขนาดใหญ่

นี่คือพื้นที่เก็บข้อมูลสำหรับโครงการ Alpaca-CoT ซึ่งมีจุดมุ่งหมายเพื่อสร้างแพลตฟอร์มการเรียนการสอน Finetuning (IFT) พร้อมการรวบรวมคำสั่งที่กว้างขวาง (โดยเฉพาะชุดข้อมูล COT) และอินเทอร์เฟซแบบครบวงจรสำหรับแบบจำลองภาษาขนาดใหญ่และวิธีการที่มีประสิทธิภาพพารามิเตอร์ เรากำลังขยายการรวบรวมข้อมูลการปรับแต่งคำสั่งของเราอย่างต่อเนื่องและการรวม LLMs มากขึ้นและวิธีการที่มีประสิทธิภาพมากขึ้น นอกจากนี้เรายังได้สร้างสาขาใหม่ tabular_llm เพื่อสร้าง LLM แบบตารางสำหรับการแก้ปัญหางาน Intelligence Table

คุณยินดีต้อนรับอย่างอบอุ่นเพื่อให้เรามีชุดข้อมูลการปรับแต่งคำสั่งที่ไม่ได้รวบรวม (หรือแหล่งที่มาของพวกเขา) เราจะจัดรูปแบบอย่างสม่ำเสมอฝึกอบรมโมเดล ALPACA (และ LLM อื่น ๆ ในอนาคตต้น) ด้วยชุดข้อมูลเหล่านี้โอเพ่นซอร์สจุดตรวจของแบบจำลองและดำเนินการศึกษาเชิงประจักษ์อย่างกว้างขวาง เราหวังว่าโครงการของเราสามารถมีส่วนร่วมเล็กน้อยในกระบวนการโอเพนซอร์ซของแบบจำลองภาษาขนาดใหญ่และลดเกณฑ์สำหรับนักวิจัย NLP เพื่อเริ่มต้น

นอกจากนี้คุณยังสามารถเลือกเข้าร่วมการแชทกลุ่ม (WeChat) และสื่อสารกับผู้คนจำนวนมากที่มีความสนใจเท่ากัน ในปัจจุบันจำนวนสมาชิกกลุ่มมีขนาดใหญ่เกินไปที่จะเข้าร่วมกลุ่มโดยตรงผ่านรหัส QR กลุ่ม คุณต้องเชื่อมต่อกับฉันก่อนเพื่อเข้าร่วมกลุ่ม

ข่าว

หากคุณต้องการใช้วิธีการอื่นนอกเหนือจาก LORA โปรดติดตั้งเวอร์ชันที่แก้ไขในโครงการ pip install -e ./peft
12.8: LLM InternLM ถูกรวมเข้าด้วยกัน
8.16: 4bit quantization มีให้สำหรับ lora , qlora และ adalora
8.16: วิธีการที่มีประสิทธิภาพพารามิเตอร์ Qlora , Sequential adapter และ Parallel adapter ถูกรวมเข้าด้วยกัน
7.24: LLM ChatGLM v2 ถูกรวมเข้าด้วยกัน
7.20: LLM Baichuan ถูกรวมเข้าด้วยกัน
6.25: เพิ่มรหัสการประเมินแบบจำลองรวมถึง Belle และ MMCU

- มากกว่า

5.20: แก้ไขข้อบกพร่องในการบันทึกแบบจำลองและเพิ่มการสนับสนุน Wandb
5.15: ชุดข้อมูลเพิ่มเติมเช่น GPT4Tools , Auto CoT , pCLUE เพิ่มขึ้น
5.5: สาขาใหม่ tabular_llm ถูกสร้างขึ้นเพื่อสร้าง LLM แบบตาราง เรารวบรวมข้อมูลการปรับแต่งการเรียนการสอนสำหรับงานที่เกี่ยวข้องกับตารางเช่นการตอบคำถามตารางและใช้เพื่อปรับ LLMs ใน repo นี้
5.4: วิธีการที่มีประสิทธิภาพพารามิเตอร์ทั้งหมดใน PEFT (เช่นการปรับจูน) ถูกรวมเข้าด้วยกันซึ่งสามารถตั้งค่าได้โดยพารามิเตอร์ไฮเปอร์โดยตรง
5.4: MOSS LLM ถูกรวมเข้าด้วยกัน
4.21: ชุดข้อมูล GAOKAO , camel , FLAN-Muffin , COIG ถูกรวบรวมและจัดรูปแบบ
4.15: ชุดข้อมูล webGPT , dolly , baize , hh-rlhf , OIG(part) ถูกรวบรวมและจัดรูปแบบ
4.12: ตอนนี้คุณสามารถลอง Alpaca-COT บน Google Colab
4.11: เพิ่มฟังก์ชั่น multi-turn conversation โดย @paulcx
4.9: ชุดข้อมูล firefly , instruct , Code Alpaca ถูกรวบรวมและจัดรูปแบบซึ่งสามารถพบได้ที่นี่
4.7: เพิ่มฟังก์ชั่น Parameter merging Local chatting Batch predicting และ Web service building โดย @weberr
4.4: ชุดข้อมูล GPTeacher , Guanaco , HC3 , prosocial-dialog , belle-chat&belle-math , xP3 และ natural-instructions จะถูกรวบรวมและจัดรูปแบบ
4.3: ชุดข้อมูล COT จีน CoT_CN_data.json สามารถพบได้ที่นี่

ภาพรวม

Llama [1] เป็นงานที่ยอดเยี่ยมที่แสดงให้เห็นถึงความสามารถที่น่าทึ่งและความสามารถในการถ่ายภาพไม่กี่ครั้ง มันช่วยลดค่าใช้จ่ายในการฝึกอบรม finetuning และการใช้แบบจำลองภาษาขนาดใหญ่ที่แข่งขันได้เช่น LLAMA-13B มีประสิทธิภาพสูงกว่า GPT-3 (175B) และ LLAMA-65B แข่งขันกับ PALM-540B เมื่อเร็ว ๆ นี้เพื่อเพิ่มความสามารถในการติดตามการเรียนการสอนของ Llama, Stanford Alpaca [2] Finetuned Llama-7b บนข้อมูลการสอน 52K ที่สร้างขึ้นโดยเทคนิคการควบคุมตนเอง [3] อย่างไรก็ตามในปัจจุบันชุมชนการวิจัย LLM ยังคงเผชิญกับความท้าทายสามประการ: 1. แม้แต่ Llama-7b ก็ยังมีข้อกำหนดสูงสำหรับทรัพยากรการคำนวณ 2. มีชุดข้อมูลโอเพนซอร์สไม่กี่ชุดสำหรับการเรียนการสอน finetuning; และ 3. มีการขาดการศึกษาเชิงประจักษ์เกี่ยวกับผลกระทบของการเรียนการสอนประเภทต่าง ๆ เกี่ยวกับความสามารถของแบบจำลองเช่นความสามารถในการตอบสนองต่อการสอนภาษาจีนและการใช้เหตุผล COT

ด้วยเหตุนี้เราจึงเสนอโครงการนี้ซึ่งใช้ประโยชน์จากการปรับปรุงต่าง ๆ ที่ได้รับการเสนอในภายหลังโดยมีข้อดีดังต่อไปนี้:

1. repo นี้มีรหัสแก้ไขจากที่นี่และที่นี่ซึ่งสามารถ finetune llama ในราคาถูกและมีประสิทธิภาพ (โดยไม่มีการลดลงของประสิทธิภาพเมื่อเทียบกับ Stanford alpaca) โดยใช้การปรับตัวระดับต่ำ (LORA) [4], Peft และ Bitsandbytes รุ่น LLAMA รุ่น 7b , 13b และ 30b สามารถผ่านการฝึกอบรมได้อย่างง่ายดายใน 80G A100 เดียว
1. โมเดลที่เผยแพร่ใน repo นี้ ปรับปรุงความสามารถของ COT (การให้เหตุผล) อย่างมีนัยสำคัญ
1. โมเดลที่เผยแพร่ใน repo นี้ ปรับปรุงความสามารถในการปฏิบัติตามคำแนะนำของจีน อย่างมีนัยสำคัญ
1. repo นี้มี ชุดข้อมูลการเรียนการสอนการเรียนการสอนที่รวบรวมอย่างต่อเนื่อง ซึ่งรวมถึงคำแนะนำภาษาอังกฤษจีนและ COT นอกจากนี้ยังมีชุดตรวจสอบที่ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลคำสั่งต่างๆ
1. repo นี้ รวม LLM หลายตัวและรวมอินเทอร์เฟซของพวกเขาไว้ สามารถสลับผ่านพารามิเตอร์ไฮเปอร์พารามิเตอร์ได้อย่างง่ายดาย ปัจจุบันมี Llama , Chatglm [5], Bloom [6] และ Moss และอีกมากมายจะยังคงเพิ่มขึ้นในอนาคตเพื่อให้นักวิจัยเรียกใช้และเปรียบเทียบ LLM ที่แตกต่างกันได้อย่างง่ายดาย
1. repo นี้ รวมวิธีการที่มีประสิทธิภาพพารามิเตอร์หลายอย่างและรวมอินเทอร์เฟซของพวกเขาไว้ สามารถสลับผ่านพารามิเตอร์ไฮเปอร์พารามิเตอร์ได้อย่างง่ายดาย ปัจจุบันมี LORA , P-tuning [5], การปรับแต่ง Adalora และ คำนำหน้า และอื่น ๆ จะยังคงเพิ่มขึ้นในอนาคตสำหรับนักวิจัยที่จะเรียกใช้และเปรียบเทียบวิธีการที่มีประสิทธิภาพพารามิเตอร์ที่แตกต่างกันได้อย่างง่ายดาย
1. repo นี้มี การศึกษาเชิงประจักษ์อย่างกว้างขวางและการวิเคราะห์เชิงคุณภาพ ซึ่งอาจให้การค้นพบที่มีค่าและส่งเสริมการสำรวจ LLM ในอนาคต

เพื่อความรู้ที่ดีที่สุดของเรางานนี้เป็นคนแรกที่ศึกษา การใช้เหตุผลของ COT ตาม Llama และ Alpaca ดังนั้นเราจะย่องานของเราไปที่ Alpaca-CoT

การรวบรวมข้อมูล

ขนาดสัมพัทธ์ของชุดข้อมูลที่รวบรวมได้สามารถแสดงได้ด้วยกราฟนี้:

อ้างอิงถึงสิ่งนี้ (@yaodongc) เราติดป้ายชุดข้อมูลที่รวบรวมแต่ละชุดตามกฎต่อไปนี้:

(lang) ภาษาลิ้น:

en: ชุดข้อมูลคำแนะนำเป็นภาษาอังกฤษ
CN: ชุดข้อมูลคำแนะนำเป็นภาษาจีน
ML: [หลายภาษา] ชุดข้อมูลคำสั่งในหลายภาษา

(งาน) TASK-Tags:

MT: [Multi-Task] ชุดข้อมูลที่มีหลายงาน
TS: [งานเฉพาะงาน] ชุดข้อมูลที่ปรับแต่งสำหรับงานเฉพาะ

(gen) วิธีการสร้าง:

HG: [ชุดข้อมูลที่มนุษย์สร้างขึ้น] ชุดข้อมูลที่สร้างโดยมนุษย์
SI: [Instruct Self Instruct] ชุดข้อมูลที่สร้างขึ้นโดยใช้วิธีการ Instruct ด้วยตนเอง
มิกซ์: [ชุดข้อมูลผสม] ชุดข้อมูลมีทั้งข้อมูลมนุษย์และเครื่องที่สร้างขึ้น
COL: [ชุดข้อมูลชุดข้อมูล] ชุดข้อมูลที่ทำจากชุดข้อมูลอื่น ๆ

สถิติ

ชุดข้อมูล	คนโง่	หรั่ง	งาน	คน	พิมพ์	SRC	url
ห่วงโซ่แห่งความคิด	74771	en/cn	MT	HG	สอนด้วยการให้เหตุผล COT	คำอธิบายประกอบ COT บนข้อมูลที่มีอยู่	การดาวน์โหลด
GPT4ALL	806199	en	MT	โคล	รหัสเรื่องราวและบทสนทนา	การกลั่นจาก GPT-3.5-turbo	การดาวน์โหลด
ผู้เข้าร่วม	29013	en	MT	ศรี	ทั่วไป, Roleplay, Toolformer	GPT-4 & Toolformer	การดาวน์โหลด
ชาวกวานาโค	534610	มล.	MT	ศรี	งานทางภาษาต่างๆ	Text-Davinci-003	การดาวน์โหลด
HC3	37175	en/cn	TS	ผสม	การประเมินผลการสนทนา	มนุษย์หรือ chatgpt	การดาวน์โหลด
อัลปากา	52002	en	MT	ศรี	คำสั่งทั่วไป	Text-Davinci-003	การดาวน์โหลด
คำแนะนำธรรมชาติ	5040134	มล.	MT	โคล	งาน NLP ที่หลากหลาย	คอลเลกชันชุดข้อมูลบันทึกย่อของมนุษย์	การดาวน์โหลด
belle_cn	1079517	ซีเอ็นเอ็น	TS/MT	ศรี	ทั่วไปการใช้เหตุผลทางคณิตศาสตร์การสนทนา	Text-Davinci-003	การดาวน์โหลด
ติดเชื้อ	52191	en/cn	MT	ศรี	รุ่น, Open-Qa, Mind-Storm	Text-Davinci-003	การดาวน์โหลด
บทสนทนาต่อสังคม	165681	en	TS	ผสม	บทสนทนา	GPT-3 เขียนคำถาม + ข้อเสนอแนะของมนุษย์ด้วยตนเอง	การดาวน์โหลด
การเงิน _en	68912	en	TS	โคล	QA ที่เกี่ยวข้องกับการเงิน	GPT3.5	การดาวน์โหลด
xp3	78883588	มล.	MT	โคล	คอลเลกชันของชุดข้อมูลและชุดข้อมูลใน 46 ภาษา & 16 งาน NLP	คอลเลกชันชุดข้อมูลบันทึกย่อของมนุษย์	การดาวน์โหลด
หิ่งห้อย	1649398	ซีเอ็นเอ็น	MT	โคล	23 งาน NLP	คอลเลกชันชุดข้อมูลบันทึกย่อของมนุษย์	การดาวน์โหลด
สั่งสอน	888969	en	MT	โคล	เพิ่ม GPT4ALL, Alpaca, ชุดข้อมูลเมตาโอเพนซอร์ซ	การเสริมดำเนินการโดยใช้เครื่องมือ NLP ขั้นสูงที่จัดทำโดย Allenai	การดาวน์โหลด
รหัส Alpaca	2545	en	TS	ศรี	การสร้างรหัสการแก้ไขการเพิ่มประสิทธิภาพ	Text-Davinci-003	การดาวน์โหลด
alpaca_gpt4	52002	en/cn	MT	ศรี	คำสั่งทั่วไป	สร้างโดย GPT-4 โดยใช้ alpaca	การดาวน์โหลด
WebGPT	พ.ศ. 2447	en	TS	ผสม	การดึงข้อมูล (IR) QA	GPT-3 ที่ปรับแต่งอย่างละเอียดแต่ละคำสั่งมีเอาต์พุตสองรายการเลือกดีกว่า	การดาวน์โหลด
Dolly 2.0	15015	en	TS	HG	QA ปิดการสรุปและ ETC, Wikipedia เป็นข้อมูลอ้างอิง	คำอธิบายประกอบของมนุษย์	การดาวน์โหลด
บ่น	653699	en	MT	โคล	คอลเลกชันจาก Alpaca, Quora, Stackoverflow และคำถาม Medquad	คอลเลกชันชุดข้อมูลบันทึกย่อของมนุษย์	การดาวน์โหลด
HH-RLHF	284517	en	TS	ผสม	บทสนทนา	บทสนทนาระหว่างโมเดลมนุษย์และ RLHF	การดาวน์โหลด
OIG (ส่วน)	49237	en	MT	โคล	สร้างขึ้นจากงานต่าง ๆ เช่นคำถามและการตอบ	การใช้การเพิ่มข้อมูลการรวบรวมชุดข้อมูลคำอธิบายประกอบของมนุษย์	การดาวน์โหลด
Gaokao	2785	ซีเอ็นเอ็น	MT	โคล	คำถามแบบปรนัยเติมเต็มและคำถามปลายเปิดจากการสอบ	คำอธิบายประกอบของมนุษย์	การดาวน์โหลด
อูฐ	760620	en	MT	ศรี	บทสนทนาในการสวมบทบาทในสังคม AI, รหัส, คณิตศาสตร์, ฟิสิกส์, เคมี, ชีววิทยา	GPT-3.5-turbo	การดาวน์โหลด
คราม	พ.ศ. 1764800	en	MT	โคล	60 NLP งาน	คอลเลกชันชุดข้อมูลบันทึกย่อของมนุษย์	การดาวน์โหลด
coig (flaginstruct)	298428	ซีเอ็นเอ็น	MT	โคล	รวบรวมการสอบ fron, แปล, คำแนะนำการจัดแนวของมนุษย์และการสนทนาหลายรอบการแก้ไข	การใช้เครื่องมืออัตโนมัติและการตรวจสอบด้วยตนเอง	การดาวน์โหลด
gpt4tools	71446	en	MT	ศรี	ชุดคำแนะนำที่เกี่ยวข้องกับเครื่องมือ	GPT-3.5-turbo	การดาวน์โหลด
Sharechat	1663241	en	MT	ผสม	คำสั่งทั่วไป	crowdsourcing เพื่อรวบรวมการสนทนาระหว่างผู้คนและ CHATGPT (ShareGPT)	การดาวน์โหลด
เปลอัตโนมัติ	5816	en	MT	โคล	เลขคณิต, ทั่วไป, สัญลักษณ์และงานการใช้เหตุผลเชิงตรรกะอื่น ๆ	คอลเลกชันชุดข้อมูลบันทึกย่อของมนุษย์	การดาวน์โหลด
มอส	1583595	en/cn	TS	ศรี	คำสั่งทั่วไป	Text-Davinci-003	การดาวน์โหลด
มากที่สุด	28247446	en			คำถามเกี่ยวกับโลกการเขียนและการสร้างความช่วยเหลือเกี่ยวกับวัสดุที่มีอยู่	GPT-3.5-turbo สองตัวแยกกัน	การดาวน์โหลด
แพทย์จีน	792099	ซีเอ็นเอ็น	TS	โคล	คำถามเกี่ยวกับคำแนะนำทางการแพทย์	คลาน	การดาวน์โหลด
CSL	396206	ซีเอ็นเอ็น	MT	โคล	การสร้างข้อความกระดาษการสกัดคำหลักการสรุปข้อความและการจำแนกประเภทข้อความ	คลาน	การดาวน์โหลด
PCLUE	1200705	ซีเอ็นเอ็น	MT	โคล	คำสั่งทั่วไป		การดาวน์โหลด
news_commentary	252776	ซีเอ็นเอ็น	TS	โคล	แปล		การดาวน์โหลด
stackllama	สิ่งที่ต้องทำ	en

การดาวน์โหลด

คุณสามารถดาวน์โหลดข้อมูลที่จัดรูปแบบทั้งหมดได้ที่นี่ จากนั้นคุณควรใส่ไว้ในโฟลเดอร์ข้อมูล

คุณสามารถดาวน์โหลดจุดตรวจสอบทั้งหมดที่ผ่านการฝึกอบรมเกี่ยวกับข้อมูลคำสั่งประเภทต่าง ๆ จากที่นี่ จากนั้นหลังจากตั้งค่า LoRA_WEIGHTS (ใน generate.py ) ไปยังเส้นทางท้องถิ่นคุณสามารถเรียกใช้การอนุมานแบบจำลองได้โดยตรง

การจัดรูปแบบข้อมูล

ข้อมูลทั้งหมดในคอลเลกชันของเราถูกจัดรูปแบบลงในเทมเพลตเดียวกันซึ่งแต่ละตัวอย่างมีดังนี้:

 [
{"instruction": instruction string,
"input": input string, # (may be empty)
"output": output string}
]

โปรดทราบว่าสำหรับชุดข้อมูล COT ก่อนอื่นเราจะใช้เทมเพลตที่จัดทำโดย Flan เพื่อเปลี่ยนชุดข้อมูลต้นฉบับเป็นรูปแบบโซ่ของความคิดต่าง ๆ จากนั้นแปลงเป็นรูปแบบข้างต้น สคริปต์การจัดรูปแบบสามารถพบได้ที่นี่

แพลตฟอร์ม Unified Multi-Interface

การตั้งค่า

 pip install -r requirements.txt

โปรดทราบว่าตรวจสอบให้แน่ใจว่า Python> = 3.9 เมื่อ finetuning chatglm

คนอื่น ๆ

หากคุณต้องการใช้วิธีการอื่นนอกเหนือจาก LORA โปรดติดตั้งเวอร์ชันที่แก้ไขในโครงการของเรา

 pip install -e ./peft

คำสั่ง finetuning

เพื่อให้นักวิจัยทำการวิจัย IFT อย่างเป็นระบบเกี่ยวกับ LLMS เราได้รวบรวมข้อมูลการเรียนการสอนประเภทต่าง ๆ รวม LLM หลายตัวและอินเทอร์เฟซแบบครบวงจรทำให้ง่ายต่อการปรับแต่งการจัดระเบียบที่ต้องการ:

--model_type : ตั้งค่า LLM ที่คุณต้องการใช้ ปัจจุบัน [Llama, Chatglm, Bloom, Moss] ได้รับการสนับสนุน สองหลังมีความสามารถของจีนที่แข็งแกร่งและ LLMS จะรวมเข้าด้วยกันในอนาคต
--peft_type : ตั้งค่า peft ที่คุณต้องการใช้ ปัจจุบัน [LORA, Adalora, การปรับแต่งคำนำหน้า, การปรับจูน, PROMPT] ได้รับการสนับสนุน
--data : ตั้งค่าประเภทข้อมูลที่ใช้สำหรับ IFT เพื่อปรับความยืดหยุ่นตามความสามารถในการปฏิบัติตามคำสั่งที่ต้องการ ตัวอย่างเช่นสำหรับความสามารถในการใช้เหตุผลที่แข็งแกร่งตั้งค่า "Alpaca-COT" เพื่อความสามารถของจีนที่แข็งแกร่งตั้ง "Belle1.5m" สำหรับการเข้ารหัสและความสามารถในการสร้างเรื่องราวตั้ง "GPT4ALL" และความสามารถในการตอบสนองทางการเงิน
--model_name_or_path : นี่คือการตั้งค่าให้โหลดน้ำหนักรุ่นที่แตกต่างกันสำหรับ LLM เป้าหมาย --model_type ตัวอย่างเช่นในการโหลดน้ำหนัก 13B ของ Llama คุณสามารถตั้งค่า Decapoda-Research/Llama-13b-HF

GPU เดี่ยว

สำหรับ llama

 python3 uniform_finetune.py --model_type llama --model_name_or_path decapoda-research/llama-7b-hf 
    --data alpaca-belle-cot --lora_target_modules q_proj v_proj 
    --per_gpu_train_batch_size 4 --learning_rate 3e-4 --epochs 1

หมายเหตุ: สำหรับชุดข้อมูลหลายชุดคุณสามารถใช้ --data LIKE --data ./data/alpaca.json ./data/finance.json <path2yourdata_1>

สำหรับ chatglm

 python3 uniform_finetune.py   --model_type chatglm --model_name_or_path THUDM/chatglm-6b 
    --data alpaca-belle-cot --lora_target_modules query_key_value 
    --lora_r 32 --lora_alpha 32 --lora_dropout 0.1 --per_gpu_train_batch_size 2 
    --learning_rate 2e-5 --epochs 1

โปรดทราบว่า load_in_8bit ยังไม่เหมาะสำหรับ chatglm ดังนั้น batch_size จะต้องเล็กกว่าคนอื่น ๆ

เพื่อบาน

 python3 uniform_finetune.py   --model_type bloom --model_name_or_path bigscience/bloomz-7b1-mt 
    --data alpaca-belle-cot --lora_target_modules query_key_value 
    --per_gpu_train_batch_size 4 --learning_rate 3e-4 --epochs 1

สำหรับมอส

 python3 uniform_finetune.py   ---model_type moss --model_name_or_path fnlp/moss-moon-003-sft  
    --data alpaca --lora_target_modules q_proj v_proj --per_gpu_train_batch_size 1 
    --learning_rate 3e-4 --epochs 3

สำหรับ Interlm

 python3 uniform_finetune.py   --model_type internlm --model_name_or_path internlm/internlm-7b 
    --data alpaca --lora_target_modules q_proj v_proj --lora_r 32 --lora_alpha 32 
    --lora_dropout 0.1 --per_gpu_train_batch_size 1 --learning_rate 2e-5 --epochs 1 
    --compute_dtype="fp32"

โปรดทราบว่าคุณสามารถผ่านเส้นทางท้องถิ่น (ที่บันทึกน้ำหนัก LLM) ไปยัง --model_name_or_path และประเภทข้อมูล --data ข้อมูลสามารถตั้งค่าได้อย่างอิสระตามความสนใจของคุณ

GPU หลายตัว

torchrun --nnodes 1 --nproc_per_node $ngpu uniform_finetune.py $args --data $data

สำหรับ llama

 python3 -m torch.distributed.launch --nproc_per_node 4  
    --nnodes=1 --node_rank=0 --master_addr=xxx --master_port=yyy uniform_finetune.py 
    --model_type llama --model_name_or_path decapoda-research/llama-7b-hf 
    --data alpaca-belle-cot --lora_target_modules q_proj v_proj 
    --per_gpu_train_batch_size 4 --learning_rate 3e-4 --epochs 1

สำหรับ chatglm

 python3 -m torch.distributed.launch --nproc_per_node 4  
    --nnodes=1 --node_rank=0 --master_addr=xxx --master_port=yyy 
    uniform_finetune.py   --model_type chatglm --model_name_or_path THUDM/chatglm-6b 
    --data alpaca-belle-cot --lora_target_modules query_key_value 
    --lora_r 32 --lora_alpha 32 --lora_dropout 0.1 --per_gpu_train_batch_size 2 
    --learning_rate 2e-5 --epochs 1

เพื่อบาน

 python3 -m torch.distributed.launch --nproc_per_node 4  
    --nnodes=1 --node_rank=0 --master_addr=xxx --master_port=yyy 
    uniform_finetune.py   --model_type bloom --model_name_or_path bigscience/bloomz-7b1-mt 
    --data alpaca-belle-cot --lora_target_modules query_key_value 
    --per_gpu_train_batch_size 4 --learning_rate 3e-4 --epochs 1

สำหรับ Interlm

 python3 -m torch.distributed.launch --nproc_per_node 4  
    --nnodes=1 --node_rank=0 --master_addr=xxx --master_port=yyy 
    uniform_finetune.py   --model_type internlm --model_name_or_path internlm/internlm-7b 
    --data alpaca --lora_target_modules q_proj v_proj --lora_r 32 --lora_alpha 32 
    --lora_dropout 0.1 --per_gpu_train_batch_size 1 --learning_rate 2e-5 --epochs 1 
    --compute_dtype="fp32"

การอนุมาน

 python3 generate.py  --data alpaca-belle-cot --model_type llama

python3 generate.py  --data alpaca-belle-cot --model_type chatglm

python3 generate.py  --data alpaca-belle-cot --model_type bloom

รายละเอียดเพิ่มเติมเกี่ยวกับการเรียนการสอนและการอนุมานสามารถพบได้ที่นี่ที่เราแก้ไขจาก โปรดทราบว่าโฟลเดอร์ saved-xxx7b เป็นเส้นทางที่ประหยัดสำหรับน้ำหนัก Lora และน้ำหนัก Llama จะถูกดาวน์โหลดโดยอัตโนมัติจากการกอดใบหน้า

การอนุมานคำอธิบายพารามิเตอร์ไฮเปอร์พารามิเตอร์

 top_p=0.9,
        #Moderately increase the probability threshold of nucleus sampling to increase the quantity of candidate tokens and increase generation diversity.

temperature=1.0,
        #The previous low temperature parameter could lead to a severe polarization in the probability distribution of generated words, which degenerates the generation strategy into greedy decoding.

do_sample=True,
        #do_sample parameter is set to False by default. After setting to True, the generation methods turn into beam-search multinomial sampling decoding strategy.

no_repeat_ngram_size=6,
        #Configure the probability of the next repeating n-gram to 0, to ensure that there are no n-grams appearing twice. This setting is an empirical preliminary exploration.

repetition_penalty=1.8,
        #For words that have appeared before, in the subsequent prediction process, we reduce the probability of their reoccurrence by introducing the repetition_penalty parameter. This setting is an empirical preliminary exploration.

การรวมพารามิเตอร์

 python3 merge.py --model_type llama --size 7b --lora_dir xxx --merged_dir yyy

การแชทท้องถิ่น

 python3 server.py --model_type chatglm --size 6b --lora_dir xxx

การทำนายชุด

 python3 predict.py --model_type chatglm --size 6b --data for_dict_data --lora_dir xxx --result_dir yyy

อาคารบริการเว็บ

 python3 web.py --model_type chatglm --size 6b --lora_dir xxx

การศึกษาเชิงประจักษ์เกี่ยวกับการปรับแต่ง LLMS แบบเปิดในภาษาจีน (ณ วันที่ 25 มิถุนายน)

หมายเหตุ: ผลการทดลองต่อไปนี้ได้มาจากการศึกษาเชิงประจักษ์ ___ และการเรียนการสอนแบบจำลองภาษาขนาดใหญ่ในภาษาจีน ___

1. เกณฑ์มาตรฐาน

บทความนี้เลือกมาตรฐานการประเมินสองประการคือ Belle-Eval และ MMCU เพื่อประเมินความสามารถของ LLM ในภาษาจีนอย่างครอบคลุม

Belle-Eval ถูกสร้างขึ้นโดย Instruct ด้วยตัวเองกับ ChatGPT ซึ่งมี 1,000 คำแนะนำที่หลากหลายที่เกี่ยวข้องกับ 10 หมวดหมู่ที่ครอบคลุมงาน NLP ทั่วไป (เช่น QA) และงานที่ท้าทาย (เช่นรหัสและคณิตศาสตร์) เราใช้ CHATGPT เพื่อให้คะแนนการตอบสนองแบบจำลองตามคำตอบสีทอง เกณฑ์มาตรฐานนี้ถือเป็นการประเมินความสามารถของ AGI

MMCU เป็นชุดของคำถามแบบปรนัยของจีนในสี่สาขาวิชาแพทย์, กฎหมาย, กฎหมาย, จิตวิทยาและการศึกษา (เช่นการสอบ Gaokao) ช่วยให้ LLMS ทำการสอบในสังคมมนุษย์ในลักษณะการทดสอบแบบปรนัยทำให้เหมาะสำหรับการประเมินความกว้างและความลึกของความรู้ของ LLMs ในหลายสาขาวิชา

สถิติข้อมูลของ Belle-Eval และ MMCU แสดงในตารางด้านบน

2. ปัจจัยหลัก

เราทำการทดลองเพื่อศึกษาปัจจัยหลักสามประการในการปรับแต่ง LLMS: ฐาน LLM, วิธีการที่มีประสิทธิภาพพารามิเตอร์, ชุดข้อมูลการสอนภาษาจีน

2.1 ฐาน LLM

สำหรับ Open LLMS เราทดสอบ LLMS ที่มีอยู่และ LLMs ปรับด้วย LORA บน AlpACA-GPT4 บน Belle-Eval และ MMCU ตามลำดับ

ตารางที่ 2 แสดงคะแนนของ LLM แบบเปิดบน Belle-Eval ตารางที่ 3 แสดงความถูกต้องของ LLMs บน MMCU พวกเขาปรับแต่ง LLM แบบเปิดทั้งหมดด้วยวิธีที่ประหยัดพารามิเตอร์ LORA และชุดข้อมูลคำสั่งเดียวกัน Alpaca-GPT4

ผลการทดลอง:

การประเมิน LLM ที่มีอยู่
ประสิทธิภาพของ Belle-Eval
(1) สำหรับฐาน LLMS Bloom ทำงานได้ดีที่สุด
(2) สำหรับ SFT LLMS chatglm มีประสิทธิภาพสูงกว่าคนอื่น ๆ ด้วยอัตรากำไรขั้นต้นขนาดใหญ่ด้วยความจริงที่ว่ามันได้รับการฝึกฝนด้วยโทเค็นภาษาจีนและ HFRL ส่วนใหญ่
(3) หมวดหมู่ QA, คณิตศาสตร์, closeqa และสารสกัดยังคงเป็นสิ่งที่ท้าทายมากสำหรับ LLM แบบเปิดที่มีอยู่
(4) Vicuna และ Moss-SFT มีการปรับปรุงที่ชัดเจนเมื่อเทียบกับฐานของพวกเขา Llama และ Moss-base ตามลำดับ
(5) ในทางตรงกันข้ามประสิทธิภาพของโมเดล SFT, Bloomz และ Bloomz-MT ลดลงเมื่อเทียบกับแบบจำลองพื้นฐานที่บานเพราะพวกเขามักจะสร้างการตอบสนองที่สั้นลง
ประสิทธิภาพของ MMCU
(1) ฐาน LLM ทั้งหมดทำงานได้ไม่ดีเพราะเกือบจะยากที่จะสร้างเนื้อหาในรูปแบบที่ระบุก่อนการปรับแต่งเช่นหมายเลขตัวเลือกการส่งออก
(2) SFT LLM ทั้งหมดมีประสิทธิภาพสูงกว่าฐาน LLMS ที่สอดคล้องกันตามลำดับ โดยเฉพาะอย่างยิ่ง Bloomz ดำเนินการที่ดีที่สุด (แม้กระทั่ง Beats Chatglm) เพราะสามารถสร้างหมายเลขตัวเลือกได้โดยตรงตามที่ต้องการโดยไม่ต้องสร้างเนื้อหาที่ไม่เกี่ยวข้องอื่น ๆ ซึ่งเป็นผลมาจากลักษณะข้อมูลของชุดข้อมูลการปรับแต่งการปรับแต่ง xp3
(3) ในสี่สาขาวิชากฎหมายเป็นสิ่งที่ท้าทายที่สุดสำหรับ LLMS

ผลการปฏิบัติงานของ LLMS หลังจากการปรับแต่งคำสั่งบน AlpACA-GPT4-ZH แสดงในรูปที่ 1

คำสั่งปรับ LLMS ที่แตกต่างกัน
(1) ใน Belle-Eval การปรับปรุงประสิทธิภาพของ SFT LLM ที่นำมาจากการปรับแต่งการเรียนการสอนนั้นไม่สำคัญเท่ากับฐาน LLMS ยกเว้น SFT Bloomz และ Bloomz-MT
(2) Vicuna และ Chatglm พบประสิทธิภาพลดลงหลังจากการปรับแต่งการเรียนการสอนเนื่องจาก Vicuna ได้รับการฝึกฝนจากการสนทนาที่แท้จริงของมนุษย์-Chatgpt ด้วยคุณภาพที่ดีกว่า Alpaca-GPT4 chatglm ใช้ HFRL ซึ่งอาจไม่เหมาะสำหรับการปรับแต่งคำสั่งเพิ่มเติมอีกต่อไป
(3) บน MMCU LLM ส่วนใหญ่จะได้รับประสิทธิภาพเพิ่มขึ้นหลังจากการปรับแต่งคำสั่งยกเว้น Bloomz และ Bloomz-MT ซึ่งลดประสิทธิภาพลงอย่างไม่คาดคิด
(4) หลังจากการปรับแต่งการเรียนการสอน Bloom มีการปรับปรุงที่สำคัญและทำงานได้ดีทั้งสองมาตรฐาน แม้ว่า chatglm จะบดบังอย่างต่อเนื่อง แต่มันก็ลดลงประสิทธิภาพการทำงานในระหว่างการปรับแต่ง ดังนั้นในบรรดา LLM แบบเปิดทั้งหมด Bloom จึงเหมาะสมที่สุดในฐานะแบบจำลองพื้นฐานในการทดลองครั้งต่อไปสำหรับการสำรวจการปรับแต่งการสอนภาษาจีน

2.2 วิธีการพารามิเตอร์-ประสิทธิภาพ

สำหรับวิธีการที่มีประสิทธิภาพพารามิเตอร์นอกเหนือจาก LORA กระดาษจะรวบรวมช่วงของวิธีการที่ประหยัดพารามิเตอร์ในการปรับแต่งคำสั่ง Bloom บนชุดข้อมูล AlpACA-GPT4

ผลการทดลอง:

การเปรียบเทียบวิธีการที่มีประสิทธิภาพพารามิเตอร์
(1) Sadapterh ทำงานได้ดีที่สุดในวิธีการที่มีประสิทธิภาพพารามิเตอร์ทั้งหมดซึ่งสามารถใช้เป็นทางเลือกแทน LORA
(2) การปรับจูนและการปรับจูนต่ำกว่าผู้อื่นด้วยระยะขอบขนาดใหญ่แสดงให้เห็นว่าการเพิ่มเลเยอร์ที่สามารถฝึกอบรมได้ในเลเยอร์การฝังนั้นไม่เพียงพอที่จะรองรับ LLMs สำหรับงานสร้าง
(3) แม้ว่า Adalora จะเป็นการปรับปรุง LORA แต่ประสิทธิภาพของมันก็มีการลดลงอย่างชัดเจนอาจเป็นเพราะพารามิเตอร์ที่สามารถฝึกอบรมได้ของ LORA สำหรับ LLMS ไม่เหมาะสำหรับการลดลงต่อไป
(4) การเปรียบเทียบส่วนบนและส่วนล่างจะเห็นได้ว่าการเพิ่มจำนวนพารามิเตอร์ที่สามารถฝึกอบรมได้สำหรับอะแดปเตอร์ต่อเนื่อง (เช่น SADAPTERP และ SADAPTERH) ไม่ได้นำมาซึ่งกำไรในขณะที่ปรากฏการณ์ตรงกันข้ามสำหรับอะแดปเตอร์คู่ขนาน
การสูญเสียการฝึกอบรม
(1) การปรับจูนและการปรับจูนมาบรรจบกันช้าที่สุดและมีการสูญเสียสูงสุดหลังจากการบรรจบกัน นี่แสดงให้เห็นว่าอะแดปเตอร์แบบฝังอย่างเดียวไม่เหมาะสำหรับการปรับแต่ง LLMS
(2) การสูญเสียครั้งแรกของ Adalora นั้นสูงมากเนื่องจากต้องใช้การเรียนรู้พร้อมกันของการจัดสรรงบประมาณพารามิเตอร์พร้อมกันซึ่งทำให้แบบจำลองไม่สามารถปรับข้อมูลการฝึกอบรมได้ดี
(3) วิธีอื่น ๆ สามารถมาบรรจบกันอย่างรวดเร็วในข้อมูลการฝึกอบรมและปรับให้เข้ากันได้ดี

2.3 ชุดข้อมูลการสอนภาษาจีน

สำหรับผลกระทบของชุดข้อมูลการเรียนการสอนภาษาจีนประเภทต่างๆผู้เขียนจะรวบรวมคำแนะนำภาษาจีนแบบเปิดที่ได้รับความนิยม (ดังแสดงในตารางที่ 5) เพื่อปรับแต่งการปรับแต่งด้วย LORA

ตารางที่ 6 และตารางที่ 7 แสดงการปรับแต่งของ Bloom ในชุดข้อมูลคำสั่งที่แตกต่างกัน

ผลการทดลอง:

ประสิทธิภาพของ Belle-Eval
(1) ข้อมูลคำสั่งที่สร้างขึ้นโดย chatgpt (เช่นการใช้วิธีการสอนตนเองหรือรวบรวมการสนทนาของมนุษย์-แชทจีต์จริง) ช่วยเพิ่มความสามารถในการติดตามคำสั่งด้วยคะแนน 3.1 ∼ 11 จุด
(2) ในชุดข้อมูลเหล่านี้เบลล์มีประสิทธิภาพที่ดีที่สุดเนื่องจากข้อมูลการเรียนการสอนจำนวนมากที่สุด อย่างไรก็ตามประสิทธิภาพของโมเดลที่ได้รับการฝึกฝนเกี่ยวกับ Moss-SFT-Data ซึ่งมีข้อมูลเพิ่มเติมที่สร้างขึ้นในลักษณะเดียวกันนั้นไม่น่าพอใจ
(3) ประสิทธิภาพที่นำโดยคำแนะนำ Alpaca-GPT4 นั้นดีที่สุดเป็นอันดับสองโดยมีเพียง 49K เท่านั้นที่เทียบเคียงได้กับ 1.54M Belle
(4) Instinwild นำประสิทธิภาพการทำงานน้อยที่สุดมาให้พวกเขาเพราะคำแนะนำของเมล็ดมันรวบรวมข้อมูลจากทวีต ("in Wild") ไม่ครอบคลุมเท่าที่มนุษย์ออกแบบมาอย่างระมัดระวัง
(5) ข้อมูลที่ใช้ CHATGPT เหล่านี้ส่วนใหญ่มีผลการปรับปรุงอย่างมีนัยสำคัญต่องานรุ่นเปิดเช่นพายุสมองและรุ่นในขณะที่มีการลดลงอย่างมีนัยสำคัญในงานที่ต้องใช้ทักษะความเข้าใจในการอ่านสูงเช่น QA และสารสกัดอย่างใกล้ชิด
(6) ชุดข้อมูลคำสั่งเหล่านี้ทำให้เกิดความเสียหายต่อความสามารถในการติดตามคำสั่งของโมเดลเนื่องจากรูปแบบและความตั้งใจของชุดข้อมูล NLP หรือชุดตรวจสอบแต่ละชุดนั้นรวมกันซึ่งสามารถใช้งานได้ง่ายเกินไป
(7) ในหมู่พวกเขา Coig-Trans ทำงานได้ดีที่สุดเพราะเกี่ยวข้องกับงานที่แตกต่างกันมากกว่า 2,000 รายการพร้อมคำแนะนำงานที่หลากหลาย ในทางตรงกันข้าม XP3 และ COIG-CCMC มีผลกระทบด้านลบที่เลวร้ายที่สุดต่อประสิทธิภาพของโมเดล ทั้งคู่ครอบคลุมงานเพียงไม่กี่ประเภท (การแปลและ QA สำหรับการสนทนาการแก้ไขแบบต่อต้านในอดีต) ซึ่งแทบจะไม่ครอบคลุมคำแนะนำและงานที่ได้รับความนิยมสำหรับมนุษย์
ประสิทธิภาพของ MMCU
(1) การปรับแต่งคำสั่งในแต่ละชุดข้อมูลสามารถส่งผลให้ประสิทธิภาพการปรับปรุงประสิทธิภาพเสมอ
(2) ท่ามกลางข้อมูลที่ใช้ CHATGPT ที่แสดงในส่วนบน ShareGPT-ZH ต่ำกว่าผู้อื่นด้วยอัตรากำไรขั้นต้นขนาดใหญ่ นี่อาจเป็นเพราะความจริงที่ว่าผู้ใช้จริงไม่ค่อยถามคำถามแบบปรนัยเกี่ยวกับหัวข้อทางวิชาการ
(3) ในบรรดาข้อมูลการรวบรวมชุดข้อมูลที่แสดงในส่วนล่าง HC3 และ COIG-CCMC ส่งผลให้เกิดความแม่นยำต่ำสุดเนื่องจากคำถามที่ไม่ซ้ำกันของ HC3 นั้นมีเพียง 13K และรูปแบบงานของ COIG-CCMC นั้นแตกต่างจาก MMCU อย่างมาก
(4) Coig-Exam นำการปรับปรุงความแม่นยำมากที่สุดได้รับประโยชน์จากรูปแบบงานที่คล้ายกันกับ MMCU

3. ปัจจัยอื่น ๆ

อีกสี่ปัจจัย: COT, การขยายคำศัพท์ภาษาจีน, ภาษาของการแจ้งเตือนและการจัดแนวของมนุษย์

3.1 COT

สำหรับ COT ผู้เขียนเปรียบเทียบประสิทธิภาพก่อนและหลังการเพิ่มข้อมูล COT ในระหว่างการปรับแต่งคำสั่ง

การตั้งค่าการทดลอง:

เรารวบรวมชุดข้อมูล COT 9 ชุดและพรอมต์จาก Flan จากนั้นแปลเป็นภาษาจีนโดยใช้ Google Translate พวกเขาเปรียบเทียบประสิทธิภาพก่อนและหลังการเพิ่มข้อมูล COT ในระหว่างการปรับแต่งคำสั่ง

ก่อนอื่นให้ทราบวิธีเพิ่มข้อมูล COT เป็น "Alpaca-GPT4+COT" นอกจากนี้เพิ่มประโยค "先思考，再决定再决定" ("คิดทีละขั้นตอน" ในภาษาจีน) ในตอนท้ายของคำสั่งแต่ละคำสั่งเพื่อชักนำให้โมเดลตอบสนองต่อคำแนะนำตาม COT และติดฉลากด้วยวิธีนี้ว่า "Alpaca-GPT4+COT*"

ผลการทดลอง:

"ALPACA-GPT4+COT" ดีกว่า "AlpACA-GPT4" ในรหัสและงานคณิตศาสตร์ที่ต้องใช้ความสามารถในการใช้เหตุผลที่แข็งแกร่ง นอกจากนี้ยังมีการปรับปรุงที่สำคัญในงานการศึกษา MMCU
ดังที่แสดงในบรรทัดของ "Alpaca-GPT4+COT*" ประโยคง่ายๆสามารถปรับปรุงประสิทธิภาพของรหัสการใช้เหตุผลและการศึกษาในขณะที่ประสิทธิภาพทางคณิตศาสตร์ต่ำกว่า "AlpACA-GPT4+COT" เล็กน้อย สิ่งนี้อาจต้องมีการสำรวจเพิ่มเติมเกี่ยวกับพรอมต์ที่แข็งแกร่งมากขึ้น

3.2 การขยายคำศัพท์ภาษาจีน

สำหรับการขยายคำศัพท์ภาษาจีนผู้เขียนทดสอบอิทธิพลของจำนวนโทเค็นจีนในคำศัพท์ของโทเคนิเซอร์ต่อความสามารถของ LLMS ในการแสดงภาษาจีน ตัวอย่างเช่นหากตัวละครภาษาจีนอยู่ในคำศัพท์ก็สามารถแสดงได้ด้วยโทเค็นเดียวมิฉะนั้นอาจต้องใช้โทเค็นหลายตัวเพื่อแสดง

การตั้งค่าการทดลอง: ผู้เขียนส่วนใหญ่ทำการทดลองเกี่ยวกับ Llama ซึ่งใช้ประโยคชิ้น (ขนาดคำศัพท์ 32K ของตัวละครจีน) ครอบคลุมตัวละครจีนน้อยกว่าบลูม (250K)

ผลการทดลอง:

การฝึกอบรมล่วงหน้าเกี่ยวกับคลังภาษาจีนที่มีการขยายตัวของคำศัพท์ภาษาจีนมีประโยชน์อย่างต่อเนื่องสำหรับความสามารถในการติดตามคำสั่ง
และ "LLAMA-VOC-PRE-L" (100B) นั้นด้อยกว่า "LLAMA-VOC-PRE" (20B) ใน MMCU ซึ่งแสดงให้เห็นว่าการฝึกอบรมก่อนการฝึกอบรมเพิ่มเติมอาจไม่จำเป็นต้องนำไปสู่ประสิทธิภาพที่สูงขึ้นสำหรับการสอบวิชาการ

3.3 ภาษาของพรอมต์

สำหรับภาษาของพรอมต์ผู้เขียนทดสอบความเหมาะสมของการปรับแต่งการเรียนการสอนสำหรับการใช้พรอมต์ภาษาจีน

รูปที่ 4 แสดงผลลัพธ์ของการใช้พรอมต์ภาษาจีนและภาษาอังกฤษตาม Llama และ Bloom เมื่อ Llama การปรับแต่งการเรียนการสอนการใช้พรอมต์ภาษาจีนสามารถปรับปรุงประสิทธิภาพการทำงานของมาตรฐานทั้งสองเมื่อเทียบกับพรอมต์ภาษาอังกฤษในขณะที่ปรากฏการณ์ตรงกันข้ามสามารถสังเกตได้

ผลการทดลอง:

สำหรับแบบจำลองที่มีความสามารถของจีนที่อ่อนแอกว่า (เช่น Llama) การใช้พรอมต์จีนสามารถช่วยตอบสนองเป็นภาษาจีนได้อย่างมีประสิทธิภาพ
สำหรับนางแบบที่มีความสามารถของจีนที่ดี (เช่น Bloom) โดยใช้พรอมต์เป็นภาษาอังกฤษ (ภาษาที่ดีกว่า) สามารถแนะนำรูปแบบให้เข้าใจกระบวนการปรับแต่งด้วยคำแนะนำได้ดีขึ้น

3.4 การจัดแนวของมนุษย์

เพื่อหลีกเลี่ยง LLMs ที่สร้างเนื้อหาที่เป็นพิษการจัดแนวพวกเขาให้สอดคล้องกับค่านิยมของมนุษย์เป็นปัญหาที่สำคัญ เราเพิ่มข้อมูลการจัดตำแหน่งของมนุษย์ที่สร้างโดย Coig ลงในการปรับแต่งเพื่อสำรวจผลกระทบ

รูปที่ 5 เปรียบเทียบผลลัพธ์ของการปรับแต่งการเรียนการสอนที่มีและไม่มีการจัดแนวของมนุษย์

ผลการทดลอง: การจัดตำแหน่งของค่ามนุษย์ส่งผลให้ประสิทธิภาพลดลงเล็กน้อย วิธีการสร้างสมดุลระหว่างความไม่เป็นอันตรายและประสิทธิภาพของ LLMS เป็นทิศทางการวิจัยที่ควรค่าแก่การสำรวจในอนาคต

การวิเคราะห์เชิงปริมาณ

หมายเหตุ: รูปต่อไปนี้แสดงสถิติของชุดข้อมูลที่รวบรวม ณ วันที่ 26 มีนาคมซึ่งแสดงเป็นแรงจูงใจในการรวบรวมข้อมูลเท่านั้น มีการรวบรวมชุดข้อมูลเพิ่มเติมเช่นชุดข้อมูลคำสั่งที่เกี่ยวข้องทางการเงิน

สถิติการรวบรวมข้อมูล คอลเลกชันปัจจุบันของชุดข้อมูลการเรียนการสอนการเรียนการสอนประกอบด้วยส่วนใหญ่สามส่วน:

alpaca_data_cleaned.json : ตัวอย่างการฝึกอบรมการเรียนการสอนภาษาอังกฤษประมาณ 52K
CoT_data.json : 9 ชุดข้อมูล COT ที่เกี่ยวข้องกับตัวอย่างประมาณ 75K (เผยแพร่โดย Flan [7])
belle_data_cn.json : ประมาณ 0.5M ภาษาจีน | ตัวอย่างการฝึกอบรมตามคำแนะนำ (เผยแพร่โดย Belle [8])

การระเหยของ COT และคำแนะนำภาษาจีน

การระเหย "w/o cot" และ "w/o cn" แสดงถึงโมเดลที่ไม่รวมข้อมูล COT และคำแนะนำภาษาจีนจากข้อมูลคำสั่ง finetuning ตามลำดับ

ตารางข้างต้นแสดงตัวอย่างสองตัวอย่าง (เกี่ยวข้องกับการคำนวณเชิงตัวเลข) ที่ต้องใช้ความสามารถในการใช้เหตุผลในการตอบสนองอย่างถูกต้อง ดังที่แสดงในคอลัมน์กลาง Ours w/o CoT ล้มเหลวในการสร้างการตอบสนองที่ถูกต้องซึ่งแสดงให้เห็นว่าเมื่อข้อมูล finetuning ไม่มีข้อมูล COT ความสามารถในการให้เหตุผลของโมเดลจะลดลงอย่างมีนัยสำคัญ สิ่งนี้แสดงให้เห็นว่าข้อมูล COT เป็นสิ่งจำเป็นสำหรับรุ่น LLM

การระเหย

ตารางด้านบนแสดงสองตัวอย่างที่ต้องการความสามารถในการตอบสนองต่อคำแนะนำภาษาจีน ดังที่แสดงในคอลัมน์ด้านขวาไม่ว่าจะเป็นเนื้อหาที่สร้างขึ้นของ Ours w/o CN ไม่มีเหตุผลหรือคำแนะนำภาษาจีนจะได้รับคำตอบเป็นภาษาอังกฤษโดย Ours w/o CN สิ่งนี้แสดงให้เห็นว่าการลบข้อมูลภาษาจีนในระหว่างการ finetuning จะทำให้แบบจำลองไม่สามารถจัดการกับคำแนะนำของจีนและแสดงให้เห็นถึงความจำเป็นในการรวบรวมข้อมูลการสอนภาษาจีน

การระเหย

ตารางข้างต้นแสดงตัวอย่างที่ค่อนข้างยากซึ่งต้องการทั้งการสะสมความรู้เกี่ยวกับประวัติศาสตร์จีนและความสามารถเชิงตรรกะและสมบูรณ์ในการระบุเหตุการณ์ทางประวัติศาสตร์ ดังที่แสดงในตารางนี้ Ours w/o CN สามารถสร้างการตอบสนองสั้น ๆ และผิดพลาดได้เนื่องจากการขาดข้อมูลการจัดสรร Finetuning จีนความรู้ที่สอดคล้องกันของประวัติศาสตร์จีนจึงขาดหายไปตามธรรมชาติ แม้ว่า Ours w/o CoT ตรรกะของการแสดงออกของมันคือความขัดแย้งในตนเองซึ่งเกิดจากการขาดข้อมูล COT -

โดยสรุปโมเดลที่ได้รับการคัดค้านจากชุดข้อมูลที่สมบูรณ์ของเรา (ข้อมูลการเรียนการสอนภาษาอังกฤษจีนและ COT) สามารถปรับปรุงการใช้เหตุผลแบบจำลองและการเรียนการสอนภาษาจีนได้อย่างมีนัยสำคัญตามความสามารถ

ผลของข้อมูล COT

ประกบ ตัวอย่างของแต่ละแถวคี่ไม่ได้ใช้พรอมต์ COT เช่น "การใช้เหตุผลทีละขั้นตอน" ทั้ง Ours(w/CoT) และ Alpaca ขึ้นอยู่กับ LLAMA-7B และความแตกต่างเพียงอย่างเดียวระหว่างพวกเขาสองคือข้อมูลการเรียนการสอนของ Ours(w/CoT) มีข้อมูล COT พิเศษกว่า Alpaca

จากตารางด้านบนเราพบว่า:

Ours(w/CoT) มักจะสร้างเหตุผลที่ถูกต้องก่อนคำตอบในขณะที่ Alpaca ล้มเหลวในการสร้างเหตุผลที่สมเหตุสมผลใด ๆ ดังที่แสดงในตัวอย่าง 4 ตัวอย่างแรก (คำถามทั่วไป) สิ่งนี้แสดงให้เห็นว่าการใช้ข้อมูล COT สำหรับการ finetuning สามารถปรับปรุงความสามารถในการใช้เหตุผลอย่างมีนัยสำคัญ
สำหรับ Ours(w/CoT) , COT Prompt (เช่น concatenate 'ทีละขั้นตอน' พร้อมคำถามอินพุต) มีผลเพียงเล็กน้อยต่อตัวอย่างง่าย ๆ (เช่นคำถามทั่วไป) และมีผลกระทบที่สำคัญต่อคำถามที่ท้าทาย (เช่นคำถามที่ต้องใช้เหตุผลเช่นสี่ตัวอย่างสุดท้าย)
สำหรับ Alpaca พรอมต์ COT มักจะมีผลกระทบเพียงเล็กน้อยหรือแม้กระทั่งผลกระทบเชิงลบ สำหรับสองตัวอย่างสุดท้ายหลังจากเพิ่มพรอมต์ COT APLPACA จะเปลี่ยนคำตอบที่ถูกสร้างขึ้นมาอย่างถูกต้องเป็นคำที่ผิด นี่อาจเป็นเพราะความไม่สอดคล้องกันระหว่างรูปแบบอินพุตของ finetuning และการอนุมาน

ผลกระทบของข้อมูลการเรียนการสอนภาษาจีน

การเปรียบเทียบเชิงปริมาณของการตอบสนองต่อคำแนะนำของจีน cn_compare_cn

โมเดลของเราได้รับการแก้ไขจาก 7B LLAMA ตามคำแนะนำภาษาอังกฤษ 52K และคำแนะนำภาษาจีน 0.5M Stanford Alpaca (การปรับแต่งของเรา) ได้รับการแก้ไขจาก 7B Llama ตามคำแนะนำภาษาอังกฤษ 52K เบลล์ได้รับการคัดค้านจาก 7B บานในคำแนะนำภาษาจีน 2B

จากตารางด้านบนสามารถพบการสังเกตหลายครั้ง:

เมื่อเทียบกับ Alpaca ours (w/ CN) มีความสามารถที่แข็งแกร่งในการเข้าใจคำแนะนำของจีน สำหรับตัวอย่างแรก Alpaca ไม่สามารถแยกแยะความแตกต่างระหว่างชิ้นส่วน instruction และส่วน input ในขณะที่เราทำ
ข้อมูลการเรียนการสอนภาษาจีนสามารถเพิ่มความสามารถในการโต้ตอบเป็นภาษาจีนอย่างมีนัยสำคัญ สำหรับตัวอย่างที่สอง ours (w/ CN) ไม่เพียง แต่ให้รหัสที่ถูกต้อง แต่ยังให้คำอธิบายประกอบภาษาจีนที่สอดคล้องกันในขณะที่ Alpaca ไม่ได้ นอกจากนี้ดังที่แสดงในตัวอย่าง 3-5 ตัวอย่าง Alpaca สามารถตอบสนองต่อการเรียนการสอนภาษาจีนด้วยการตอบกลับภาษาอังกฤษเท่านั้น
เมื่อเทียบกับ Belle ประสิทธิภาพของ ours (w/ CN) เกี่ยวกับคำแนะนำที่ต้องการการตอบสนองแบบเปิด (ดังแสดงในสองตัวอย่างสุดท้าย) ยังคงต้องปรับปรุง ประสิทธิภาพที่โดดเด่นของเบลล์กับคำแนะนำดังกล่าวเกิดจาก: 1. โมเดลกระดูกสันหลังบานสะพรั่งของมันพบข้อมูลหลายภาษามากขึ้นในระหว่างการฝึกอบรมก่อน 2. ข้อมูลการใช้งานของจีนการสอนภาษาจีนเป็นมากกว่าของเรานั่นคือ 2m เทียบกับ 0.5m

การเปรียบเทียบเชิงปริมาณของการตอบสนองต่อคำแนะนำภาษาอังกฤษ วัตถุประสงค์ของส่วนย่อยนี้คือการสำรวจว่าการเพิ่มขึ้นของคำแนะนำภาษาจีนมีผลกระทบด้านลบต่อ Alpaca หรือไม่ cn_compare_en

จากตารางด้านบนเราพบว่า:

การใช้ข้อมูลการเรียนการสอนภาษาจีนไม่ได้ทำให้การเรียนการสอนภาษาอังกฤษลดลง - ตามความสามารถในการติดตามความสามารถในทางตรงกันข้ามนอกจากนี้ยังมีการปรับปรุงบางอย่างในการสร้างการตอบสนองที่ดีขึ้นสำหรับคำแนะนำภาษาอังกฤษ การตอบสนองของ ours (w/ CN) แสดงรายละเอียดมากกว่าของ Alpaca เช่นสำหรับตัวอย่างที่สามรายการ ours (w/ CN) รายการสามจังหวัดมากกว่า Alpaca

การอ้างอิง

โปรดอ้างอิง repo หากคุณใช้การรวบรวมข้อมูลรหัสและการค้นพบการทดลองใน repo นี้

 @misc{si2023empirical,
      title={An Empirical Study of Instruction-tuning Large Language Models in Chinese}, 
      author={Qingyi Si and Tong Wang and Zheng Lin and Xu Zhang and Yanan Cao and Weiping Wang},
      year={2023},
      eprint={2310.07328},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

สำหรับข้อมูลและรุ่นโปรดอ้างอิงข้อมูลต้นฉบับวิธีการที่มีประสิทธิภาพพารามิเตอร์และแหล่งที่มาของ LLMS เช่นกัน

เราขอแสดงความขอบคุณเป็นพิเศษต่อ APUS AILME LAB สำหรับการสนับสนุน 8 A100 GPU สำหรับการทดลอง

(กลับไปด้านบน)

ขอขอบคุณผู้สนับสนุนของเรา

ขยาย