Llama3 8B_Emotion_Text_Classification_LoRA ดาวน์โหลด - Llama3 8B_Emotion_Text_Classification_LoRA ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

Llama3 8B_Emotion_Text_Classification_LoRA

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

การจำแนกข้อความอารมณ์โดยใช้ LLAMA3-8B และ LORA

การแนะนำ

โครงการนี้สำรวจการจำแนกประเภทข้อความอารมณ์โดยใช้โมเดล LLAMA3-8B ซึ่งได้รับการปรับปรุงด้วยเทคนิค LORA และ Flashattention แบบจำลองได้รับการปรับให้เหมาะสมสำหรับการระบุประเภทอารมณ์หกประเภท: ความสุขความโศกเศร้าความโกรธความกลัวความรักและความประหลาดใจ โมเดล LLAMA3-8B แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าด้วยความแม่นยำ 0.9262 ซึ่งเหนือกว่ารุ่นหม้อแปลงอื่น ๆ เช่น Bert-Base, Bert-Large, Roberta-Base และ Roberta-Large

พื้นหลัง

การประมวลผลภาษาธรรมชาติ (NLP) ได้กลายเป็นพื้นที่โฟกัสที่สำคัญสำหรับการวิเคราะห์ความเชื่อมั่นหรือที่เรียกว่าการจำแนกความเชื่อมั่นหรือการตรวจจับความเชื่อมั่น เทคโนโลยีนี้ช่วยให้ธุรกิจเข้าใจอารมณ์และความคิดเห็นของผู้บริโภคเพิ่มความพึงพอใจของลูกค้าและการพัฒนาผลิตภัณฑ์ ข้อมูลจำนวนมากใน บริษัท ขนาดใหญ่ทำให้การวิเคราะห์ด้วยตนเองไม่สามารถทำได้นำไปสู่การยอมรับอัลกอริทึม AI และ NLP

คุณสมบัติที่สำคัญ

แบบจำลอง : LLAMA3-8B ปรับแต่งโดยใช้การเรียนรู้ภายใต้การดูแล
เทคนิค : ใช้ LORA สำหรับการปรับค่าพารามิเตอร์ที่มีประสิทธิภาพและการตั้งค่าแฟลชสำหรับการคำนวณความสนใจที่ดีที่สุด
ชุดข้อมูล : ชุดข้อมูลข้อความอารมณ์ที่มีหกหมวดหมู่
ประสิทธิภาพ : บรรลุความแม่นยำ 0.9262 ซึ่งเหนือกว่ารุ่น NLP อื่น ๆ

วิธีการ

รูปที่ 1: สถาปัตยกรรมของ LLAMA3-8B

โมเดล Llama3-8B

โมเดล LLAMA3-8B ที่พัฒนาโดย Meta AI เป็นรูปแบบภาษาขนาดใหญ่ที่ได้รับการปรับให้เหมาะสมสำหรับกรณีการใช้งานบทสนทนา มันมีพารามิเตอร์ 8 พันล้านพารามิเตอร์และคุณสมบัติการปรับปรุงที่สำคัญมากกว่ารุ่นก่อนหน้า ซีรี่ส์ LLAMA3 รวมกระบวนการฝึกอบรมหลายเฟสซึ่งรวมถึงการปรับแต่งการปรับแต่งการปรับแต่งและการปรับแต่งซ้ำ ๆ โดยใช้การเรียนรู้การเสริมแรงด้วยความคิดเห็นของมนุษย์ (RLHF) กระบวนการนี้ช่วยให้มั่นใจได้ว่าแบบจำลองจะสอดคล้องกับความชอบของมนุษย์เพื่อความช่วยเหลือและความปลอดภัย

ความก้าวหน้าทางสถาปัตยกรรมใน LLAMA3 รวมถึงการดำเนินการตามคำถามแบบกลุ่ม (GQA) GQA Clusters Queries เพื่อแบ่งปันคู่คีย์-ค่าซึ่งจะช่วยลดหน่วยความจำและค่าใช้จ่ายในการคำนวณในขณะที่ยังคงประสิทธิภาพสูง วิธีนี้ช่วยเพิ่มประสิทธิภาพของการคำนวณความสนใจอย่างมีนัยสำคัญโดยเฉพาะในแบบจำลองขนาดใหญ่

LLAMA3-8B ได้รับการปรับแต่งในชุดข้อมูลที่หลากหลายซึ่งประกอบด้วยโทเค็นมากกว่า 15 ล้านล้านโทเค็นจากข้อมูลสาธารณะที่เปิดเผยโดยมีการตัดความรู้ของแบบจำลองเมื่อเดือนมีนาคม 2566 ขั้นตอนการปรับจูนใช้ชุดข้อมูลการเรียนการสอนที่เปิดเผยต่อสาธารณชน

ตารางที่ 1: รายละเอียดรุ่น LLAMA3-8B

คุณสมบัติ	ข้อมูลจำเพาะ
ข้อมูลการฝึกอบรม	ข้อมูลที่เปิดเผยต่อสาธารณะ
พารามิเตอร์	8B
ความยาวบริบท	8K
GQA	ใช่
จำนวนโทเค็น	15t+
ตัดความรู้	มีนาคม 2566

คำแนะนำการปรับแต่ง

การเรียนการสอนการปรับแต่งช่วยเพิ่มความสามารถในการเรียนรู้แบบไม่เป็นศูนย์ของโมเดลในงานที่หลากหลาย เทคนิคนี้เกี่ยวข้องกับการฝึกอบรมโมเดลในชุดข้อมูลที่ออกแบบมาโดยเฉพาะเพื่อปรับปรุงความสามารถในการปฏิบัติตามคำแนะนำ ตัวอย่างเช่นโมเดลที่ผ่านการฝึกอบรมเกี่ยวกับชุดข้อมูลเช่น Alpaca-7B สามารถแสดงพฤติกรรมคล้ายกับ Text-DavincI-003 ของ OpenAI ในการทำความเข้าใจและดำเนินการตามคำแนะนำ

วิธีการฝึกอบรม LORA

LORA (การปรับระดับต่ำ) เป็นเทคนิคที่ใช้ในการรวมเมทริกซ์การสลายตัวของอันดับฝึกอบรมเข้ากับแต่ละชั้นของสถาปัตยกรรมหม้อแปลง วิธีนี้จะช่วยลดจำนวนพารามิเตอร์ที่สามารถฝึกอบรมได้อย่างมีนัยสำคัญในขณะที่ปรับรูปแบบภาษาขนาดใหญ่ให้เข้ากับงานหรือโดเมนที่เฉพาะเจาะจง ซึ่งแตกต่างจากการปรับแต่งแบบเต็มรูปแบบ LORA รักษาน้ำหนักรุ่นที่ผ่านการฝึกฝนไว้ไม่เปลี่ยนแปลงอัปเดตเฉพาะเมทริกซ์ระดับต่ำในระหว่างกระบวนการปรับตัว วิธีการนี้ช่วยเพิ่มประสิทธิภาพการฝึกอบรมลดความต้องการในการจัดเก็บและไม่เพิ่มเวลาแฝงการอนุมานเมื่อเทียบกับแบบจำลองที่ปรับแต่งได้อย่างสมบูรณ์

รูปที่ 2: วิธีการฝึกอบรม LORA

Flash Attention v2

Flashattention V2 เป็นเทคนิคการเพิ่มประสิทธิภาพที่ออกแบบมาเพื่อเร่งกลไกความสนใจในแบบจำลองหม้อแปลง มันมุ่งเน้นไปที่การปรับปรุงประสิทธิภาพการคำนวณและลดการใช้หน่วยความจำในระหว่างการฝึกอบรม Flashattention ประสบความสำเร็จโดยการทำลายการคำนวณความสนใจเป็นชิ้นเล็ก ๆ ที่จัดการได้มากขึ้นซึ่งจะช่วยเพิ่มการใช้แคชและลดการเข้าถึงหน่วยความจำ นอกจากนี้ยังใช้การดำเนินการเมทริกซ์แบบเบาบางเพื่อใช้ประโยชน์จากกลไกความสนใจซึ่งช่วยหลีกเลี่ยงการคำนวณที่ไม่จำเป็น การดำเนินการ Pipelined ช่วยให้การดำเนินการแบบขนานของขั้นตอนการคำนวณที่แตกต่างกันลดเวลาในการประมวลผลเพิ่มเติม

การทดลอง

รูปที่ 3: การกระจายฉลากข้อความอารมณ์

การวิเคราะห์ข้อมูล

ชุดข้อมูลที่ใช้สำหรับการฝึกอบรมแบบจำลองประกอบด้วยข้อความที่มีอารมณ์หกอารมณ์: ความสุขความโศกเศร้าความโกรธความกลัวความรักและความประหลาดใจ การกระจายของชุดข้อมูลนั้นค่อนข้างสมดุลด้วย "ความสุข" เป็นอารมณ์ที่พบได้บ่อยที่สุดและ "ประหลาดใจ" น้อยที่สุด การกระจายที่สมดุลนี้เป็นรากฐานที่แข็งแกร่งสำหรับแบบจำลองในการจำแนกอารมณ์อย่างแม่นยำโดยไม่มีอคติต่อหมวดหมู่ใด ๆ

การตั้งค่าการทดลอง

พารามิเตอร์ Hyperparameters ของรุ่น LLAMA3-8B ถูกตั้งค่าดังนี้:

ตารางที่ 2: การตั้งค่าการทดลองสำหรับ LLAMA3-8B

พารามิเตอร์	การตั้งค่า
การเพิ่มประสิทธิภาพ	อดัม
อัตราการเรียนรู้	5E-5
ขนาดแบทช์	5
ยุค	3
อันดับ Lora	8
ขั้นตอนการสะสมไล่ระดับสี	4
ความยาวสูงสุด	512

โมเดลได้รับการฝึกฝนโดยใช้ Adam Optimizer ซึ่งเป็นที่รู้จักกันดีในเรื่องความสามารถในการเรียนรู้ที่ปรับตัวได้ มีการใช้ตารางอัตราการเรียนรู้ของโคไซน์เพื่อปรับอัตราการเรียนรู้ในระหว่างการฝึกอบรม ขนาดแบทช์ถูกตั้งค่าเป็น 5 พร้อมการสะสมการไล่ระดับสีมากกว่า 4 ขั้นตอนเพื่อเพิ่มประสิทธิภาพการใช้หน่วยความจำ โมเดลได้รับการฝึกฝนสำหรับ 3 ยุคด้วยรูปแบบความแม่นยำ FP16 ที่ใช้ในการบันทึกหน่วยความจำ GPU ในขณะที่ยังคงประสิทธิภาพ อันดับ LORA ของ 8 หมายถึงลำดับของเมทริกซ์ระดับต่ำที่ใช้ในกระบวนการปรับตัว

ตัวชี้วัดการประเมินผล

ตัวชี้วัดหลักที่ใช้ในการประเมินประสิทธิภาพของโมเดลคือความแม่นยำ ตัวชี้วัดนี้วัดสัดส่วนของการทำนายที่ถูกต้องโดยแบบจำลองจากการคาดการณ์ทั้งหมด สูตรเพื่อความแม่นยำคือ:

$$ text {ความแม่นยำ} = frac { text {tp} + text {fn}} { text {tp} + text {fp} + text {fn} + text {tn}} $$

ที่ไหน:

tp = บวกจริง
fp = เท็จบวก
fn = ลบเท็จ
tn = ค่าลบที่แท้จริง

การวิเคราะห์การทดลอง

ประสิทธิภาพของโมเดลถูกเปรียบเทียบกับรุ่น NLP ยอดนิยมอื่น ๆ เช่น Bert-Base, Bert-Large, Roberta-Base และ Roberta-Large โมเดล LLAMA3-8B บรรลุความแม่นยำสูงสุด 0.9262 แสดงให้เห็นถึงประสิทธิภาพของการปรับแต่งการเรียนการสอนและชุดพารามิเตอร์ขนาดใหญ่ของโมเดล ประสิทธิภาพที่เหนือกว่าของ LLAMA3-8B ในงานนี้เน้นย้ำข้อดีของแบบจำลองภาษาขนาดใหญ่ในการบรรลุความแม่นยำสูงในงานการจำแนกประเภทข้อความที่หลากหลายและท้าทาย

ตารางที่ 3: ผลลัพธ์ที่แม่นยำสำหรับรุ่นที่แตกต่างกัน

แบบอย่าง	ความแม่นยำ
เบิร์ตเบส	0.9063
เบิร์ตขนาดใหญ่	0.9086
เบสโรเบอร์ต้า	0.9125
Roberta-large	0.9189
LLAMA3-8B	0.9262

บทสรุป

โครงการนี้แสดงให้เห็นถึงศักยภาพของแบบจำลองภาษาขนาดใหญ่เช่น LLAMA3-8B ในงานเฉพาะโดเมนเช่นการจำแนกข้อความอารมณ์ ประสิทธิภาพของโมเดลซึ่งได้รับการสนับสนุนจากเทคนิคพิเศษเช่น Lora และ Flashattention ซึ่งเน้นย้ำถึงประสิทธิภาพของโมเดลขนาดใหญ่ในการบรรลุความแม่นยำสูงในแอปพลิเคชัน NLP