ด้วยการปรับแต่งโมเดลโอเพ่นซอร์ส Chatglm-6B โดยใช้ LORA รุ่น Chatglm สามารถใช้สำหรับการประมวลผลงานคอมโพสิต โครงการนี้ส่วนใหญ่เกี่ยวข้องกับสองงาน: การจำแนกอัจฉริยะของความคิดเห็นของอุตสาหกรรมสื่อใหม่และการแยกข้อมูล
โครงการกำลังได้รับการปรับปรุงอย่างต่อเนื่อง ...
การจำแนกประเภทข้อความหมายถึงกระบวนการแบ่งข้อความหนึ่งย่อหน้าขึ้นไปเป็นหมวดหมู่หรือแท็กที่แตกต่างกันตามลักษณะเนื้อหาหรือหัวข้อ ในการทำงานจริงการจำแนกข้อความมีการใช้กันอย่างแพร่หลายเช่น: การจำแนกข่าวการจำแนกประวัติย่อการจำแนกอีเมลการจำแนกเอกสารสำนักงานการจำแนกพื้นที่พื้นที่ ฯลฯ การกรองข้อความสามารถรับรู้ได้อย่างรวดเร็วเพื่อระบุและกรองข้อมูลที่ตรงตามข้อกำหนดพิเศษจากข้อความจำนวนมาก
การสกัดข้อมูลเป็นเทคโนโลยีที่ระบุคำอธิบายที่เป็นข้อเท็จจริงของเอนทิตีความสัมพันธ์เหตุการณ์ ฯลฯ จากข้อความธรรมชาติที่ไม่มีโครงสร้างหรือกึ่งโครงสร้างและจัดเก็บและใช้ในรูปแบบที่มีโครงสร้าง โดย
"Xiao Ming และ Xiao Qin เป็นเพื่อนที่ดีพวกเขาทั้งคู่มาจากยูนนานเสี่ยวหมิงอาศัยอยู่ในดาลีและเสี่ยวฉินอาศัยอยู่ใน Lijiang"
ตัวอย่างเช่นคุณจะได้รับ:
<Xiao Ming, เพื่อน, Xiao Qin> และ <Xiao Qin, Living, Living, Living, Dali> และข้อมูลสามอย่างอื่น ๆ
ด้วยการพัฒนาอย่างรวดเร็วของเทคโนโลยีอินเทอร์เน็ตอุตสาหกรรมสื่อใหม่ได้กลายเป็นหนึ่งในแพลตฟอร์มหลักสำหรับการเผยแพร่ข้อมูล ในยุคของการระเบิดของข้อมูลผู้คนได้รับข้อมูลผ่านโซเชียลมีเดียลูกค้าข่าวบล็อกและรูปแบบอื่น ๆ อย่างไรก็ตามด้วยจำนวนข้อมูลที่เพิ่มขึ้นวิธีการจัดการและใช้ข้อมูลนี้อย่างมีประสิทธิภาพได้กลายเป็นปัญหาเร่งด่วน จากข้อมูล "อุตสาหกรรมสื่อใหม่" บางส่วนเป็นพื้นหลังโครงการนี้ช่วยให้อุตสาหกรรมสื่อใหม่ได้รับข้อมูลที่เป็นประโยชน์อย่างรวดเร็วและถูกต้องจากข้อมูลจำนวนมากและดำเนินการจำแนกประเภทและการจัดการที่สมเหตุสมผลผ่านการจำแนกประเภทและการแยกข้อมูลความคิดเห็นข้อความ สิ่งนี้ไม่เพียง แต่ช่วยให้แพลตฟอร์มสื่อใหม่ปรับปรุงประสบการณ์ผู้ใช้ แต่ยังช่วยให้ผู้ผลิตข้อมูลมีการวิเคราะห์ข้อมูลที่แม่นยำยิ่งขึ้นและการสนับสนุนการตัดสินใจ
ขึ้นอยู่กับวิธีการปรับแต่งแบบปรับแต่ง LORA แบบจำลองการพัฒนางานร่วมของการจำแนกประเภทข้อความและการแยกข้อมูลได้รับการรับรู้
| แบบอย่าง | หน่วยความจำวิดีโอ GPU |
|---|---|
| chatglm-6b | 13 GB |
| แพ็คเกจการพึ่งพา | ข้อกำหนดเวอร์ชัน |
|---|---|
| Protobuf | > = 3.19.5, <3.20.1 |
| หม้อแปลงไฟฟ้า | > = 4.27.1 |
| มีแสงสว่าง | == 1.17.0 |
| ชุดข้อมูล | > == 2.10.1 |
| เร่งความเร็ว | == 0.17.1 |
| การบรรจุหีบห่อ | > = 20.0 |
เทคโนโลยี LORA ค้างน้ำหนักของแบบจำลองที่ผ่านการฝึกฝนและฉีดเลเยอร์ที่สามารถฝึกอบรมได้ (เรียกว่าเมทริกซ์การสลายตัวอันดับ) ลงในบล็อกหม้อแปลงแต่ละตัวคือเพิ่ม "ผู้ให้บริการด้านข้าง" A และ B ถัดจากชั้นเชิงเส้นของแบบจำลอง ในหมู่พวกเขาจะช่วยลดข้อมูลจากมิติ D เป็นมิติ R ซึ่งเป็นอันดับของ LORA ซึ่งเป็นไฮเปอร์พารามิเตอร์ที่สำคัญ B เพิ่มข้อมูลจากมิติ R เป็นมิติ D และพารามิเตอร์ของส่วน B เริ่มแรก 0. หลังจากการฝึกอบรมแบบจำลองเสร็จสิ้นพารามิเตอร์ของชิ้นส่วน A+B จะต้องรวมกับพารามิเตอร์ของโมเดลขนาดใหญ่ดั้งเดิม
รูปแบบข้อมูล: สไตล์พจนานุกรม; เนื้อหาบริบทแสดงถึง: ข้อความอินพุตดั้งเดิม (พรอมต์); จุดเป้าหมาย: ข้อความเป้าหมาย ชุดข้อมูลแบบผสมรวมถึงข้อมูลการจำแนกข้อความและข้อมูลการสกัดข้อมูล
ชุดข้อมูลการฝึกอบรมมีตัวอย่างทั้งหมด: 902 ตัวอย่าง
ชุดข้อมูลการตรวจสอบมีทั้งหมด: 122 ตัวอย่าง
การใช้น้ำหนักรุ่น ChatGLM-6B ในโครงการนี้ขึ้นอยู่กับการอนุญาตแบบจำลอง