Alibaba Damo Academy เปิดตัว Valley2 ซึ่งเป็นโมเดลภาษาขนาดใหญ่หลายรูปแบบที่อิงตามสถานการณ์อีคอมเมิร์ซ โมเดลนี้รวมตัวเข้ารหัสภาพ Qwen2.5, SigLIP-384 และโมดูล Eagle ที่เป็นนวัตกรรมใหม่ และอะแดปเตอร์แบบ Convolution เพื่อปรับปรุงประสิทธิภาพของอีคอมเมิร์ซและแอปพลิเคชัน ในช่องวิดีโอสั้น ชุดข้อมูลของ Valley2 ครอบคลุมข้อมูลสไตล์ OneVision ข้อมูลอีคอมเมิร์ซและวิดีโอสั้น และข้อมูลการคิดแบบลูกโซ่ หลังจากการฝึกอบรมแบบหลายขั้นตอน ก็ได้รับผลลัพธ์ที่ยอดเยี่ยมในการทดสอบเกณฑ์มาตรฐานสาธารณะหลายรายการ โดยเฉพาะอย่างยิ่งในการประเมินที่เกี่ยวข้องกับอีคอมเมิร์ซ การเพิ่มประสิทธิภาพของการออกแบบสถาปัตยกรรมและกลยุทธ์การฝึกอบรมทำให้เกิดแนวคิดใหม่ในการปรับปรุงประสิทธิภาพของโมเดลขนาดใหญ่หลายรูปแบบ
เมื่อเร็วๆ นี้ Alibaba Damo Academy ได้เปิดตัวโมเดลภาษาขนาดใหญ่หลายรูปแบบที่เรียกว่า Valley2 โมเดลนี้ได้รับการออกแบบตามสถานการณ์อีคอมเมิร์ซและมีเป้าหมายเพื่อปรับปรุงประสิทธิภาพในด้านต่างๆ และขยายอีคอมเมิร์ซและการใช้งานระยะสั้นผ่านภาพที่ปรับขนาดได้ สถาปัตยกรรมภาษา ขอบเขตการใช้งานของฉากวิดีโอ Valley2 ใช้ Qwen2.5 เป็นแบ็คโบน LLM ซึ่งจับคู่กับตัวเข้ารหัสภาพ SigLIP-384 และรวมเลเยอร์ MLP และ Convolutions เพื่อการแปลงฟีเจอร์ที่มีประสิทธิภาพ นวัตกรรมอยู่ที่การแนะนำคำศัพท์ภาพขนาดใหญ่ อะแดปเตอร์แบบหมุนวน (ConvAdapter) และโมดูล Eagle ซึ่งเพิ่มความยืดหยุ่นในการประมวลผลอินพุตที่หลากหลายในโลกแห่งความเป็นจริง และประสิทธิภาพของการอนุมานการฝึกอบรม

ข้อมูลของ Valley2 ประกอบด้วยข้อมูลสไตล์ OneVision ข้อมูลสำหรับอีคอมเมิร์ซและวิดีโอสั้น และข้อมูล Chain of Thinking (CoT) สำหรับการแก้ปัญหาที่ซับซ้อน กระบวนการฝึกอบรมแบ่งออกเป็นสี่ขั้นตอน: การจัดแนวข้อความและภาพ การเรียนรู้ความรู้คุณภาพสูง การปรับแต่งคำแนะนำ และการคิดแบบลูกโซ่หลังการฝึกอบรม ในการทดลอง Valley2 ทำงานได้ดีในการทดสอบเกณฑ์มาตรฐานสาธารณะหลายรายการ โดยเฉพาะอย่างยิ่งการให้คะแนนสูงใน MMBench, MMStar, MathVista และเกณฑ์มาตรฐานอื่นๆ และยังเหนือกว่ารุ่นอื่นๆ ที่มีขนาดเท่ากันในการทดสอบเกณฑ์มาตรฐาน Ecom-VQA
ในอนาคต อาลีบาบา DAMO Academy วางแผนที่จะเปิดตัวโมเดลที่ครอบคลุม รวมถึงรูปแบบข้อความ รูปภาพ วิดีโอ และเสียง และแนะนำวิธีการฝึกอบรมการฝังหลายรูปแบบบน Valley เพื่อรองรับแอปพลิเคชันการดึงข้อมูลและการตรวจจับดาวน์สตรีม
การเปิดตัว Valley2 ถือเป็นความก้าวหน้าที่สำคัญในด้านโมเดลภาษาขนาดใหญ่หลายรูปแบบ ซึ่งแสดงให้เห็นถึงความเป็นไปได้ในการปรับปรุงประสิทธิภาพของโมเดลผ่านการปรับปรุงโครงสร้าง การสร้างชุดข้อมูล และการเพิ่มประสิทธิภาพกลยุทธ์การฝึกอบรม
ลิงค์รุ่น:
https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B
ลิงค์รหัส:
https://github.com/bytedance/Valley
ลิงค์กระดาษ:
https://arxiv.org/abs/2501.05901
การเปิดตัว Valley2 ไม่เพียงแต่แสดงให้เห็นถึงเทคโนโลยีขั้นสูงของ Alibaba Damo Academy ในด้านโมเดลขนาดใหญ่หลายรูปแบบเท่านั้น แต่ยังบ่งชี้ว่าฟิลด์อีคอมเมิร์ซและวิดีโอสั้นจะนำไปสู่แอปพลิเคชันที่เป็นนวัตกรรมมากขึ้นโดยใช้ AI ในอนาคต เราหวังว่า Valley2 จะสามารถปรับปรุงและขยายสถานการณ์การใช้งานในอนาคตต่อไป โดยนำเสนอบริการที่สะดวกและชาญฉลาดยิ่งขึ้นแก่ผู้ใช้