ในสาขาปัญญาประดิษฐ์หลายรูปแบบสถาบันวิจัย Zhiyuan ได้ร่วมมือกับมหาวิทยาลัยหลายแห่งในการเปิดตัวโมเดลเวกเตอร์แบบหลายรูปแบบใหม่ BGE-VL นวัตกรรมนี้นับเป็นความก้าวหน้าครั้งสำคัญในเทคโนโลยีการดึงข้อมูลหลายรูปแบบ นับตั้งแต่เปิดตัวรุ่น BGE Series ได้รับการยกย่องอย่างกว้างขวางสำหรับประสิทธิภาพที่โดดเด่นของพวกเขาและการเปิดตัว BGE-VL ได้เพิ่มคุณค่าให้กับระบบนิเวศนี้ต่อไป โมเดลนี้ทำงานได้ดีโดยเฉพาะอย่างยิ่งในงานสำคัญหลายอย่างเช่นการดึงภาพกราฟิกและข้อความและการดึงภาพรวมแสดงให้เห็นถึงตำแหน่งนำในด้านการดึงข้อมูลหลายรูปแบบ
ความสำเร็จของ BGE-VL นั้นแยกออกไม่ได้จากเทคโนโลยีการสังเคราะห์ข้อมูล megapairs ที่อยู่เบื้องหลัง วิธีการที่เป็นนวัตกรรมนี้ช่วยปรับปรุงความสามารถในการปรับขนาดและคุณภาพของข้อมูลได้อย่างมีนัยสำคัญโดยการขุดข้อมูลกราฟิกและข้อความขนาดใหญ่ที่มีอยู่ Megapairs สามารถสร้างชุดข้อมูลที่หลากหลายในราคาที่ต่ำมากและมีตัวอย่างมากกว่า 26 ล้านตัวอย่างเป็นรากฐานที่แข็งแกร่งสำหรับการฝึกอบรมแบบจำลองการดึงข้อมูลหลายรูปแบบ เทคโนโลยีนี้ได้เปิดใช้งาน BGE-VL เพื่อให้ได้ผลลัพธ์ที่เป็นผู้นำในการวัดผลการค้นหาหลายรูปแบบหลายรูปแบบซึ่งรวมถึงตำแหน่งในอุตสาหกรรม

ด้วยการพัฒนาที่เพิ่มขึ้นของเทคโนโลยีการดึงข้อมูลหลายรูปแบบความต้องการของผู้ใช้สำหรับการเก็บข้อมูลมีความหลากหลายมากขึ้นเรื่อย ๆ โมเดลการดึงข้อมูลก่อนหน้านี้ส่วนใหญ่พึ่งพากราฟิกคู่เดียวสำหรับการฝึกอบรมและไม่สามารถจัดการกับอินพุตรวมที่ซับซ้อนได้อย่างมีประสิทธิภาพ BGE-VL ประสบความสำเร็จในการเอาชนะข้อ จำกัด นี้โดยการแนะนำข้อมูล megapairs ช่วยให้แบบจำลองสามารถเข้าใจและประมวลผลแบบสอบถามหลายรูปแบบได้อย่างครอบคลุมมากขึ้นซึ่งจะช่วยให้ผู้ใช้บริการดึงข้อมูลที่แม่นยำยิ่งขึ้น
ในการประเมินประสิทธิภาพของงานหลายงานทีม Zhiyuan พบว่าโมเดล BGE-VL ดำเนินการได้ดีโดยเฉพาะอย่างยิ่งในเกณฑ์มาตรฐานการฝังตัวของ Multimodal Multimodal (MMEB) แม้ว่า Megapairs จะไม่ครอบคลุมงานส่วนใหญ่ใน MMEB แต่ความสามารถในการวางนัยทั่วไปของงานก็ยังคงน่าตื่นเต้น นอกจากนี้ในการประเมินผลการดึงภาพรวม BGE-VL ยังดำเนินการอย่างโดดเด่นซึ่งเหนือกว่ารุ่นที่รู้จักกันดีหลายรุ่นเช่น Magiclens ของ Google และ MM-embed ของ Nvidia

เมื่อมองไปข้างหน้าสถาบันวิจัย Zhiyuan วางแผนที่จะดำเนินการต่อเพื่อเพิ่มเทคโนโลยี Megapairs รวมกับสถานการณ์การค้นหาที่หลากหลายยิ่งขึ้นและมุ่งมั่นที่จะสร้างผู้ค้นหาหลายรูปแบบที่ครอบคลุมและมีประสิทธิภาพมากขึ้นเพื่อให้ผู้ใช้บริการข้อมูลที่แม่นยำยิ่งขึ้น ด้วยการพัฒนาอย่างต่อเนื่องของเทคโนโลยีหลายรูปแบบการเปิดตัว BGE-VL จะส่งเสริมการสำรวจและนวัตกรรมเพิ่มเติมในสาขาที่เกี่ยวข้องอย่างไม่ต้องสงสัยและฉีดแรงผลักดันใหม่เข้าสู่ความก้าวหน้าของเทคโนโลยีปัญญาประดิษฐ์
ที่อยู่กระดาษ: https://arxiv.org/abs/2412.14475
หน้าแรกของโครงการ: https://github.com/vectorspacelab/megapairs
ที่อยู่รุ่น: https://huggingface.co/baai/bge-vl-mllm-s1