เมื่อเร็ว ๆ นี้ Alibaba Tongyi Lab ได้ประกาศแหล่งที่มาของผลลัพธ์ R&D ล่าสุด - Vidorag ระบบการค้นหาที่ปรับปรุงการค้นหา (RAG) ที่ออกแบบมาโดยเฉพาะสำหรับการทำความเข้าใจเอกสารภาพ การทดสอบของ Vidorag เกี่ยวกับโมเดล GPT-4O แสดงให้เห็นว่าอัตราความแม่นยำสูงถึง 79.4% ที่น่าประทับใจซึ่งสูงกว่าระบบ RAG แบบดั้งเดิมมากกว่า 10% การพัฒนานี้เป็นขั้นตอนสำคัญในด้านการประมวลผลเอกสารภาพและให้ความเป็นไปได้ใหม่สำหรับการประยุกต์ใช้ปัญญาประดิษฐ์ในการทำความเข้าใจเอกสารที่ซับซ้อน

Vidorag ไม่ใช่โมเดลเดียวแบบดั้งเดิม แต่ใช้การออกแบบกรอบการทำงานหลายตัวแทนที่เป็นนวัตกรรม ระบบผสมผสานตัวแทนการอนุมานการวนซ้ำแบบไดนามิกและเทคโนโลยีการดึงไฮบริดตาม GMM (แบบจำลองไฮบริดแบบเกาส์เซียน) วิธีการนี้ช่วยให้ Vidorag สามารถแยกและอนุมานข้อมูลสำคัญได้อย่างแม่นยำมากขึ้นเมื่อประมวลผลเอกสารภาพที่มีรูปภาพและข้อความ เมื่อเทียบกับข้อ จำกัด ของระบบ RAG แบบดั้งเดิมที่อาศัยการดึงข้อความเพียงอย่างเดียว Vidorag ช่วยปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญผ่านการหลอมรวมข้อมูลหลายรูปแบบ
Tongyi Lab อธิบายรายละเอียดว่า Vidorag ทำงานอย่างไรในเอกสารที่เผยแพร่และที่เก็บรหัส หลักของมันอยู่ในการปรับกระบวนการค้นหาและการสร้างแบบไดนามิกผ่านการทำงานร่วมกันของตัวแทนหลายตัวซึ่งจะช่วยลดปรากฏการณ์ "ภาพลวงตา" ในสถานการณ์ที่ซับซ้อน (เช่นโมเดลสร้างเนื้อหาที่ไม่ถูกต้องหรือประดิษฐ์) และปรับปรุงความน่าเชื่อถือและความเกี่ยวข้องตามบริบทของคำตอบ
ระบบมีความแม่นยำ 79.4% สำหรับ GPT-4O ซึ่งเป็นตัวเลขที่ไม่เพียง แต่แสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยม แต่ยังเปรียบเทียบกับระบบ RAG แบบดั้งเดิม ในขณะที่ระบบผ้าขี้ริ้วแบบดั้งเดิมทำงานได้ดีในงานสร้างข้อความพวกเขามักจะถูก จำกัด อยู่ที่ความสามารถในการดึงของโหมดเดียวเมื่อประมวลผลเอกสารภาพและความแม่นยำของพวกเขามักจะลอยอยู่ในระดับต่ำ Vidorag ได้เพิ่มอัตราความแม่นยำมากกว่า 10 คะแนนโดยการแนะนำการรวมข้อมูลภาพและข้อมูลข้อความอย่างลึกซึ้ง ความก้าวหน้านี้มีความสำคัญอย่างยิ่งสำหรับสถานการณ์ที่ต้องใช้ความเข้าใจในเอกสารที่มีความแม่นยำสูงเช่นการวิเคราะห์เอกสารทางกฎหมายการตีความรายงานทางการแพทย์และการประมวลผลข้อมูลองค์กร
Alibaba Tongyi Lab ย้ายไปยังโอเพนซอร์ส Vidorag ได้จุดประกายการอภิปรายที่ร้อนแรงบน Twitter ผู้ใช้เชื่อว่าการเปิดเผยข้อมูลของระบบนี้ไม่เพียง แต่สะท้อนถึงความแข็งแกร่งทางเทคนิคของอาลีบาบาในด้าน AI แต่ยังให้ทรัพยากรที่มีค่าสำหรับนักพัฒนาและนักวิจัยระดับโลก ผ่านเอกสารสาธารณะและรหัส (ลิงก์ที่เกี่ยวข้องได้รับการแชร์ในโพสต์ Twitter) Vidorag คาดว่าจะเร่งการวิจัยและการประยุกต์ใช้เทคโนโลยีภาพเอกสารภาพและส่งเสริมการพัฒนาต่อไปของระบบ AI หลายรูปแบบ
การเปิดตัวและแหล่งโอเพ่นซอร์สของ Vidorag ได้เปิดทิศทางใหม่สำหรับเทคโนโลยี RAG อย่างไม่ต้องสงสัย ด้วยความต้องการที่เพิ่มขึ้นสำหรับการประมวลผลเอกสารภาพการเกิดขึ้นของ Vidorag อาจเป็นจุดเริ่มต้นและเราอาจเห็นระบบนวัตกรรมที่คล้ายกันมากขึ้นเกิดขึ้นในอนาคต
โครงการ: https://github.com/alibaba-nlp/vidorag