นักวิจัยและพันธมิตรทางวิชาการของ Meta AI ได้พัฒนาระบบนวัตกรรม MILS (Solver LLM ซ้ำหลายครั้ง) ซึ่งสอนรูปแบบภาษาขนาดใหญ่เพื่อประมวลผลภาพวิดีโอและเสียงโดยไม่ต้องฝึกอบรมพิเศษ MILS อาศัยความสามารถในการแก้ปัญหาตามธรรมชาติของแบบจำลองภาษามากกว่าการฝึกอบรมข้อมูลจำนวนมากแสดงให้เห็นถึงข้อได้เปรียบที่เป็นเอกลักษณ์

MILS ทำงานโดยการจับคู่โมเดล AI สองแบบเพื่อดำเนินการแก้ปัญหางาน: หนึ่งคือ "เครื่องกำเนิดไฟฟ้า" ซึ่งรับผิดชอบในการเสนอโซลูชันงานและอีกรุ่นหนึ่งคือ "RatingR" ซึ่งใช้ในการประเมินประสิทธิภาพของโซลูชันที่สร้างขึ้น ข้อเสนอแนะที่ได้รับจากผู้ทำประตูสามารถช่วยให้เครื่องกำเนิดไฟฟ้าเพิ่มประสิทธิภาพคำตอบได้อย่างต่อเนื่องจนกว่าจะถึงผลลัพธ์ที่น่าพอใจ ตัวอย่างเช่นในงานคำอธิบายภาพ MILS สามารถปรับแต่งคำอธิบายภาพได้อย่างค่อยเป็นค่อยไปซึ่งจะอธิบายรายละเอียดของภาพได้อย่างถูกต้องในระดับที่แตกต่างกัน
Mils ทำงานได้ดีเป็นพิเศษในคำอธิบายภาพ ด้วยการใช้โมเดล LLAMA-3.1-8B เป็นเครื่องกำเนิดไฟฟ้าและโมเดลคลิปเป็นผู้ทำคะแนน MILS สามารถสร้างคำอธิบายภาพเทียบได้กับวิธีการนำในปัจจุบันแม้ว่าคลิปไม่ได้รับการฝึกฝนเฉพาะสำหรับงานคำอธิบายภาพ นอกจากนี้ MILS ยังช่วยเพิ่มความสามารถในการสร้างข้อความเป็นภาพด้วยการปรับข้อความให้ละเอียดและสามารถรวมพรอมต์ Ai-Generated เข้ากับเครื่องมือประมวลผลภาพเพื่อจัดการงานแก้ไขภาพเช่นการแปลงสไตล์

ความแม่นยำของคำอธิบายภาพเพิ่มขึ้นตามจำนวนขั้นตอนระหว่างเครื่องกำเนิดและผู้ทำประตู | รูปถ่าย: Ashutosh ฯลฯ
ความสามารถของ MILS ไม่ได้ จำกัด อยู่ที่รูปภาพ แต่ยังขยายไปถึงฟิลด์วิดีโอและเสียง เมื่อทดสอบโดยใช้ชุดข้อมูลวิดีโอ MSR-VTT MILS จะมีประสิทธิภาพสูงกว่ารุ่นที่มีอยู่ในคำอธิบายเนื้อหาวิดีโอ เนื่องจาก MILS ไม่ได้ปรับเปลี่ยนพารามิเตอร์โมเดลในระหว่างการทำงานจึงสามารถแปลงข้อมูลประเภทต่าง ๆ เป็นข้อความที่อ่านได้สนับสนุนการผสานและการแปลงข้อมูลจากหลายแหล่งเช่นรูปภาพและเสียงในรูปแบบที่ต้องการ ความเป็นไปได้
การทดสอบแสดงให้เห็นว่าการใช้เครื่องกำเนิดไฟฟ้าขนาดใหญ่และแบบจำลองการให้คะแนนสามารถสร้างผลลัพธ์ที่แม่นยำยิ่งขึ้นและการเพิ่มจำนวนของโซลูชันที่มีศักยภาพสามารถปรับปรุงประสิทธิภาพได้อย่างมีนัยสำคัญ นักวิจัยยังพบว่าการขยายไปสู่รูปแบบภาษาที่ใหญ่กว่าไม่เพียง แต่ช่วยปรับปรุงคุณภาพของผลลัพธ์ แต่ยังช่วยปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญ

ภูมิทัศน์วิวัฒนาการมาจากคำอธิบายพื้นฐานที่เรียบง่ายไปจนถึงการเป็นตัวแทนภูมิทัศน์ที่ซับซ้อนพร้อมรายละเอียดที่แม่นยำยิ่งขึ้นและองค์ประกอบที่เป็นธรรมชาติมากขึ้น | รูปถ่าย: Ashutosh ฯลฯ
กลยุทธ์ที่เป็นนวัตกรรมนี้ที่นำมาใช้โดย MILS สอดคล้องกับแนวโน้มปัจจุบันของสาขาปัญญาประดิษฐ์ที่มีต่อความสามารถในการให้เหตุผลอย่างชาญฉลาด ทีมเมตายังกล่าวอีกว่า MILS อาจแสดงศักยภาพที่ยอดเยี่ยมในอนาคตในสาขาต่าง ๆ เช่นการประมวลผลข้อมูล 3 มิติเพื่อส่งเสริมการพัฒนา AI หลายรูปแบบ
ด้วยการพัฒนาอย่างรวดเร็วของ GPT-4 ของ Openai และทางเลือกโอเพ่นซอร์สอื่น ๆ เช่น Meta's Llama 3.2, Pixtral ของ Mistral และ Janus Pro ของ Deepseek ระบบ AI ที่เกิดขึ้นใหม่เหล่านี้กำลังเร่งการใช้งานของพวกเขาเพื่อชีวิตประจำวัน การพัฒนาปัญญาประดิษฐ์