สถาบันวิจัยปัญญาประดิษฐ์ Beijing Zhiyuan ได้เปิดตัว Emu3 โมเดลโลกหลายรูปแบบโดยธรรมชาติ ซึ่งแสดงให้เห็นประสิทธิภาพที่น่าประทับใจในด้านการสร้างรูปภาพ วิดีโอ และข้อความ ซึ่งเหนือกว่าโมเดลโอเพ่นซอร์สที่มีอยู่มากมาย ด้วยเทคโนโลยีการคาดการณ์โทเค็นถัดไปที่ไม่เหมือนใคร Emu3 สามารถทำงาน Any-to-Any ได้โดยไม่ต้องอาศัยแบบจำลองการแพร่กระจายหรือวิธีการผสมผสาน ทำให้เกิดกระบวนทัศน์ใหม่สำหรับการวิจัยปัญญาประดิษฐ์หลายรูปแบบ บรรณาธิการของ Downcodes จะนำคุณไปสู่ความเข้าใจเชิงลึกเกี่ยวกับนวัตกรรมของ Emu3 และทรัพยากรโอเพ่นซอร์ส
สถาบันวิจัยปัญญาประดิษฐ์ Beijing Zhiyuan ประกาศเปิดตัว Emu3 โมเดลโลกหลายรูปแบบ โมเดลนี้ใช้เทคโนโลยีการคาดการณ์โทเค็นถัดไป และสามารถเข้าใจและสร้างข้อมูลในรูปแบบต่างๆ ได้ 3 รูปแบบ ได้แก่ ข้อความ รูปภาพ และวิดีโอ โดยไม่ต้องอาศัยโมเดลการแพร่กระจายหรือวิธีการรวมกัน Emu3 เหนือกว่าโมเดลโอเพ่นซอร์สที่รู้จักกันดีที่มีอยู่ เช่น SDXL, LLaVA, OpenSora ฯลฯ โดยแสดงประสิทธิภาพที่ยอดเยี่ยมในงานต่างๆ เช่น การสร้างภาพ การสร้างวิดีโอ และการทำความเข้าใจภาษาภาพ

แกนหลักของโมเดล Emu3 คือวิชวลโทเคนไนเซอร์ที่ทรงพลัง ซึ่งจะแปลงวิดีโอและรูปภาพให้เป็นโทเคนแบบแยกซึ่งสามารถป้อนเข้าไปในโมเดลได้พร้อมกับเอาต์พุตโทเคนแบบแยกโดยโทเคนข้อความแบบข้อความ โทเค็นที่แยกออกมาตามโมเดลสามารถแปลงเป็นข้อความ รูปภาพ และวิดีโอได้ ทำให้เกิดกระบวนทัศน์การวิจัยที่เป็นหนึ่งเดียวสำหรับงาน Any-to-Any นอกจากนี้ ความยืดหยุ่นของเฟรมเวิร์กการทำนายโทเค็นถัดไปของ Emu3 ช่วยให้การปรับการตั้งค่าโดยตรง (DPO) สามารถนำไปใช้กับการสร้างการมองเห็นอัตโนมัติได้อย่างราบรื่น โดยปรับโมเดลให้สอดคล้องกับความชอบของมนุษย์

ผลการวิจัยของ Emu3 แสดงให้เห็นว่าการทำนายโทเค็นถัดไปสามารถใช้เป็นกระบวนทัศน์ที่มีประสิทธิภาพสำหรับโมเดลหลายรูปแบบ ช่วยให้สามารถเรียนรู้หลายรูปแบบในวงกว้างนอกเหนือจากภาษาของตัวเอง และบรรลุประสิทธิภาพขั้นสูงในงานหลายรูปแบบ ด้วยการผสมผสานการออกแบบหลายรูปแบบที่ซับซ้อนเข้ากับโทเค็น Emu3 ปลดล็อกศักยภาพมหาศาลสำหรับการฝึกอบรมและการอนุมานขนาดใหญ่ ความสำเร็จนี้เป็นแนวทางที่น่าหวังสำหรับการสร้าง AGI แบบหลายรูปแบบ
ปัจจุบัน เทคโนโลยีและโมเดลที่สำคัญของ Emu3 เป็นแบบโอเพ่นซอร์ส รวมถึงโมเดล Chat และโมเดลเจนเนอเรชั่นที่ประมวลผลด้วย SFT รวมถึงโค้ดการฝึกอบรม SFT ที่เกี่ยวข้อง เพื่ออำนวยความสะดวกในการวิจัยในภายหลังและการสร้างและบูรณาการชุมชน
รหัส : https://github.com/baaivision/Emu3
หน้าโครงการ : https://emu.baai.ac.cn/
โมเดล : https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f
การเปิดตัวโอเพ่นซอร์สของ Emu3 มอบทรัพยากรที่มีคุณค่าสำหรับการวิจัย AI แบบหลายรูปแบบ และเราหวังว่าจะส่งเสริมการพัฒนา AGI และสร้างความเป็นไปได้มากขึ้นในอนาคต โปรดเยี่ยมชมลิงก์ที่เกี่ยวข้องเพื่อดูข้อมูลเพิ่มเติม