มหาวิทยาลัย Tsinghua และ Tencent ร่วมกันเปิดตัว Oryx สถาปัตยกรรมโอเพ่นซอร์สมัลติโมดัลเต็มรูปแบบเพื่อรองรับอินพุตวิดีโอที่มีความยาวเป็นพิเศษ

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-03-07 06:25:01

ในช่วงไม่กี่ปีที่ผ่านมา โมเดลภาษาขนาดใหญ่หลายรูปแบบมีความก้าวหน้าอย่างมากในด้านปัญญาประดิษฐ์ วันนี้ บรรณาธิการของ Downcodes จะแนะนำแบบจำลองที่เรียกว่า ORYX ซึ่งได้รับการพัฒนาร่วมกันโดยนักวิจัยจากมหาวิทยาลัย Tsinghua, Tencent และ Nanyang Technological University ORYX ไม่ใช่แค่ระบบจดจำรูปภาพธรรมดาเท่านั้น แต่ยังเข้าใจความสัมพันธ์เชิงพื้นที่และมิติเวลาในรูปภาพ วิดีโอ และฉาก 3 มิติได้ และยังสามารถมองเห็นเรื่องราวเบื้องหลังเนื้อหาได้เหมือนมนุษย์อีกด้วย เรียกได้ว่าเป็น "Transformer" เลยก็ว่าได้ การประมวลผลภาพ มาดูกันดีกว่าว่าอะไรที่ทำให้ ORYX มีเอกลักษณ์เฉพาะตัว

ปัจจุบัน ด้วยการพัฒนาอย่างรวดเร็วของปัญญาประดิษฐ์ โมเดลภาษาขนาดใหญ่หลายรูปแบบที่เรียกว่า ORYX กำลังเปลี่ยนแปลงความเข้าใจของเราเกี่ยวกับความสามารถของ AI ในการเข้าใจโลกแห่งการมองเห็นไปอย่างเงียบๆ ระบบ AI นี้ได้รับการพัฒนาร่วมกันโดยนักวิจัยจากมหาวิทยาลัย Tsinghua, Tencent และมหาวิทยาลัยเทคโนโลยีนันยาง เรียกได้ว่าเป็น Transformer ในด้านการประมวลผลภาพ

ORYX หรือชื่อเต็มของ Oryx Multi-Modal Large Language Models เป็นโมเดล AI ที่ออกแบบมาเป็นพิเศษเพื่อประมวลผลความเข้าใจเชิงพื้นที่ของรูปภาพ วิดีโอ และฉาก 3 มิติ ข้อได้เปรียบหลักคือไม่เพียงแต่สามารถเข้าใจเนื้อหาภาพเช่นมนุษย์เท่านั้น แต่ยังเข้าใจความเชื่อมโยงระหว่างเนื้อหาและเรื่องราวเบื้องหลังอีกด้วย

จุดเด่นอย่างหนึ่งของระบบ AI นี้คือความสามารถในการประมวลผลอินพุตภาพทุกความละเอียด ไม่ว่าจะเป็นภาพถ่ายเก่าที่พร่ามัวหรือวิดีโอที่มีความคมชัดสูง ORYX ก็สามารถจัดการได้อย่างง่ายดาย ต้องขอบคุณโมเดล OryxViT ที่ผ่านการฝึกอบรมมาแล้ว ซึ่งสามารถแปลงรูปภาพที่มีความละเอียดต่างกันให้อยู่ในรูปแบบรวมที่ AI เข้าใจได้

สิ่งที่น่าทึ่งยิ่งกว่านั้นคือความสามารถในการบีบอัดแบบไดนามิกของ ORYX เมื่อต้องเผชิญกับอินพุตวิดีโอระยะยาว จึงสามารถบีบอัดข้อมูลอย่างชาญฉลาดและรักษาเนื้อหาหลักได้โดยไม่ผิดเพี้ยน เหมือนกับการกลั่นหนังสือเล่มหนาๆ ลงในการ์ดบันทึกย่อซึ่งไม่เพียงแต่รักษาข้อมูลหลักเท่านั้น แต่ยังช่วยปรับปรุงประสิทธิภาพการประมวลผลอย่างมากอีกด้วย

หลักการทำงานของ ORYX ขึ้นอยู่กับองค์ประกอบหลักสองประการเป็นหลัก: ตัวเข้ารหัสภาพ OryxViT และโมดูลการบีบอัดแบบไดนามิก แบบแรกมีหน้าที่รับผิดชอบในการประมวลผลอินพุตภาพที่หลากหลาย ในขณะที่แบบหลังทำให้มั่นใจได้ว่าข้อมูลที่มีความจุขนาดใหญ่ เช่น วิดีโอระยะยาว สามารถประมวลผลได้อย่างมีประสิทธิภาพ

ในการใช้งานจริง ORYX ได้แสดงศักยภาพอันน่าทึ่ง ไม่เพียงแต่สามารถเข้าใจเนื้อหาวิดีโออย่างลึกซึ้ง รวมถึงวัตถุ โครงเรื่อง และการกระทำ แต่ยังเข้าใจตำแหน่งและความสัมพันธ์ของวัตถุในพื้นที่ 3 มิติได้อย่างแม่นยำ ความสามารถในการทำความเข้าใจด้วยภาพที่ครอบคลุมนี้นำมาซึ่งความเป็นไปได้อย่างไม่จำกัดในการโต้ตอบระหว่างมนุษย์กับคอมพิวเตอร์ในอนาคต การตรวจสอบอัจฉริยะ การขับขี่อัตโนมัติ และสาขาอื่นๆ

เป็นที่น่าสังเกตว่า ORYX ทำงานได้ดีในเกณฑ์มาตรฐานภาษาภาพหลายภาษา โดยเฉพาะอย่างยิ่งในการทำความเข้าใจภาพ วิดีโอ และข้อมูล 3 มิติแบบหลายมุมมองเชิงพื้นที่และเชิงเวลา ซึ่งแสดงให้เห็นถึงข้อได้เปรียบชั้นนำ

นวัตกรรมของ ORYX ไม่เพียงแต่อยู่ที่ความสามารถในการประมวลผลอันทรงพลังเท่านั้น แต่ยังเปิดกระบวนทัศน์ใหม่สำหรับการทำความเข้าใจภาพด้วย AI อีกด้วย สามารถประมวลผลอินพุตภาพด้วยความละเอียดมาตรฐานในขณะที่ประมวลผลวิดีโอขนาดยาวได้อย่างมีประสิทธิภาพผ่านเทคโนโลยีการบีบอัดแบบไดนามิก ความยืดหยุ่นและประสิทธิภาพประเภทนี้ทำได้ยากในโมเดล AI อื่นๆ

ในขณะที่เทคโนโลยีก้าวหน้าอย่างต่อเนื่อง ORYX คาดว่าจะมีบทบาทสำคัญมากขึ้นในด้าน AI ในอนาคต มันไม่เพียงแต่ช่วยให้เครื่องจักรเข้าใจโลกแห่งการมองเห็นของเราได้ดีขึ้นเท่านั้น แต่ยังอาจให้แนวคิดใหม่ๆ สำหรับการจำลองกระบวนการรับรู้ของมนุษย์อีกด้วย

ที่อยู่กระดาษ: https://arxiv.org/pdf/2409.12961

ความสามารถหลายรูปแบบและวิธีการประมวลผลที่มีประสิทธิภาพของ ORYX ได้นำความเป็นไปได้ใหม่ๆ มาสู่วิสัยทัศน์ AI และการพัฒนาในอนาคตก็คุ้มค่ากับการรอคอย บรรณาธิการของ Downcodes เชื่อว่าในขณะที่เทคโนโลยียังคงเติบโตอย่างต่อเนื่อง ORYX จะมีบทบาทสำคัญในสาขาต่างๆ มากขึ้น และส่งเสริมความก้าวหน้าอย่างต่อเนื่องของเทคโนโลยีปัญญาประดิษฐ์