เมื่อเร็ว ๆ นี้ทีมวิจัยของ Microsoft ร่วมมือกับนักวิจัยจากมหาวิทยาลัยหลายแห่งเพื่อเปิดตัวโมเดล AI หลายรูปแบบที่เรียกว่า "Magma" เป้าหมายการออกแบบของรุ่นนี้คือการทำงานที่ซับซ้อนในสภาพแวดล้อมดิจิตอลและทางกายภาพโดยการรวมข้อมูลหลายประเภทเช่นรูปภาพข้อความและวิดีโอ ด้วยการพัฒนาอย่างรวดเร็วของเทคโนโลยีตัวแทน AI หลายรูปแบบได้กลายเป็นที่ใช้กันอย่างแพร่หลายมากขึ้นในหุ่นยนต์ผู้ช่วยเสมือนและการเชื่อมต่ออัตโนมัติของผู้ใช้
ระบบ AI ก่อนหน้านี้มักจะมุ่งเน้นไปที่เขตข้อมูลเดียวเช่นความเข้าใจในการมองเห็นภาษาหรือการดำเนินงานของหุ่นยนต์ทำให้ยากที่จะรวมความสามารถทั้งสองนี้เข้ากับโมเดลแบบครบวงจร แม้ว่าโมเดลที่มีอยู่จำนวนมากทำงานได้ดีในสาขาเฉพาะ แต่ก็มีความสามารถในการวางนัยทั่วไปที่ไม่ดีในสถานการณ์แอปพลิเคชันที่แตกต่างกัน ตัวอย่างเช่นโมเดล PIX2ACT และ WebGum ทำงานได้ดีในการนำทาง UI ในขณะที่ OpenVLA และ RT-2 เหมาะสำหรับการจัดการหุ่นยนต์ แต่พวกเขามักจะต้องฝึกอบรมแยกต่างหากและยากที่จะข้ามขอบเขตระหว่างสภาพแวดล้อมดิจิตอลและทางกายภาพ
การเปิดตัวโมเดล "แมกมา" นั้นมีความแม่นยำในการเอาชนะข้อ จำกัด เหล่านี้อย่างแม่นยำ มันรวมความเข้าใจหลายรูปแบบการวางตำแหน่งการกระทำและความสามารถในการวางแผนโดยการแนะนำวิธีการฝึกอบรมที่ทรงพลังเพื่อให้ตัวแทน AI ทำงานได้อย่างราบรื่นในสภาพแวดล้อมที่หลากหลาย ชุดข้อมูลการฝึกอบรมของแมกมามีตัวอย่าง 39 ล้านตัวอย่างที่ครอบคลุมรูปภาพวิดีโอและวิถีการเคลื่อนที่ของหุ่นยนต์ นอกจากนี้โมเดลยังใช้เทคโนโลยีที่เป็นนวัตกรรมสองอย่าง: Set-of-Marg (SOM) และ Trace-of-Mark (TOM) อดีตช่วยให้โมเดลสามารถทำเครื่องหมายวัตถุภาพที่สามารถดำเนินการได้ในสภาพแวดล้อม UI ในขณะที่หลังช่วยให้สามารถติดตามการเคลื่อนไหวของวัตถุเมื่อเวลาผ่านไปซึ่งจะเป็นการปรับปรุงความสามารถในการวางแผนของการกระทำในอนาคต
"แมกมา" ใช้สถาปัตยกรรมการเรียนรู้เชิงลึกขั้นสูงและเทคนิคการฝึกอบรมล่วงหน้าขนาดใหญ่เพื่อเพิ่มประสิทธิภาพการทำงานในหลายสาขา โมเดลนี้ใช้แบ็คโบน Visual Convision Convise-XXL เพื่อประมวลผลภาพและวิดีโอและรูปแบบภาษา LLAMA-3-8B มีหน้าที่ในการประมวลผลการป้อนข้อมูลข้อความ สถาปัตยกรรมนี้ช่วยให้ "แมกมา" สามารถรวมการใช้วิสัยทัศน์ภาษาและการดำเนินการอย่างมีประสิทธิภาพ หลังจากการฝึกอบรมที่ครอบคลุมโมเดลได้รับผลลัพธ์ที่ยอดเยี่ยมในหลาย ๆ งานแสดงให้เห็นถึงความเข้าใจที่หลากหลายและความสามารถในการใช้เหตุผลเชิงพื้นที่
ทางเข้าโครงการ: https://microsoft.github.io/magma/
ประเด็นสำคัญ:
โมเดลแมกมาได้รับการฝึกฝนในหลาย ๆ ตัวอย่างและมีความสามารถในการเรียนรู้ที่หลากหลาย
แบบจำลองประสบความสำเร็จในการรวมวิสัยทัศน์ภาษาและการกระทำการเอาชนะข้อ จำกัด ของโมเดล AI ที่มีอยู่
แมกมาทำงานได้ดีในหลายเกณฑ์มาตรฐานแสดงให้เห็นถึงการวางนัยทั่วไปที่แข็งแกร่งและความสามารถในการตัดสินใจและการดำเนินการที่ยอดเยี่ยม