Apple และสถาบันเทคโนโลยีแห่งชาติสวิส (EPFL) ได้เปิดตัวโมเดลวิสัยทัศน์หลายรูปแบบโอเพนซอร์สที่เรียกว่า 4M-21 ด้วยความเก่งกาจและความยืดหยุ่นที่ยอดเยี่ยมรุ่น 4M-21 ได้กลายเป็นดาวดวงใหม่ในด้านการเรียนรู้หลายรูปแบบ แม้ว่ามาตราส่วนพารามิเตอร์ของมันมีเพียง 3 พันล้าน แต่มีขนาดเล็กกว่ารุ่นใหญ่บางรุ่น แต่ก็สามารถแสดงความเป็นเลิศในงานหลายสิบรายการเช่นการจำแนกภาพการตรวจจับวัตถุการแบ่งส่วนความหมายการแบ่งส่วนอินสแตนซ์การประมาณความลึกพื้นผิวการประเมินปกติ ฯลฯ ประสิทธิภาพ
นวัตกรรมหลักของโมเดล 4M-21 อยู่ในเทคโนโลยีการแปลง "ไม่ต่อเนื่อง" เทคโนโลยีนี้สามารถแปลงข้อมูลจากโหมดที่แตกต่างกันเช่นภาพแผนที่คุณลักษณะโครงข่ายประสาท, เวกเตอร์, ข้อมูลที่มีโครงสร้างและข้อความเป็นลำดับโทเค็นที่เป็นที่เข้าใจได้โดยโมเดล การเปลี่ยนแปลงนี้ไม่เพียง แต่ทำให้กระบวนการฝึกอบรมของแบบจำลองง่ายขึ้น แต่ยังให้รากฐานที่มั่นคงสำหรับการหลอมรวมและการประมวลผลของข้อมูลหลายรูปแบบ ด้วยเทคโนโลยีนี้ 4M-21 สามารถประมวลผลข้อมูลหลายชนิดได้อย่างมีประสิทธิภาพดังนั้นแสดงให้เห็นถึงความสามารถที่ทรงพลังในการเรียนรู้แบบหลายรูปแบบ

ในระหว่างกระบวนการฝึกอบรม 4M-21 ใช้วิธีการสร้างแบบจำลองหน้ากาก วิธีนี้บังคับให้โมเดลเรียนรู้โครงสร้างทางสถิติและความสัมพันธ์ที่อาจเกิดขึ้นของข้อมูลอินพุตโดยการสุ่มส่วนหนึ่งของโทเค็นในลำดับอินพุตและทำนายชิ้นส่วนที่ถูกบดบังขึ้นอยู่กับโทเค็นที่เหลือ การสร้างแบบจำลองหน้ากากไม่เพียง แต่ช่วยเพิ่มความสามารถในการวางนัยทั่วไปของแบบจำลองเท่านั้น แต่ยังช่วยเพิ่มความแม่นยำในงานการสร้างอย่างมีนัยสำคัญ การประยุกต์ใช้วิธีนี้ช่วยให้ 4M-21 สามารถจับภาพข้อมูลทั่วไปและการมีปฏิสัมพันธ์ระหว่างโหมดต่าง ๆ ในการเรียนรู้แบบหลายรูปแบบ
นักวิจัยทำการประเมินอย่างกว้างขวางของ 4M-21 ซึ่งครอบคลุมงานหลายอย่างเช่นการจำแนกภาพการตรวจจับวัตถุการแบ่งส่วนความหมายการแบ่งส่วนอินสแตนซ์การประมาณความลึกการประมาณค่าพื้นผิวปกติและการประมาณท่าทางมนุษย์ 3 มิติ ผลการประเมินแสดงให้เห็นว่า 4M-21 ดำเนินการในงานเหล่านี้เทียบได้กับโมเดลที่ทันสมัยในปัจจุบันและเกินกว่าเทคโนโลยีที่มีอยู่ในงานบางอย่าง สิ่งนี้แสดงให้เห็นถึงความสามารถที่โดดเด่นของ 4M-21 ในการประมวลผลแบบหลายรูปแบบ
ประเด็นสำคัญ:
- Apple และสถาบันเทคโนโลยีแห่งสหพันธรัฐ Lausanne ประเทศสวิตเซอร์แลนด์เปิดตัวโมเดล 4M-21 ซึ่งได้กลายเป็นความสำเร็จที่สำคัญในด้านการเรียนรู้หลายรูปแบบด้วยความหลากหลายและความยืดหยุ่นในวงกว้าง
- 4M-21 สามารถทำงานได้ดีในงานหลายสิบรายการเช่นการจำแนกภาพการตรวจจับวัตถุการแบ่งส่วนความหมายการแบ่งส่วนอินสแตนซ์การประมาณความลึกการประมาณค่าพื้นผิวปกติ ฯลฯ
- เทคโนโลยีหลักของ 4M-21 คือการแปลง "ไม่ต่อเนื่องโทเค็น" ซึ่งสามารถแปลงข้อมูลจากหลายรังสีเป็นลำดับโทเค็นที่เป็นโทเค็นที่เข้าใจได้