เมื่อเร็ว ๆ นี้ทีมงาน Meta AI ได้เปิดตัวโมเดลนวัตกรรมที่เรียกว่า Voint Video Embedded Prediction Architecture (V-JEPA) ซึ่งเป็นเทคโนโลยีการพัฒนาที่ออกแบบมาเพื่อขับเคลื่อนการพัฒนาต่อไปของข่าวกรองเครื่องจักร มนุษย์เกิดมาพร้อมกับความสามารถในการประมวลผลสัญญาณภาพและสามารถระบุวัตถุโดยรอบและรูปแบบการเคลื่อนไหวได้อย่างง่ายดาย เป้าหมายสำคัญของการเรียนรู้ของเครื่องคือการเปิดเผยหลักการพื้นฐานของการเรียนรู้ที่ไม่ได้รับการดูแลในมนุษย์ ด้วยเหตุนี้นักวิจัยจึงเสนอสมมติฐานที่สำคัญ - หลักการของคุณสมบัติการทำนายซึ่งระบุว่าการเป็นตัวแทนของอินพุตทางประสาทสัมผัสอย่างต่อเนื่องควรจะสามารถทำนายกันได้
วิธีการวิจัยก่อนกำหนดส่วนใหญ่ใช้การวิเคราะห์คุณสมบัติช้าและเทคนิคสเปกตรัมเพื่อรักษาความสอดคล้องของเวลาดังนั้นจึงป้องกันการล่มสลายของการเป็นตัวแทน อย่างไรก็ตามเทคโนโลยีที่ทันสมัยผสมผสานการเรียนรู้ที่แตกต่างและการสร้างแบบจำลองการปิดบังเพื่อให้แน่ใจว่าการเป็นตัวแทนสามารถพัฒนาได้ตลอดเวลา วิธีการเหล่านี้ไม่เพียง แต่มุ่งเน้นไปที่การแปรปรวนของเวลา แต่ยังแมปความสัมพันธ์ของคุณลักษณะในขั้นตอนเวลาที่แตกต่างกันโดยเครือข่ายการทำนายการฝึกอบรมซึ่งจะช่วยปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญ โดยเฉพาะอย่างยิ่งในข้อมูลวิดีโอการประยุกต์ใช้การปิดบังเวลาอวกาศช่วยเพิ่มคุณภาพของการเป็นตัวแทนการเรียนรู้
ทีมวิจัยของ Meta ได้พัฒนาโมเดล V-Jepa โดยร่วมมือกับสถาบันที่รู้จักกันดีหลายแห่ง โมเดลนี้มุ่งเน้นไปที่การทำนายคุณสมบัติและมุ่งเน้นไปที่การเรียนรู้วิดีโอที่ไม่ได้รับการดูแล V-jepa ไม่ได้พึ่งพาการเข้ารหัสที่ผ่านการฝึกอบรมมาแล้วตัวอย่างเชิงลบการสร้างใหม่หรือการกำกับดูแลข้อความ ในระหว่างกระบวนการฝึกอบรม V-Jepa ใช้วิดีโอสาธารณะสองล้านรายการและได้รับประสิทธิภาพที่สำคัญในงานกีฬาและรูปลักษณ์โดยไม่ต้องปรับแต่ง
วิธีการฝึกอบรมของ V-Jepa คือการสร้างรูปแบบการเรียนรู้ที่เน้นวัตถุเป็นศูนย์กลางผ่านข้อมูลวิดีโอ ก่อนอื่นเครือข่ายประสาทจะแยกการแสดงของศูนย์วัตถุจากเฟรมวิดีโอการจับคุณสมบัติการเคลื่อนไหวและลักษณะที่ปรากฏ การเป็นตัวแทนเหล่านี้ได้รับการปรับปรุงเพิ่มเติมผ่านการเรียนรู้เปรียบเทียบเพื่อปรับปรุงการแยกความสามารถในการแยกวัตถุ ถัดไปสถาปัตยกรรมที่ใช้หม้อแปลงจะประมวลผลการเป็นตัวแทนเหล่านี้เพื่อจำลองการโต้ตอบชั่วคราวระหว่างวัตถุ เฟรมเวิร์กทั้งหมดได้รับการฝึกฝนในชุดข้อมูลขนาดใหญ่เพื่อเพิ่มประสิทธิภาพความแม่นยำในการสร้างใหม่และความสอดคล้องข้ามเฟรม
V-jepa ทำงานได้ดีกว่าโดยเฉพาะอย่างยิ่งเมื่อเปรียบเทียบกับวิธีการทำนายพิกเซลโดยเฉพาะอย่างยิ่งในการประเมินการแช่แข็ง แม้ว่าจะด้อยพัฒนาเล็กน้อยในงานการจำแนกประเภท Imagenet หลังจากการปรับแต่งอย่างละเอียด V-Jepa นั้นมีวิธีการอื่น ๆ ตามแบบจำลอง VIT-L/16 ที่มีตัวอย่างการฝึกอบรมน้อยลง V-Jepa ดำเนินการอย่างยอดเยี่ยมในการทำความเข้าใจการเคลื่อนไหวและงานวิดีโอมีประสิทธิภาพมากขึ้นในการฝึกอบรมและยังคงสามารถรักษาความแม่นยำในการตั้งค่าตัวอย่างต่ำ
การศึกษาครั้งนี้แสดงให้เห็นถึงประสิทธิภาพของการทำนายคุณสมบัติเป็นเป้าหมายอิสระของการเรียนรู้วิดีโอที่ไม่ได้รับการดูแล V-Jepa ทำงานได้ดีในงานภาพและวิดีโอต่าง ๆ และเหนือกว่าวิธีการแสดงวิดีโอก่อนหน้าโดยไม่ต้องปรับพารามิเตอร์ V-Jepa มีข้อได้เปรียบที่สำคัญในการจับรายละเอียดการเคลื่อนไหวที่ละเอียดอ่อนแสดงให้เห็นถึงศักยภาพที่ยิ่งใหญ่ในการเข้าใจวิดีโอ
กระดาษ: https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video/
บล็อก: https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/
ประเด็นสำคัญ:
โมเดล V-Jepa เป็นรูปแบบการเรียนรู้วิดีโอใหม่ที่เปิดตัวโดย Meta AI โดยมุ่งเน้นไปที่การทำนายคุณสมบัติที่ไม่ได้รับการดูแล
แบบจำลองไม่ได้พึ่งพาตัวเข้ารหัสแบบดั้งเดิมและการกำกับดูแลข้อความเพื่อเรียนรู้โดยตรงจากข้อมูลวิดีโอ
V-Jepa ทำงานได้ดีในงานวิดีโอและการเรียนรู้ตัวอย่างต่ำแสดงความสามารถในการฝึกอบรมที่มีประสิทธิภาพและความสามารถในการเป็นตัวแทนที่แข็งแกร่ง