การศึกษาเมื่อเร็ว ๆ นี้นำโดย Yann Lecun หัวหน้านักวิทยาศาสตร์ของ AI ของ Meta เปิดเผยว่าปัญญาประดิษฐ์พัฒนาความเข้าใจทางฟิสิกส์ขั้นพื้นฐานอย่างไรโดยดูวิดีโอ การศึกษาที่ทำโดยนักวิทยาศาสตร์จาก Meta Fair, University of Paris และ Ehess แสดงให้เห็นว่าระบบ AI สามารถได้รับความรู้ทางฟิสิกส์ที่ใช้งานง่ายผ่านการเรียนรู้ด้วยตนเองโดยไม่มีกฎที่ตั้งไว้ล่วงหน้า

ทีมวิจัยใช้วิธีการใหม่ที่เรียกว่า Video Joint Embedded Prediction Architecture (V-JEPA) ซึ่งทำงานได้อย่างใกล้ชิดกับวิธีการประมวลผลข้อมูลของมนุษย์มนุษย์มากกว่ารุ่น AI แบบกำเนิดเช่น SORA ของ OpenAi V-Jepa ไม่ได้ติดตามการคาดการณ์พิกเซลที่สมบูรณ์แบบ แต่มุ่งเน้นไปที่การทำนายในพื้นที่แสดงนามธรรม ด้วยวิธีนี้ระบบ AI สามารถเรียนรู้แนวคิดพื้นฐานทางกายภาพ
ในการศึกษาทีมยืมวิธีการประเมิน“ การละเมิดความคาดหวัง” จากจิตวิทยาการพัฒนาซึ่งเดิมใช้เพื่อทดสอบความสามารถในการเข้าใจทางกายภาพของทารก นักวิจัยแสดงสถานการณ์ที่คล้ายคลึงกัน AI สองสถานการณ์ - หนึ่งเป็นไปได้ทางร่างกายและอื่น ๆ ที่เป็นไปไม่ได้ทางร่างกาย (เช่นลูกบอลผ่านกำแพง) และความสามารถในการทำความเข้าใจทางกายภาพของ AI สามารถประเมินได้โดยการวัดการตอบสนองต่อการละเมิดทางกายภาพเหล่านี้
V-jepa ได้รับการทดสอบในชุดข้อมูลสามชุด: Intphys (แนวคิดทางกายภาพพื้นฐาน), จับ (การโต้ตอบที่ซับซ้อน), และการขยายตัว (สภาพแวดล้อมที่สมจริง) ผลการวิจัยพบว่า V-jepa ทำงานได้ดีโดยเฉพาะอย่างยิ่งในความมั่นคงของวัตถุความต่อเนื่องและความสอดคล้องของรูปร่างในขณะที่แบบจำลองภาษาหลายรูปแบบขนาดใหญ่เช่น Gemini1.5Pro และ QWEN2-VL-72B ทำงานได้เกือบจะเทียบได้กับการเดาแบบสุ่ม
ประสิทธิภาพของการเรียนรู้ V-Jepa ก็สะดุดตาเช่นกัน ระบบสามารถควบคุมแนวคิดฟิสิกส์พื้นฐานได้เพียงแค่ดูวิดีโอ 128 ชั่วโมง ยิ่งกว่านั้นแม้แต่รุ่นเล็กที่มีพารามิเตอร์ 115 ล้านตัวก็แสดงผลลัพธ์ที่แข็งแกร่ง การวิจัยแสดงให้เห็นว่า V-Jepa สามารถระบุรูปแบบการเคลื่อนไหวได้อย่างมีประสิทธิภาพและระบุเหตุการณ์ที่ไม่สมเหตุสมผลทางร่างกายด้วยความแม่นยำสูงวางรากฐานสำหรับ AI เพื่อทำความเข้าใจอนาคตของโลกอย่างแท้จริง
การศึกษาครั้งนี้ท้าทายสมมติฐานพื้นฐานในการศึกษา AI จำนวนมากที่ระบบต้องการ“ ความรู้หลัก” ที่ตั้งไว้ล่วงหน้าเพื่อทำความเข้าใจกฎของฟิสิกส์ การค้นพบของ V-Jepa แสดงให้เห็นว่าการเรียนรู้เชิงสังเกตการณ์สามารถช่วยให้ AI ได้รับความรู้ในพื้นที่นี้คล้ายกับกระบวนการที่ทารกบิชอพและแม้แต่นกตัวเล็กเข้าใจฟิสิกส์ การวิจัยสอดคล้องกับการสำรวจสถาปัตยกรรม JEPA ระยะยาวของ Meta โดยมีวัตถุประสงค์เพื่อสร้างแบบจำลองโลกที่ครอบคลุมซึ่งช่วยให้ระบบ AI อิสระมีความเข้าใจที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับสภาพแวดล้อมของพวกเขา
การวิจัยแสดงให้เห็นว่า AI เรียนรู้ความรู้ทางฟิสิกส์ผ่านวิดีโอโดยไม่มีกฎที่ตั้งไว้ล่วงหน้า V-Jepa มีประสิทธิภาพสูงกว่าแบบจำลองภาษาขนาดใหญ่ในการทำความเข้าใจฟิสิกส์และแสดงความสามารถในการเรียนรู้ที่แข็งแกร่งขึ้น Meta ขับเคลื่อนทิศทางการพัฒนา AI ใหม่โดยมีวัตถุประสงค์เพื่อสร้างรูปแบบการทำความเข้าใจสิ่งแวดล้อมที่ครอบคลุมมากขึ้น