Baru-baru ini, tim Meta AI meluncurkan model inovatif yang disebut Video Gabungan Arsitektur Prediksi Tertanam (V-JEPA), sebuah teknologi terobosan yang dirancang untuk mendorong pengembangan lebih lanjut dari kecerdasan mesin. Manusia dilahirkan dengan kemampuan untuk memproses sinyal visual dan dapat dengan mudah mengidentifikasi objek dan pola gerak di sekitarnya. Tujuan penting dari pembelajaran mesin adalah untuk mengungkapkan prinsip -prinsip dasar pembelajaran tanpa pengawasan pada manusia. Untuk tujuan ini, para peneliti mengusulkan hipotesis utama - prinsip fitur prediktif, yang berpendapat bahwa representasi input sensorik kontinu harus dapat saling memprediksi.
Metode penelitian awal terutama menggunakan analisis fitur yang lambat dan teknik spektral untuk mempertahankan konsistensi waktu, sehingga mencegah keruntuhan representasi. Namun, teknologi modern menggabungkan pembelajaran kontras dan pemodelan masking untuk memastikan representasi dapat berkembang seiring waktu. Metode -metode ini tidak hanya fokus pada invarian waktu, tetapi juga memetakan hubungan fitur pada langkah waktu yang berbeda dengan melatih jaringan prediksi, sehingga secara signifikan meningkatkan kinerja. Terutama dalam data video, penerapan ruang-waktu menutupi lebih lanjut meningkatkan kualitas representasi pembelajaran.
Tim peneliti Meta telah mengembangkan model V-JEPA bekerja sama dengan beberapa lembaga terkenal. Model ini berfokus pada prediksi fitur dan berfokus pada pembelajaran video tanpa pengawasan. Tidak seperti metode tradisional, V-JEPA tidak bergantung pada enkoder yang terlatih, sampel negatif, rekonstruksi, atau pengawasan teks. Selama proses pelatihan, V-JEPA menggunakan dua juta video publik dan mencapai kinerja yang signifikan pada tugas atletik dan penampilan tanpa penyesuaian.
Metode pelatihan V-JEPA adalah membangun model pembelajaran yang berpusat pada objek melalui data video. Pertama, jaringan saraf mengekstraksi representasi pusat objek dari bingkai video, menangkap fitur gerakan dan penampilan. Representasi ini semakin ditingkatkan melalui pembelajaran komparatif untuk meningkatkan pemisahan objek. Selanjutnya, arsitektur berbasis transformator memproses representasi ini untuk mensimulasikan interaksi temporal antara objek. Seluruh kerangka kerja dilatih pada set data skala besar untuk mengoptimalkan akurasi rekonstruksi dan konsistensi cross-frame.
V-JEPA berkinerja sangat unggul dibandingkan dengan metode prediksi piksel, terutama dalam evaluasi pembekuan. Meskipun sedikit kurang berkembang dalam tugas klasifikasi ImageNet, setelah penyetelan, V-JEPA melampaui metode lain berdasarkan model VIT-L/16 dengan sampel pelatihan yang lebih sedikit. V-JEPA melakukan dengan sangat baik dalam tugas pemahaman dan video, lebih efisien dalam pelatihan, dan masih dapat mempertahankan akurasi pada pengaturan sampel rendah.
Studi ini menunjukkan efektivitas prediksi fitur sebagai tujuan independen dari pembelajaran video tanpa pengawasan. V-JEPA berkinerja baik dalam berbagai tugas gambar dan video dan melampaui metode representasi video sebelumnya tanpa adaptasi parameter. V-JEPA memiliki keunggulan yang signifikan dalam menangkap detail gerak halus, menunjukkan potensi besar dalam pemahaman video.
Kertas: https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video/
Blog: https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/
Poin -Poin Kunci:
Model V-JEPA adalah model pembelajaran video baru yang diluncurkan oleh Meta AI, dengan fokus pada prediksi fitur tanpa pengawasan.
Model ini tidak bergantung pada encoder pretrained tradisional dan pengawasan teks untuk belajar langsung dari data video.
V-JEPA berkinerja baik dalam tugas video dan pembelajaran sampel yang rendah, menunjukkan kemampuan pelatihan yang efisien dan kemampuan representasi yang kuat.