Récemment, l'équipe META AI a lancé un modèle innovant appelé l'architecture conjointe de prédiction intégrée (V-Jepa), une technologie révolutionnaire conçue pour stimuler le développement de l'intelligence machine. Les humains naissent avec la capacité de traiter les signaux visuels et peuvent facilement identifier les objets environnants et les modèles de mouvement. Un objectif important de l'apprentissage automatique est de révéler les principes de base de l'apprentissage non supervisé chez l'homme. À cette fin, les chercheurs ont proposé une hypothèse clé - le principe des caractéristiques prédictives, qui soutient que les représentations des entrées sensorielles continues devraient être en mesure de se prédire.
Les premières méthodes de recherche utilisent principalement l'analyse des caractéristiques lents et les techniques spectrales pour maintenir la cohérence du temps, empêchant ainsi l'effondrement de la représentation. Cependant, la technologie moderne combine l'apprentissage du contraste et la modélisation de masquage pour garantir que les représentations peuvent évoluer avec le temps. Ces méthodes se concentrent non seulement sur l'invariance du temps, mais aussi les relations de fonctionnalité de cartographie à différents pas de temps en formant des réseaux de prédiction, améliorant ainsi considérablement les performances. En particulier dans les données vidéo, l'application du masquage de l'espace-temps améliore encore la qualité des représentations d'apprentissage.
L'équipe de recherche de Meta a développé le modèle V-Jepa en collaboration avec plusieurs institutions bien connues. Ce modèle se concentre sur la prédiction des fonctionnalités et se concentre sur l'apprentissage vidéo non supervisé. Contrairement aux méthodes traditionnelles, le V-Jepa ne s'appuie pas sur des encodeurs pré-formés, des échantillons négatifs, des reconstructions ou une supervision de texte. Au cours du processus d'entraînement, V-Jepa a utilisé deux millions de vidéos publiques et a réalisé des performances significatives sur les tâches sportives et d'apparence sans réglage fin.
La méthode de formation de V-Jepa est de créer un modèle d'apprentissage centré sur l'objet via des données vidéo. Tout d'abord, le réseau neuronal extrait la représentation du centre d'objet à partir du cadre vidéo, capturant les caractéristiques de mouvement et d'apparence. Ces représentations sont encore améliorées grâce à l'apprentissage comparatif pour améliorer la séparabilité des objets. Ensuite, l'architecture basée sur le transformateur traite ces représentations pour simuler les interactions temporelles entre les objets. L'ensemble du cadre est formé sur les ensembles de données à grande échelle pour optimiser la précision de la reconstruction et la cohérence croisée.
V-Jepa fonctionne particulièrement supérieur en comparaison avec les méthodes de prédiction des pixels, en particulier dans l'évaluation de la congélation. Bien que légèrement sous-développé dans les tâches de classification ImageNet, après un réglage fin, le V-Jepa dépasse d'autres méthodes basées sur des modèles Vit-L / 16 avec moins d'échantillons d'entraînement. V-Jepa fonctionne parfaitement dans la compréhension des mouvements et les tâches vidéo, est plus efficace dans la formation et est toujours en mesure de maintenir la précision à faible échantillon.
Cette étude démontre l'efficacité de la prédiction des caractéristiques en tant qu'objectif indépendant de l'apprentissage vidéo non supervisé. V-Jepa fonctionne bien dans diverses tâches d'image et de vidéo et dépasse les méthodes de représentation vidéo précédentes sans adaptation des paramètres. V-Jepa a des avantages importants à capturer des détails de mouvement subtils, montrant son énorme potentiel dans la compréhension vidéo.
Document: https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video/
Blog: https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-videoo-joint-embedding-predictive-architecture/
Points clés:
Le modèle V-Jepa est un nouveau modèle d'apprentissage vidéo lancé par Meta AI, en se concentrant sur la prédiction des fonctionnalités non supervisées.
Le modèle ne s'appuie pas sur les encodeurs pré-entraînés traditionnels et la supervision du texte pour apprendre directement à partir des données vidéo.
V-Jepa a bien fonctionné dans les tâches vidéo et son faible apprentissage des échantillons, montrant sa capacité de formation efficace et sa forte capacité de représentation.