Recientemente, el equipo de Meta AI lanzó un modelo innovador llamado Video Conjunto Arquitectura de predicción integrada (V-JEPA), una tecnología innovadora diseñada para impulsar el desarrollo adicional de la inteligencia de la máquina. Los humanos nacen con la capacidad de procesar señales visuales y pueden identificar fácilmente objetos circundantes y patrones de movimiento. Un objetivo importante del aprendizaje automático es revelar los principios básicos del aprendizaje no supervisado en humanos. Con este fin, los investigadores propusieron una hipótesis clave: el principio de las características predictivas, que argumenta que las representaciones de las entradas sensoriales continuas deberían poder predecir entre sí.
Los primeros métodos de investigación utilizan principalmente análisis de características lentas y técnicas espectrales para mantener la consistencia del tiempo, evitando así el colapso de la representación. Sin embargo, la tecnología moderna combina el modelado de aprendizaje y enmascaramiento de contraste para garantizar que las representaciones puedan evolucionar con el tiempo. Estos métodos no solo se centran en la invariancia del tiempo, sino que también mapean las relaciones de características en diferentes pasos de tiempo mediante la capacitación de redes de predicción, mejorando significativamente el rendimiento. Especialmente en los datos de video, la aplicación del enmascaramiento del espacio-tiempo mejora aún más la calidad de las representaciones de aprendizaje.
El equipo de investigación de Meta ha desarrollado el modelo V-JEPA en colaboración con varias instituciones conocidas. Este modelo se centra en la predicción de características y se centra en el aprendizaje de video no supervisado. A diferencia de los métodos tradicionales, V-JEPA no depende de codificadores previamente capacitados, muestras negativas, reconstrucciones o supervisión de texto. Durante el proceso de entrenamiento, V-JEPA usó dos millones de videos públicos y logró un rendimiento significativo en las tareas deportivas y de apariencia sin ajustar.
El método de entrenamiento de V-JEPA es construir un modelo de aprendizaje centrado en el objeto a través de datos de video. Primero, la red neuronal extrae la representación del centro de objetos del marco de video, capturando las características de movimiento y apariencia. Estas representaciones se mejoran aún más a través del aprendizaje comparativo para mejorar la separabilidad de los objetos. A continuación, la arquitectura basada en transformador procesa estas representaciones para simular interacciones temporales entre objetos. Todo el marco está entrenado en conjuntos de datos a gran escala para optimizar la precisión de la reconstrucción y la consistencia del marco cruzado.
V-JEPA funciona particularmente superior en comparación con los métodos de predicción de píxeles, especialmente en la evaluación de congelación. Aunque ligeramente subdesarrollado en tareas de clasificación de Imagenet, después del ajuste fino, V-JepA supera otros métodos basados en modelos VIT-L/16 con menos muestras de entrenamiento. V-JEPA realiza una excelente comprensión de movimiento y tareas de video, es más eficiente en la capacitación y aún puede mantener la precisión en configuraciones de muestras bajas.
Este estudio demuestra la efectividad de la predicción de características como un objetivo independiente del aprendizaje de video no supervisado. V-JEPA funciona bien en varias tareas de imagen y video y supera los métodos de representación de video anteriores sin adaptación de parámetros. V-JEPA tiene ventajas significativas en la captura de detalles sutiles de movimiento, que muestra su enorme potencial en la comprensión de video.
Documento: https://ai.meta.com/research/publications/revisiting-fature-prediction-for-lelarning-visual-representations-from-video/
Blog: https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/
Puntos clave:
El modelo V-JEPA es un nuevo modelo de aprendizaje de video lanzado por Meta AI, centrado en la predicción de características no supervisada.
El modelo no se basa en codificadores tradicionales previos a la aparición y supervisión de texto para aprender directamente de los datos de video.
V-JEPA funcionó bien en tareas de video y un aprendizaje de baja muestra, mostrando su capacidad de entrenamiento eficiente y su fuerte capacidad de representación.