Recentemente, a equipe Meta AI lançou um modelo inovador chamado Joint Video Incorpded Prediction Architecture (V-Jepa), uma tecnologia inovadora projetada para impulsionar o desenvolvimento adicional da inteligência de máquinas. Os seres humanos nascem com a capacidade de processar sinais visuais e podem identificar facilmente objetos e padrões de movimento circundantes. Um objetivo importante do aprendizado de máquina é revelar os princípios básicos da aprendizagem não supervisionada em humanos. Para esse fim, os pesquisadores propuseram uma hipótese -chave - o princípio de características preditivas, que argumenta que as representações de entradas sensoriais contínuas deveriam ser capazes de se prever.
Os métodos iniciais de pesquisa usam principalmente a análise de recursos lentos e as técnicas espectrais para manter a consistência do tempo, impedindo assim o colapso da representação. No entanto, a tecnologia moderna combina aprendizado de contraste e modelagem de mascaramento para garantir que as representações possam evoluir ao longo do tempo. Esses métodos não apenas se concentram na invariância do tempo, mas também nos relacionamentos com recursos de mapa em diferentes etapas de tempo, treinando redes de previsão, melhorando significativamente o desempenho. Especialmente nos dados de vídeo, a aplicação do mascaramento espaço-tempo melhora ainda mais a qualidade das representações de aprendizagem.
A equipe de pesquisa da Meta desenvolveu o modelo V-JEPA em colaboração com várias instituições conhecidas. Este modelo se concentra na previsão de recursos e se concentra no aprendizado de vídeo não supervisionado. Ao contrário dos métodos tradicionais, o V-JEPA não depende de codificadores pré-treinados, amostras negativas, reconstruções ou supervisão de texto. Durante o processo de treinamento, o V-Jepa usou dois milhões de vídeos públicos e alcançou um desempenho significativo nas tarefas atléticas e de aparência sem ajuste fino.
O método de treinamento do V-JEPA é criar um modelo de aprendizado centrado em objetos através de dados de vídeo. Primeiro, a rede neural extrai a representação do centro de objeto do quadro de vídeo, capturando os recursos de movimento e aparência. Essas representações são aprimoradas ainda mais através do aprendizado comparativo para melhorar a separabilidade dos objetos. Em seguida, a arquitetura baseada em transformador processa essas representações para simular interações temporais entre objetos. Toda a estrutura é treinada em conjuntos de dados em larga escala para otimizar a precisão da reconstrução e a consistência da estrutura cruzada.
O V-JEPA tem um desempenho particularmente superior em comparação com os métodos de previsão de pixels, especialmente na avaliação de congelamento. Embora levemente subdesenvolvido em tarefas de classificação do ImageNet, após o ajuste fino, o V-Jepa supera outros métodos baseados em modelos Vit-L/16 com menos amostras de treinamento. O V-JEPA tem um desempenho excelente em tarefas de compreensão e vídeo de movimento, é mais eficiente no treinamento e ainda é capaz de manter a precisão em baixas configurações de amostra.
Este estudo demonstra a eficácia da previsão de recursos como um objetivo independente do aprendizado de vídeo não supervisionado. O V-JEPA tem um bom desempenho em várias tarefas de imagem e vídeo e supera os métodos anteriores de representação de vídeo sem adaptação para parâmetros. O V-JEPA tem vantagens significativas na captura de detalhes sutis do movimento, mostrando seu enorme potencial na compreensão de vídeos.
Papel: https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video/
Blog: https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-Joint-embedding-predictive-chitecture/
Pontos -chave:
O modelo V-JEPA é um novo modelo de aprendizado de vídeo lançado pela Meta AI, com foco na previsão de recursos não supervisionados.
O modelo não depende dos codificadores tradicionais pré -criados e da supervisão de texto para aprender diretamente com os dados do vídeo.
O V-JEPA teve um bom desempenho em tarefas de vídeo e baixo aprendizado de amostra, mostrando sua capacidade de treinamento eficiente e forte capacidade de representação.