De acordo com o relato oficial da equipe de modelos Doubao Big, sob a pesquisa conjunta da Universidade de Pequim Jiaotong e da Universidade de Ciência e Tecnologia da China, o modelo experimental de geração de vídeo "Videoworld" proposto pela equipe de Modelo de Doubao foi oficialmente aberta recentemente.

O maior destaque desse modelo é que ele não depende mais dos modelos de idiomas tradicionais, mas pode reconhecer e entender o mundo com base apenas em informações visuais. Essa pesquisa inovadora foi inspirada pelo conceito do professor Li Feifei de que "crianças pequenas podem entender o mundo real sem depender da linguagem" mencionadas em seu discurso no TED.
"Videoworld" realiza recursos complexos de inferência, planejamento e tomada de decisão, analisando e processando grandes quantidades de dados de vídeo. Os experimentos da equipe de pesquisa mostraram que o modelo alcançou resultados significativos com apenas 300m parâmetros. Ao contrário dos modelos existentes que dependem de dados de idioma ou tag, o Videoworld pode aprender independentemente o conhecimento, especialmente em tarefas complexas, como origami e laços de arco, que podem fornecer um método de aprendizado mais intuitivo.
Para verificar a eficácia desse modelo, a equipe de pesquisa estabeleceu dois ambientes experimentais: ir ao controle da simulação de batalha e robô. Como um jogo altamente estratégico, o GO pode avaliar efetivamente a capacidade de aprendizado e raciocínio do modelo, enquanto as tarefas do robô examinam o desempenho do modelo em controle e planejamento. Durante a fase de treinamento, o modelo estabelece gradualmente a capacidade de prever fotos futuras, assistindo a uma grande quantidade de dados de demonstração de vídeo.
Para melhorar a eficiência do aprendizado de vídeo, a equipe introduziu um potencial modelo dinâmico (LDM) projetado para comprimir alterações visuais entre quadros de vídeo para extrair informações críticas. Esse método não apenas reduz informações redundantes, mas também aprimora a eficiência de aprendizado do modelo de conhecimento complexo. Através dessa inovação, o Videoworld demonstra habilidades excelentes nas tarefas Go e robóticas, e até atinge o nível de cinco etapas profissionais.
Link em papel: https://arxiv.org/abs/2501.09781
Link de código: https://github.com/bytedance/videoworld
Página inicial do projeto: https://maverickren.github.io/videoworld.github.io
Pontos -chave:
O modelo "videoworld" pode realizar o aprendizado de conhecimento com base apenas em informações visuais e não depende de modelos de idiomas.
O modelo demonstra excelentes recursos de raciocínio e planejamento nas tarefas de simulação GO e robô.
O código e o modelo do projeto foram de origem aberta e as pessoas de todas as esferas da vida podem participar da experiência e da troca.