Nos últimos anos, grandes modelos de idiomas (LLMs) fizeram progressos inovadores no campo da inteligência artificial, especialmente em fusão multimodal. Uma equipe conjunta da Universidade de Ciência e Tecnologia de Huazhong, Bytedance e da Universidade de Hong Kong, propuseram recentemente uma estrutura inovadora de geração multimodal - Liquid, com o objetivo de resolver as limitações dos atuais modelos multimodais atuais no processamento visual. O surgimento dessa tecnologia marca o desenvolvimento adicional da inteligência artificial no campo multimodal.
Mockups multimodais tradicionais geralmente dependem de módulos de visão externos complexos, o que não apenas aumenta a complexidade do sistema, mas também limita sua escalabilidade e flexibilidade. A inovação do Liquid é que adota o VQGAN como um segmento de palavras de imagem e abandona sua dependência de componentes visuais externos. Ao codificar a imagem em tokens visuais discretos, o Liquid permite que o modelo compartilhe a lista de palavras diretamente com os tokens de texto, alcançando assim os recursos de entendimento e geração "nativos". Esse design simplifica bastante a estrutura do modelo, melhorando sua escalabilidade.
O estudo constatou que o líquido não apenas reduz significativamente os custos de treinamento, mas também revela as regras de escala de recursos multimodais e LLM. A equipe de pesquisa conduziu experimentos sobre LLMs de tamanhos diferentes (de 0,5b a 32b). Os resultados mostraram que, à medida que a escala do modelo se expandiu, a qualidade do desempenho e da geração de suas tarefas de geração visual seguiram um padrão de escala consistente com as tarefas de idioma. O que é ainda mais emocionante é que existe uma relação de facilitação bidirecional entre entendimento visual e tarefas generativas, ou seja, os dois podem obter otimização conjunta através de um espaço de representação compartilhado. Essa descoberta fornece uma base teórica importante para o design de modelos multimodais futuros.
O design do Liquid incorpora totalmente o minimalismo, tratando imagens e texto igualmente, adotando uma estrutura de processamento unificada. Durante o processo de construção, a equipe de pesquisa usou dados de texto de 30m e dados de texto de 30 milhões para estabelecer as bases para o treinamento multimodal do modelo. Os resultados experimentais finais mostram que o líquido tem um excelente desempenho na compreensão multimodal, geração de imagens e tarefas de texto simples, e a consistência semântica entre as imagens geradas e o texto é significativamente maior do que outros modelos autoregressivos. Este resultado demonstra o grande potencial do líquido em aplicações práticas.
A proposta do Liquid fornece novas idéias para o projeto arquitetônico da inteligência multimodal geral, indicando que a inteligência artificial pode inaugurar a evolução mais eficiente e flexível no futuro da fusão multimodal. O sucesso dessa tecnologia não apenas promove pesquisas no campo multimodal, mas também abre novas possibilidades para a aplicação de inteligência artificial em cenários mais práticos.
Link em papel: https://arxiv.org/pdf/2412.04332