Instituto de Pesquisa Zhiyuan lança Emu2: uma nova geração de modelo básico multimodal generativo

Autor：Eve Cole Data da Última Atualização：2025-01-17 09:16:02

O Instituto de Pesquisa Zhiyuan lançou recentemente uma nova geração do modelo básico multimodal Emu2, que fez avanços significativos nas capacidades de aprendizagem de contexto multimodal. Por meio do pré-treinamento multimodal generativo autorregressivo em grande escala, o Emu2 tem um bom desempenho em tarefas de compreensão multimodal de poucas amostras, superando os modelos convencionais, como Flamingo-80B e IDEFICS-80B, e tem um bom desempenho em várias tarefas de compreensão de poucas amostras, resposta visual a perguntas e obtenção de desempenho ideal em tarefas de geração de imagens. Emu2 contém dois aplicativos principais: Emu2-Chat e Emu2-Gen, que se concentram na compreensão de instruções de imagem e texto e na geração de imagem/vídeo, respectivamente.

O Zhiyuan Research Institute lançou uma nova geração do modelo básico multimodal Emu2, que promove significativamente avanços nas capacidades de aprendizagem de contexto multimodal por meio de pré-treinamento multimodal generativo autorregressivo em grande escala. O Emu2 tem um bom desempenho em tarefas de compreensão multimodal de poucas amostras, superando os principais modelos multimodais pré-treinados Flamingo-80B e IDEFICS-80B. O Emu2 alcançou desempenho ideal em múltiplas tarefas de compreensão de poucas fotos, resposta visual a perguntas e geração de imagens. O Emu2-Chat pode compreender com precisão instruções gráficas e de texto para obter melhor percepção da informação, compreensão da intenção e planejamento da tomada de decisões. Emu2-Gen pode aceitar imagens, texto e sequências de posição intercaladas como entrada para obter geração de imagem e vídeo flexível, controlável e de alta qualidade. Emu2 adota uma estrutura de modelagem mais simples e dimensiona o modelo para parâmetros de 37B. Para obter detalhes, consulte o link do projeto divulgado pelo Zhiyuan Research Institute.

Com seu desempenho poderoso e estrutura concisa, o Emu2 demonstra os mais recentes progressos no campo da inteligência artificial multimodal e fornece uma base sólida para o desenvolvimento de futuras aplicações multimodais. Vale a pena esperar pela inovação contínua do Instituto de Pesquisa Zhiyuan.