Pesquisadores da Universidade Chinesa de Hong Kong e da SmartMore desenvolveram em conjunto uma estrutura inovadora de modelo de linguagem visual (VLM) chamada Mini-Gemini. Esta estrutura alcança excelentes resultados além dos modelos existentes em vários benchmarks zero-shot por meio de um sistema de codificador duplo e tecnologia de mineração de informações de patch. Mini-Gemini demonstra alta eficiência e alta precisão no processamento de tarefas visuais e de texto complexas, indicando que a tecnologia VLM fez progressos significativos no processamento de tarefas complexas e também fornece uma nova direção para o desenvolvimento futuro do campo de IA. Sua arquitetura eficiente e desempenho poderoso fazem dele um marco importante no campo VLM.
Pesquisadores da Universidade Chinesa de Hong Kong e SmartMore introduziram uma nova estrutura chamada Mini-Gemini para avançar no desenvolvimento de VLMs por meio de um sistema de codificador duplo e tecnologia de mineração de informações de patch. O Mini-Gemini tem um bom desempenho em vários benchmarks zero-shot, superando os modelos existentes. Esta estrutura adota um sistema de codificador duplo, mineração de informações de patches e conjuntos de dados de alta qualidade para promover o desenvolvimento de VLMs. Mini-Gemini demonstra eficiência e precisão no manuseio de tarefas visuais e textuais complexas. O escopo de aplicação e o desempenho do modelo Gemini estão em constante expansão, mostrando grande potencial na área de IA.
O surgimento da estrutura Mini-Gemini marca um novo avanço na tecnologia de modelos de linguagem visual. A sua arquitetura eficiente e excelente desempenho em testes de benchmark estabeleceram uma base sólida para a aplicação futura do VLM em mais campos e também proporcionaram um novo impulso para o desenvolvimento contínuo da tecnologia de inteligência artificial. Acredita-se que o Mini-Gemini e suas versões melhoradas subsequentes desempenharão um papel importante em aplicações mais práticas no futuro.