Recentemente, o Google lançou um novo modelo de linguagem de visão (VLM) chamado Paligemma2Mix, uma inovação que marca um grande avanço na tecnologia de inteligência artificial no campo do processamento de imagem e texto. O Paligemma2MIX pode não apenas processar informações visuais e entradas de texto ao mesmo tempo, mas também gerar saídas correspondentes de acordo com os requisitos, fornecendo um poderoso suporte técnico para multitarefa.
O Paligemma2mix possui funções extremamente abrangentes, cobrindo uma variedade de tarefas de linguagem visual, como descrição da imagem, reconhecimento de caracteres ópticos (OCR), pergunta e resposta da imagem, detecção de objetos e segmentação de imagem. Se desenvolvedores ou pesquisadores podem usar o modelo diretamente por meio de pontos de verificação pré-treinamento ou ajustar as necessidades específicas, para atender às necessidades de diferentes cenários de aplicação.

Como uma versão otimizada do Paligemma2, o Paligemma2MIX foi especialmente ajustado para tarefas híbridas, com o objetivo de fornecer aos desenvolvedores uma experiência de exploração mais conveniente. O modelo fornece três escalas de parâmetros, incluindo 3b (3 bilhões de parâmetros), 10b (10 bilhões de parâmetros) e 28b (28 bilhões de parâmetros) e suporta duas resoluções: 224px e 448px, que podem se adaptar flexivelmente a diferentes recursos de computação e requisitos de tarefas.
Os principais destaques funcionais do paligemma2mix incluem descrição da imagem, reconhecimento de caracteres óptico (OCR), pergunta e resposta da imagem e detecção de objetos. Em termos de descrição da imagem, o modelo é capaz de gerar descrições detalhadas ou longas, como identificar uma imagem de uma vaca em pé na praia e fornecer descrições ricas. Em termos de OCR, ele pode extrair texto de imagens, identificar logotipos, etiquetas e documentar o conteúdo, proporcionando grande conveniência para extração de informações. Além disso, os usuários também podem fazer upload de fotos e fazer perguntas. O modelo analisará as imagens e fornecerá respostas precisas e também pode identificar objetos específicos na imagem, como animais, veículos, etc.
Vale ressaltar que os desenvolvedores podem baixar os pesos mistos do paligemma2mix através do kaggle e abraçar as plataformas de rosto para facilitar outras experiências e desenvolvimento. Se você estiver interessado neste modelo, pode explorar através da plataforma de demonstração do Hugging Face para obter informações sobre seus poderosos recursos e potencial de aplicação.
Com o lançamento do Paligemma2Mix, a pesquisa do Google no campo dos modelos de linguagem da visão deu outro passo importante. Esse modelo não apenas demonstra o enorme potencial da tecnologia de inteligência artificial, mas também oferece mais possibilidades para futuras aplicações práticas. Estamos ansiosos para que essa tecnologia seja capaz de mostrar seu valor em mais campos e promover o desenvolvimento adicional da tecnologia de inteligência artificial.
Relatório Técnico: https://arxiv.org/abs/2412.03555