Em um lançamento recente, o CEO do Google, Sundar Pichai, anunciou um grande avanço: o Google abre seu mais recente Mockup multimodal Gemma-3. Com seu baixo custo e alto desempenho, esse modelo rapidamente se tornou o foco da indústria de tecnologia. O lançamento do Gemma-3 marca outro progresso importante do Google no campo da inteligência artificial, especialmente no processamento multimodal e no processamento de contexto longo.
A GEMMA-3 fornece quatro opções para diferentes escalas de parâmetros, ou seja, 1 bilhão, 4 bilhões, 12 bilhões e 27 bilhões de parâmetros. Entre eles, um modelo com um parâmetro de 27 bilhões requer apenas uma placa de gráfico H100 para fazer inferência eficiente, e esse requisito de energia de computação é apenas um décimo do de modelos semelhantes. Esse avanço faz do Gemma-3 um dos modelos de alto desempenho com os menores requisitos de energia de computação, reduzindo bastante o limite para uso.
De acordo com os dados mais recentes do teste, o Gemma-3 tem um desempenho muito bom em vários modelos de conversação, perdendo apenas o conhecido modelo Deepseek, superando os múltiplos modelos populares do OpenAI, como O3-mini e Llama3. A arquitetura Gemma-3 continua o design do transformador de decodificador de uso geral das duas gerações anteriores, mas realizou várias inovações e otimizações nessa base. Para resolver o problema de memória causado por contextos longos, a Gemma-3 adota uma arquitetura de intercalação de camadas de auto-distribuição local e global, o que reduz significativamente o uso da memória.
Em termos de recursos de processamento de contexto, o comprimento do contexto suportado pelo GEMMA-3 é estendido a 128ktoken, fornecendo um melhor suporte para o processamento de texto longo. Além disso, a Gemma-3 também possui recursos multimodais, pode processar texto e imagens ao mesmo tempo e integra um codificador de visão baseado em VisionTransformer, reduzindo efetivamente o custo computacional do processamento de imagens. Esses recursos fazem do Gemma-3 ter um bom desempenho em tarefas complexas.
Durante o processo de treinamento, a GEMMA-3 usou mais orçamentos de token, especialmente os volumes de token 14T no modelo de 27 bilhões de parâmetros, e introduziu dados multilíngues para aprimorar os recursos de processamento de linguagem do modelo. O GEMMA-3 suporta 140 idiomas, dos quais 35 podem ser usados diretamente. Através da tecnologia avançada de destilação de conhecimento, o Gemma-3 otimiza o desempenho do modelo por meio do aprendizado de reforço mais tarde no período de treinamento, especialmente em termos de ajuda, capacidade de raciocínio e capacidade multilíngue.
Após a avaliação, o GEMMA-3 teve um bom desempenho em tarefas multimodais, e seus recursos longos de processamento de texto foram impressionantes, alcançando uma precisão de 66%. Além disso, o desempenho da Gemma-3 também está entre os principais na avaliação da capacidade de diálogo, mostrando sua força abrangente em várias tarefas. Esses resultados fazem de Gemma-3 um dos modelos multimodais mais populares.
O endereço de código aberto do gemma-3 é: https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d. Esta iniciativa de código aberto promoverá ainda mais o desenvolvimento da tecnologia de inteligência artificial e fornecerá a pesquisadores e desenvolvedores ferramentas e recursos poderosos.
Pontos-chave: Gemma-3 é o mais recente modelo multimodal de código aberto do Google, com parâmetros variando de 1 bilhão a 27 bilhões, e a demanda de energia da computação é reduzida em 10 vezes. O modelo adota um projeto arquitetônico inovador para processar efetivamente dados de contexto longo e multimodais, apoiando o processamento simultâneo de texto e imagens. A GEMMA-3 suporta recursos de processamento em 140 idiomas. Após o treinamento e a otimização, ele tem um desempenho excelentemente em várias tarefas e demonstra fortes capacidades abrangentes.