Google Gemini Exp 1114 está do nada! A primeira batalha esmagou o GPT -4, e as avaliações de capacidade múltipla chegaram ao topo para chocar a indústria - artigos de IA

Autor：Eve Cole Data da Última Atualização：2025-02-06 00:16:01

A versão experimental de Gemini do Google DeepMind (EXP1114) alcançou conquistas notáveis na plataforma de chatbot arena. Mostrar. Os resultados dos testes mostram que Gemini-EXP-1114 empatou em primeiro lugar com o GPT-4-Latest nas pontuações gerais e assumiu a liderança em muitas áreas-chave, como matemática, processamento rápido complexo e escrita criativa, mostrando seu poderoso multi- habilidades. Isso marca um aumento significativo na competitividade do Google no campo de maquetes de IA.

A mais recente versão experimental do Google DeepMind (Exp1114) alcançou resultados notáveis na plataforma de chatbot arena. Após mais de uma semana de testes comunitários, dados de mais de 6.000 votos foram demonstrados cumulativamente que esse novo modelo supera seus concorrentes com uma vantagem significativa e mostra uma força incrível em várias áreas -chave.

Em termos de classificações gerais, o Gemini-EXP-1114 empatou em primeiro lugar com o GPT-4-Latest com excelentes pontuações de mais de 40 pontos, superando a versão previamente líder de previsão GPT-4. O que é ainda mais incrível é que o modelo atingiu o topo em campos principais, como matemática, avisos complexos e escrita criativa, mostrando uma força abrangente extremamente forte.

Especificamente, o progresso do Gemini-EXP-1114 é impressionante:

Do número 3 ao topo no ranking total

A avaliação da habilidade matemática aumentou de 3º para 1º

Processamento rápido complexo subiu do 4º para o 1º lugar

O desempenho da escrita criativa melhorou do 2º lugar para o 1º lugar

Recursos de processamento visual também são classificados em primeiro lugar

O nível de programação também foi melhorado de 5 para 3º

O Google AI Studio lançou oficialmente esta nova versão para os usuários a experimentarem na prática. No entanto, a comunidade também expressou preocupação com alguns problemas específicos, como se o limite de 1.000 tokens ainda existe e como lidar com problemas práticos de aplicação, como a produção de texto ultra longa.

Os analistas do setor acreditam que esse progresso inovador mostra que o investimento de longo prazo do Google no campo da IA começou a colher os resultados. Curiosamente, o modelo mantém seu quarto ranking de controle de estilo, o que pode implicar que a equipe de desenvolvimento adotou uma nova abordagem pós-treinamento em vez de fazer alterações no modelo de pré-treinamento.

Esse grande avanço também desencadeou discussões sobre a estrutura da indústria. O Openai costumava lançar novos produtos quando os concorrentes divulgaram atualizações importantes, mas desta vez o progresso do Google atraiu a atenção do setor. Algumas pessoas acreditam que isso pode anunciar a chegada de Gemini2, e a competitividade do Google no campo de grandes modelos está melhorando significativamente.

O excelente desempenho do Gemini-EXP-1114 não apenas demonstra a forte força do Google no campo da IA, mas também fornece nova inspiração para a futura direção de desenvolvimento da tecnologia de modelos grandes, que vale a pena esperar no futuro.