Ali Qwen2-72B está no topo da lista HELM: desempenho supera Llama3-70B

Autor：Eve Cole Data da Última Atualização：2025-02-23 23:00:03

Recentemente, a Universidade de Stanford divulgou os últimos resultados da lista de avaliação de grandes modelos HELM MMLU, que atraiu ampla atenção na indústria. Com seus rigorosos padrões de avaliação e processo de avaliação transparente, esta lista fornece uma referência confiável para a avaliação de desempenho de grandes modelos. Os resultados da lista mostram que o modelo Tongyi Qianwen Qwen2-72B da Alibaba se destaca entre muitos modelos e alcançou resultados impressionantes, demonstrando o progresso significativo da tecnologia de grandes modelos da China.

Recentemente, a grande lista de avaliação de modelos da Universidade de Stanford, HELM MMLU, divulgou os resultados mais recentes. Percy Liang, diretor do Centro de Pesquisa de Modelos Básicos da Universidade de Stanford, publicou um artigo apontando que o modelo Tongyi Qianwen Qwen2-72B do Alibaba ultrapassou o Llama3-70B nas classificações e se tornou o grande modelo de código aberto com melhor desempenho. MMLU (Massive Multitask Language Understanding) é um dos benchmarks de avaliação de grandes modelos mais influentes do setor. Abrange 57 tarefas, incluindo matemática básica, ciência da computação, direito, história, etc., e é projetado para testar o conhecimento mundial e as habilidades de resolução de problemas em grandes modelos. No entanto, na avaliação real, os resultados de diferentes modelos muitas vezes carecem de consistência e comparabilidade. Isto deve-se principalmente à utilização de tecnologia de palavra rápida não padronizada e à incapacidade de adoptar uniformemente quadros de avaliação de código aberto.

QQ截图20240620111950.png

HELM (Uma estrutura holística para avaliar modelos de fundação) proposta pelo Centro de Pesquisa em Modelos de Fundação (CRFM) da Universidade de Stanford está empenhada em criar um método de avaliação transparente e reprodutível. A estrutura HELM padroniza e torna transparentes os resultados da avaliação de diferentes modelos no MMLU, resolvendo problemas existentes nas avaliações MMLU existentes. Por exemplo, use as mesmas palavras de alerta para todos os modelos participantes e forneça aos modelos os mesmos 5 exemplos em cada tópico de teste para aprendizagem situacional. Percy Liang, diretor do Centro de Pesquisa de Modelos Fundamentais da Universidade de Stanford, lançou recentemente a última lista HELM MMLU em plataformas sociais. A lista mostra que o modelo de código aberto Tongyi Qianwen Qwen2-72B do Alibaba ocupa o quinto lugar, perdendo apenas para Claude3Opus, GPT-4o, Gemini1.5pro e GPT-4. É o modelo grande de código aberto com melhor classificação e também tem o melhor desempenho. do grande modelo chinês. A série Tongyi Qianwen Qwen2 foi aberta no início de junho de 2024 e contém 5 modelos de pré-treinamento e ajuste fino de instrução de diferentes tamanhos. Até agora, os modelos da série Qwen foram baixados mais de 16 milhões de vezes, mostrando seu amplo reconhecimento e poderoso desempenho na indústria. Os resultados da avaliação mais recente do HELM MMLU não apenas demonstram o excelente desempenho do Qwen2-72B na compreensão de linguagem multitarefa, mas também marcam a ascensão dos grandes modelos da China na competição global de tecnologia de IA. Com o avanço contínuo da tecnologia, esperamos ver mais modelos de grande porte da China se exibirem no cenário internacional no futuro.

O excelente desempenho do Qwen2-72B não reflete apenas a forte força técnica do Alibaba no campo da IA, mas também injeta um forte impulso no desenvolvimento de grandes modelos na China. Acredito que, no futuro, mais grandes modelos chineses mostrarão a sua notável força no cenário internacional.