Em 3 de março de 2025, a Tongyi Lingma divulgou oficialmente seu mais recente modelo de inferência, QWEN2.5-MAX, que fornece aos desenvolvedores poderosos recursos de programação e matemática. O lançamento do QWEN2.5-MAX marca outro grande avanço na tecnologia de inteligência artificial nos campos de programação e matemática. O modelo é baseado em dados de pré-treinamento de mais de 20 trilhões de tokens e combinado com um esquema pós-treinamento cuidadosamente projetado, levando-o a novas alturas no desempenho.
QWEN2.5-MAX teve um desempenho particularmente bem em vários benchmarks. Por exemplo, em testes como Arena-Hard, Livebench, Livecodebench e GPQA-Diamond, QWEN2.5-MAX, superam outros modelos líderes da indústria, incluindo Deepseek V3, GPT-4O e Claude-3.5 Sonnet. Além disso, no MMLU-Pro e em outras avaliações, o QWEN2.5-MAX também mostrou resultados extremamente competitivos, provando ainda mais sua excelente capacidade em tarefas complexas.

Na comparação do modelo básico, o QWEN2.5-MAX foi comparado de forma abrangente com o Deepseek V3, LLAMA-3.1-405B e QWEN2.5-72B. Os resultados mostram que o modelo básico de Tongyi Qianwen mostra vantagens significativas na maioria dos benchmarks, especialmente ao lidar com programas complexos de programação e matemática, o QWEN2.5-MAX tem um desempenho particularmente bom.
Vale a pena notar que, na última lista de testes cegos de grandes modelos lançados pela plataforma de teste tripartite de referência Chatbot Arena, os modelos QWEN2.5-MAX superaram como Deepseek-V3, Open AI O1-Mini e Claude-3.5 Sonnet, com o ranking de bigmods no mundo com 1332 pontos, tornando-se o campeão da China-Non-Sonefless. Em termos de habilidades de itens únicos, como matemática e programação, o QWEN2.5-MAX classifica primeiro e os prompts difíceis são em segundo lugar. O oficial da Chatbot Arena comentou que o QWEN2.5-MAX do Alibaba teve um desempenho fortemente em muitos campos, especialmente em áreas profissionais e técnicas, como programação, matemática e instruções difíceis.
Atualmente, o QWEN2.5-MAX foi integrado ao Tongyi LingCode, e os usuários podem experimentar seus poderosos recursos de programação baixando o plug-in Tongyi LingCode. Essa integração não apenas fornece aos desenvolvedores ferramentas mais eficientes, mas também abre novas possibilidades para a aplicação da tecnologia de inteligência artificial.