通義靈碼上線Qwen2.5-Max推理模型- AI文章

作者：Eve Cole 更新時間：2025-05-26 06:00:03

2025年3月3日，通义灵码正式发布了其最新的推理模型Qwen2.5-Max，这一模型为开发者提供了强大的编程和数学能力支持。Qwen2.5-Max的推出标志着人工智能技术在编程和数学领域的又一次重大突破。该模型基于超过20万亿token的预训练数据，并结合了精心设计的后训练方案，使其在性能上达到了新的高度。

在多项基准测试中，Qwen2.5-Max的表现尤为突出。例如，在Arena-Hard、LiveBench、LiveCodeBench和GPQA-Diamond等测试中，Qwen2.5-Max的成绩均超越了业界其他领先模型，包括DeepSeek V3、GPT-4o和Claude-3.5-Sonnet。此外，在MMLU-Pro等评估中，Qwen2.5-Max也展现了极具竞争力的成绩，进一步证明了其在复杂任务中的卓越能力。

微信截图_20250303214041.png

在基座模型的对比中，Qwen2.5-Max与DeepSeek V3、Llama-3.1-405B以及Qwen2.5-72B等模型进行了全面比较。结果显示，通义千问的基座模型在多数基准测试中都展现出显著优势，尤其是在处理复杂编程和数学问题时，Qwen2.5-Max的表现尤为出色。

值得注意的是，三方基准测试平台Chatbot Arena公布的最新大模型盲测榜单中，Qwen2.5-Max超越了DeepSeek-V3、Open AI o1-mini和Claude-3.5-Sonnet等模型，以1332分位列全球第七名，成为中国非推理类大模型的冠军。在数学和编程等单项能力上，Qwen2.5-Max排名第一，硬提示（Hard prompts）能力排名第二。Chatbot Arena官方评价称，阿里巴巴的Qwen2.5-Max在多个领域表现强劲，尤其是在编程、数学和硬提示等专业技术领域。

目前，Qwen2.5-Max已经集成到通义灵码中，用户可以通过下载通义灵码插件来体验其强大的编程能力。这一集成不仅为开发者提供了更高效的工具，也为人工智能技术的应用开辟了新的可能性。