阿里巴巴旗下的Qwen团队近日发布了其最新开源大型语言模型(LLM)家族成员——QwQ-32B。这款拥有320亿参数的推理模型,通过强化学习(RL)技术,显着提升了在复杂问题解决任务中的表现。 QwQ-32B的推出标志着阿里巴巴在人工智能领域的进一步突破,尤其是在推理模型的应用与优化方面。
QwQ-32B已在Hugging Face和ModelScope平台上以Apache2.0许可证开源,这意味着它不仅可供研究使用,还可用于商业目的。企业可以直接将该模型集成到其产品或服务中,包括那些收费的应用。此外,个人用户也可以通过Qwen Chat访问该模型,享受其强大的推理能力。
QwQ,全称Qwen-with-Questions,是阿里巴巴于2024年11月首次推出的开源推理模型,旨在与OpenAI的o1-preview竞争。该模型通过在推理过程中自我审查和改进答案,显着增强了逻辑推理和规划能力,尤其在数学和编码任务中表现出色。 QwQ-32B的推出进一步巩固了阿里巴巴在这一领域的领先地位。
早期的QwQ模型在数学基准测试(如AIME和MATH)以及科学推理任务(如GPQA)中已超越了OpenAI的o1-preview。然而,在编程基准测试(如LiveCodeBench)中,其表现相对较弱,且存在语言混合和循环论证等问题。尽管如此,阿里巴巴选择以Apache2.0许可证发布该模型,使其与OpenAI的专有方案区分开来,允许开发者和企业自由地进行适配和商业化。

随着人工智能领域的发展,传统LLM的局限性逐渐显现,大规模扩展带来的性能提升也开始减缓。这推动了对大型推理模型(LRM)的兴趣,LRM通过推理时推理和自我反思来提高准确性。 QwQ-32B通过整合强化学习和结构化自我提问,进一步提升了性能,成为推理AI领域的重要竞争者。
QwQ-32B在基准测试中与DeepSeek-R1、o1-mini等领先模型展开竞争,并在参数量小于部分竞品的情况下取得了有竞争力的结果。例如,DeepSeek-R1拥有6710亿参数,而QwQ-32B在性能相当的情况下,显存需求更小,通常在GPU上仅需24GB vRAM,而运行完整的DeepSeek R1则需要超过1500GB vRAM。

QwQ-32B采用了因果语言模型架构,并进行了多项优化,包括64个Transformer层、RoPE、SwiGLU、RMSNorm和Attention QKV bias。它还采用了广义查询注意力(GQA),拥有131,072 tokens的扩展上下文长度,并经历了包括预训练、监督微调和强化学习在内的多阶段训练。
QwQ-32B的强化学习过程分为两个阶段:第一阶段专注于数学和编码能力,利用准确性验证器和代码执行服务器进行训练;第二阶段则通过通用奖励模型和基于规则的验证器进行奖励训练,以提高指令跟随、人类对齐和代理推理能力,同时不影响其数学和编码能力。
此外,QwQ-32B还具备agentic capabilities,能够根据环境反馈动态调整推理过程。 Qwen团队建议使用特定的推理设置以获得最佳性能,并支持使用vLLM进行部署。
Qwen团队将QwQ-32B视为通过扩展强化学习增强推理能力的第一步,未来计划进一步探索扩展强化学习、整合代理与强化学习以实现长期推理,并持续开发为强化学习优化的基础模型,最终迈向通用人工智能(AGI)。
模型:https://qwenlm.github.io/blog/qwq-32b/