近日,腾讯正式发布了混元大模型系列的最新版本——混元-T1。这款模型基于混元中等规模底座,经过大规模的后训练,显着提升了其推理能力,尤其是在深度思考和复杂问题解决方面表现尤为突出。自今年2月混元T1-Preview上线以来,用户已经体验到了更快、更深刻的思考过程,而此次正式版的推出,标志着该系列产品的进一步升级。

混元-T1的研发团队采用了最新的TurboS基座,这是一种行业领先的超大规模Hybrid-Transformer-Mamba MoE模型。 TurboS在处理长文本推理时展现出独特优势,有效解决了上下文丢失和长距离信息依赖的问题。此外,Mamba架构也经过专门优化,能够在保持信息捕捉能力的同时,显着减少计算资源的消耗。根据官方数据,在相同的部署条件下,混元-T1的解码速度快了两倍。

在后训练阶段,团队投入了96.7%的算力进行强化学习训练,专注于提升推理能力以及对齐人类偏好的优化。团队收集了大量的世界理科难题,涵盖数学、逻辑推理、科学及代码等领域,确保模型在各种推理任务中展现卓越的表现。训练中采用课程学习的方式,逐步提高数据难度,使模型能够更好地应对复杂的推理任务。
体验入口:https://llm.hunyuan.tencent.com/?ref=producthunt#/chat/hy-t1