2025年3月3日、Tongyi Lingmaは、最新の推論モデルであるQWEN2.5-MAXを公式にリリースしました。これは、開発者に強力なプログラミングと数学の機能を提供します。 QWEN2.5-MAXの発売は、プログラミングと数学の分野における人工知能技術のもう1つの大きなブレークスルーをマークします。このモデルは、20兆以上のトークンのトレーニング前のデータに基づいており、慎重に設計されたトレーニング後のスキームと組み合わせて、パフォーマンスの新たな高みになります。
QWEN2.5-MAXは、いくつかのベンチマークで特にうまく機能しました。たとえば、Arena-Hard、LiveBench、LiveCodebench、GPQA-Diamondなどのテストでは、QWEN2.5-MAXスコアは、DeepSeek V3、GPT-4O、Claude-3.5-Sonnetなど、業界の他の主要なモデルを上回ります。さらに、MMLU-PROおよびその他の評価では、QWEN2.5-MAXも非常に競争の激しい結果を示し、複雑なタスクでの優れた能力をさらに証明しました。

基本モデルの比較では、QWEN2.5-MAXは、DeepSeek V3、LlAMA-3.1-405B、およびQWEN2.5-72Bと包括的に比較されました。結果は、Tongyi Qianwenの基本モデルがほとんどのベンチマークで大きな利点を示していることを示しています。特に複雑なプログラミングや数学的問題を扱う場合、QWEN2.5-MAXは特にうまく機能します。
三者ベンチマークテストプラットフォームチャットボットアリーナ、QWEN2.5-MAXがDeepSeek-V3、Open AI O1-Mini、Claude-3.5-SonnetなどのQWEN2.5-MAXが超えたモデル、1332ポイントで7位にランク付けされており、中国のノンファレンスビッグモデルのチームになりました。数学やプログラミングなどの単一項目の能力、QWEN2.5-MAXは1位、ハードプロンプトは2位にランクされています。 Chatbot Arenaの公式は、AlibabaのQWEN2.5-MAXが多くの分野、特にプログラミング、数学、ハードプロンプトなどの専門的および技術分野で強くパフォーマンスを発揮したとコメントしました。
現在、QWEN2.5-MAXはTongyi LingCodeに統合されており、ユーザーはTongyi LingCodeプラグインをダウンロードすることで強力なプログラミング機能を体験できます。この統合は、開発者により効率的なツールを提供するだけでなく、人工知能技術の適用のための新しい可能性も開きます。