最近、スタンフォード大学が HELM MMLU 大型モデル評価リストの最新結果を発表し、業界で広く注目を集めています。このリストは、厳格な評価基準と透明性のある評価プロセスにより、大規模モデルの性能評価の信頼できる参考資料となります。リストの結果によると、アリババのTongyi Qianwen Qwen2-72Bモデルは多くのモデルの中で際立っており、目覚ましい成果を上げており、中国の大型モデル技術の著しい進歩を示しています。
最近、スタンフォード大学の大規模モデル評価リスト HELM MMLU が最新の結果を発表しました。スタンフォード大学基礎モデル研究センター所長のパーシー・リャン氏は、アリババのTongyi Qianwen Qwen2-72BモデルがランキングでLlama3-70Bを上回り、最もパフォーマンスの高いオープンソースの大規模モデルになったと指摘する記事を発表した。 MMLU (Massive Multitask Language Understanding) は、業界で最も影響力のある大規模モデル評価ベンチマークの 1 つです。基本的な数学、コンピューター サイエンス、法律、歴史などを含む 57 のタスクをカバーし、大規模なモデルで世界の知識と問題解決能力をテストするように設計されています。しかし、実際の評価では、さまざまなモデルの結果に一貫性や比較可能性が欠けていることがよくあります。これは主に、非標準のプロンプト ワード テクノロジの使用と、オープンソースの評価フレームワークを統一的に採用できていないことが原因です。

Qwen2-72B の卓越したパフォーマンスは、AI 分野におけるアリババの高い技術力を反映しているだけでなく、中国における大型モデルの開発にも大きな推進力を与えています。今後はさらに中国の大型モデルが国際舞台で抜群の強さを発揮すると信じています。