Kürzlich veröffentlichte die Stanford University die neuesten Ergebnisse der HELM MMLU-Bewertungsliste für große Modelle, die in der Branche große Aufmerksamkeit erregt hat. Mit ihren strengen Bewertungsstandards und dem transparenten Bewertungsprozess bietet diese Liste eine zuverlässige Referenz für die Leistungsbewertung großer Modelle. Die Ergebnisse der Liste zeigen, dass Alibabas Tongyi Qianwen Qwen2-72B-Modell unter vielen Modellen herausragt und beeindruckende Ergebnisse erzielt hat, was den erheblichen Fortschritt der chinesischen Großmodelltechnologie demonstriert.
Kürzlich veröffentlichte die große Modellbewertungsliste HELM MMLU der Stanford University die neuesten Ergebnisse. Percy Liang, Direktor des Basic Model Research Center an der Stanford University, veröffentlichte einen Artikel, in dem er darauf hinwies, dass Alibabas Tongyi Qianwen Qwen2-72B-Modell Llama3-70B in der Rangliste übertraf und zum leistungsstärksten Open-Source-Großmodell wurde. MMLU (Massive Multitask Language Understanding) ist einer der einflussreichsten Benchmarks für die Bewertung großer Modelle in der Branche. Es umfasst 57 Aufgaben, darunter grundlegende Mathematik, Informatik, Jura, Geschichte usw., und ist darauf ausgelegt, Weltwissen und Problemlösungsfähigkeiten in großen Modellen zu testen. Bei der tatsächlichen Bewertung mangelt es den Ergebnissen verschiedener Modelle jedoch häufig an Konsistenz und Vergleichbarkeit. Dies ist hauptsächlich auf die Verwendung nicht standardmäßiger Prompt-Word-Technologie und die fehlende einheitliche Einführung von Open-Source-Bewertungsframeworks zurückzuführen.

Die herausragende Leistung von Qwen2-72B spiegelt nicht nur Alibabas starke technische Stärke im Bereich KI wider, sondern verleiht auch der Entwicklung großer Modelle in China starke Impulse. Ich glaube, dass in Zukunft noch mehr große chinesische Models ihre herausragende Stärke auf der internationalen Bühne zeigen werden.