Ali Qwen2-72B führt die HELM-Liste an: Die Leistung übertrifft Llama3-70B

Autor：Eve Cole Aktualisierungszeit：2025-02-23 23:00:03

Kürzlich veröffentlichte die Stanford University die neuesten Ergebnisse der HELM MMLU-Bewertungsliste für große Modelle, die in der Branche große Aufmerksamkeit erregt hat. Mit ihren strengen Bewertungsstandards und dem transparenten Bewertungsprozess bietet diese Liste eine zuverlässige Referenz für die Leistungsbewertung großer Modelle. Die Ergebnisse der Liste zeigen, dass Alibabas Tongyi Qianwen Qwen2-72B-Modell unter vielen Modellen herausragt und beeindruckende Ergebnisse erzielt hat, was den erheblichen Fortschritt der chinesischen Großmodelltechnologie demonstriert.

Kürzlich veröffentlichte die große Modellbewertungsliste HELM MMLU der Stanford University die neuesten Ergebnisse. Percy Liang, Direktor des Basic Model Research Center an der Stanford University, veröffentlichte einen Artikel, in dem er darauf hinwies, dass Alibabas Tongyi Qianwen Qwen2-72B-Modell Llama3-70B in der Rangliste übertraf und zum leistungsstärksten Open-Source-Großmodell wurde. MMLU (Massive Multitask Language Understanding) ist einer der einflussreichsten Benchmarks für die Bewertung großer Modelle in der Branche. Es umfasst 57 Aufgaben, darunter grundlegende Mathematik, Informatik, Jura, Geschichte usw., und ist darauf ausgelegt, Weltwissen und Problemlösungsfähigkeiten in großen Modellen zu testen. Bei der tatsächlichen Bewertung mangelt es den Ergebnissen verschiedener Modelle jedoch häufig an Konsistenz und Vergleichbarkeit. Dies ist hauptsächlich auf die Verwendung nicht standardmäßiger Prompt-Word-Technologie und die fehlende einheitliche Einführung von Open-Source-Bewertungsframeworks zurückzuführen.

QQ截图20240620111950.png

HELM (A holistic Framework for evaluating Foundation Models), vorgeschlagen vom Center for Research on Foundation Models (CRFM) der Stanford University, hat sich zum Ziel gesetzt, eine transparente und reproduzierbare Bewertungsmethode zu schaffen. Das HELM-Framework standardisiert und macht die Bewertungsergebnisse verschiedener MMLU-Modelle transparent und löst so Probleme bestehender MMLU-Bewertungen. Verwenden Sie beispielsweise für alle teilnehmenden Modelle die gleichen Aufforderungswörter und stellen Sie den Modellen für situatives Lernen die gleichen 5 Beispiele zu jedem Testthema zur Verfügung. Percy Liang, Direktor des Fundamental Model Research Center an der Stanford University, hat kürzlich die neueste HELM MMLU-Liste auf sozialen Plattformen veröffentlicht. Die Liste zeigt, dass Alibabas Tongyi Qianwen Open-Source-Modell Qwen2-72B den fünften Platz belegt, nur hinter Claude3Opus, GPT-4o, Gemini1.5pro und GPT-4. Es ist das am höchsten bewertete Open-Source-Großmodell und weist auch die beste Leistung auf. des chinesischen großen Modells. Die Tongyi Qianwen Qwen2-Serie wurde Anfang Juni 2024 als Open-Source-Version veröffentlicht und enthält 5 Vorschulungs- und Anleitungs-Feinabstimmungsmodelle unterschiedlicher Größe. Bisher wurden die Modelle der Qwen-Serie mehr als 16 Millionen Mal heruntergeladen, was ihre große Anerkennung und starke Leistung in der Branche beweist. Die neuesten Evaluierungsergebnisse von HELM MMLU belegen nicht nur die herausragende Leistung von Qwen2-72B beim Multitasking-Sprachverständnis, sondern markieren auch den Aufstieg von Chinas großen Modellen im globalen Wettbewerb um KI-Technologie. Angesichts der kontinuierlichen Weiterentwicklung der Technologie freuen wir uns darauf, in Zukunft weitere herausragende Großmodelle aus China auf der internationalen Bühne zu sehen.

Die herausragende Leistung von Qwen2-72B spiegelt nicht nur Alibabas starke technische Stärke im Bereich KI wider, sondern verleiht auch der Entwicklung großer Modelle in China starke Impulse. Ich glaube, dass in Zukunft noch mehr große chinesische Models ihre herausragende Stärke auf der internationalen Bühne zeigen werden.