Kürzlich veröffentlichte das Bytedance Doulbao Big Model Team und die Map Open Source Community gemeinsam Supergpqa, ein Benchmark-Test für Wissensbekenntnisse, der 285 Disziplinen auf Graduiertenebene und 26.529 professionelle Fragen abdeckt. Dieser innovative Datensatz deckt nicht nur Mainstream-Disziplinen wie Mathematik und Physik ab, sondern umfasst auch Langzeitdisziplinen wie leichte Industrie, Landwirtschaft und Servicewissenschaft in das Evaluierungssystem, wodurch die Lücke in bestehenden Benchmark-Tests im Bereich Langzeitgeschwindigkeitskenntnisse füllt.
Der Start von Supergpqa ist ein wichtiger Meilenstein im Bereich der KI. Dieser Datensatz wurde in einem halben Jahr über den Experten-LLM-Zusammenarbeit Mechanismus errichtet, um Probleme aus maßgeblichen Quellen zu untersuchen. Die Fragen bieten durchschnittlich 9,67 Optionen, und 42,33% von ihnen erfordern mathematische Berechnungen oder formale Argumentation, sowohl Breite als auch Tiefe. Experimente zeigen, dass die Genauigkeit des optimalen Modells Deepseek-R1 nur 61,82%beträgt, was darauf hinweist, dass das aktuelle Großsprachmodell noch Raum für Verbesserungen in den verschiedenen Wissensfeldern hat.
Herkömmliche Benchmarks wie MMLU und GPQA decken weniger als 50 Disziplinen ab, während Langschwanz-Disziplinen weniger als 5%ausmachen. Aufgrund der einzelnen Datenquelle (z. B. Wikipedia) und unzuverlässiger Crowdsourcing -Annotation ist es schwierig, die Inferenzfähigkeit des Modells in komplexen Szenarien zu messen. SupergPQA verbessert die Qualität durch dreistufige Prozesse: Experten-Screening von Originalproblemen, standardisierter Transkription, Mehrschichtqualitätsinspektion (Regelfilterung, LLM-Test, Expertenüberprüfung). Die Bewertungsergebnisse zeigen, dass die Feinabstimmung der Anweisungen die Leistung erheblich verbessert, wie beispielsweise Deepseek-V3-Scores die Grundversion überschreiten, aber das Open-Source-Modell bleibt in schwierigen Problemen immer noch hinter geschlossenen Quellenlösungen zurück.
SupergPQA wurde verwendet, um die Leistungslücke zwischen Open Source- und Closed Source -Modellen aufzudecken, und ist zu einem wichtigen Instrument für die Entwicklung von KI geworden. Die Veröffentlichung dieses Benchmark -Tests liefert nicht nur neue Bewertungsstandards für die KI -Forschung, sondern weist auch die Richtung für die zukünftige Modelloptimierung und Verbesserung der Fähigkeiten zur Wissensbekämpfung auf.
Papierlink: https://arxiv.org/pdf/2502.14739
Datenlink: https://huggingface.co/datasets/map/supergpqa
Code -Link: https://github.com/supergpqa/supergpqa