최근 Bytedance Doubao Big Model Team과 MAP 오픈 소스 커뮤니티는 공동으로 285 개의 대학원 수준 분야와 26,529 개의 전문적인 질문을 다루는 지식 추론 벤치 마크 테스트 인 SuperGPQA를 공동으로 발표했습니다. 이 혁신적인 데이터 세트는 수학 및 물리학과 같은 주류 분야를 다룰뿐만 아니라 광 산업, 농업 및 서비스 과학과 같은 장거리 분야를 처음으로 평가 시스템으로 포함하여 장거리 지식 분야의 기존 벤치 마크 테스트의 격차를 메 웁니다.
SuperGPQA의 출시는 AI 분야에서 중요한 이정표를 표시합니다. 이 데이터 세트는 Expert-LLM 협업 메커니즘을 통해 반년 안에 제작하여 권위있는 출처의 문제를 스크리닝했습니다. 그것의 질문은 평균 9.67 옵션을 제공하며, 그 중 42.33%는 폭과 깊이 모두 수학적 계산 또는 공식 추론이 필요합니다. 실험에 따르면 최적의 모델 DeepSeek-R1의 정확도는 61.82%에 불과하며, 현재 대형 언어 모델은 여전히 다양한 지식 분야의 개선의 여지가 있음을 나타냅니다.
MMLU 및 GPQA와 같은 전통적인 벤치 마크는 50 개 분야 미만의 분야를 보장하는 반면, 긴 테일 분야는 5%미만을 차지합니다. 단일 데이터 소스 (예 : Wikipedia)와 신뢰할 수없는 크라우드 소싱 주석으로 인해 복잡한 시나리오에서 모델의 추론 능력을 측정하기가 어렵습니다. SuperGPQA는 3 단계 프로세스를 통해 품질을 향상시킵니다. 원래 문제의 전문가 스크리닝, 표준화 된 전사, 다층 품질 검사 (규칙 필터링, LLM 테스트, 전문가 검토). 평가 결과에 따르면 DeepSeek-V3 점수가 기본 버전을 초과하는 것과 같은 명령 미세 조정이 성능을 크게 향상시킬 수 있지만 오픈 소스 모델은 여전히 어려운 문제에서 폐쇄 소스 솔루션보다 뒤떨어져 있습니다.
SuperGPQA는 오픈 소스와 폐쇄 소스 모델 사이의 성능 격차를 드러내는 데 사용되었으며 AI 개발을위한 중요한 도구가되었습니다. 이 벤치 마크 테스트의 출시는 AI 연구에 대한 새로운 평가 표준을 제공 할뿐만 아니라 미래의 모델 최적화 및 지식 추론 기능 향상 방향을 지적합니다.
종이 링크 : https://arxiv.org/pdf/2502.14739