Недавно команда Bytedance Doubao Big Model и сообщество с открытым исходным кодом, совместно выпустив SuperGPQA, тест рассуждения о знаниях, охватывающий 285 дисциплин на уровне выпускников и 26 529 профессиональных вопросов. Этот инновационный набор данных не только охватывает основные дисциплины, такие как математика и физика, но также включает в себя длинные дисциплины, такие как легкая промышленность, сельское хозяйство и наука об обслуживании, в систему оценки впервые, заполняя разрыв в существующих тестах на контрольных тестах в области долговечных знаний.
Запуск SuperGPQA отмечает важную веху в области ИИ. Этот набор данных был построен в течение полугода с помощью механизма сотрудничества Expert-LLM для проверки проблем из авторитетных источников. Его вопросы дают в среднем 9,67 вариантов, а 42,33% из них требуют математических расчетов или формальных рассуждений, как широты, так и глубины. Эксперименты показывают, что точность оптимальной модели DeepSeek-R1 составляет всего 61,82%, что указывает на то, что текущая модель большой языка по-прежнему имеет место для улучшения в различных областях знаний.
Традиционные контрольные показатели, такие как MMLU и GPQA, охватывают менее 50 дисциплин, в то время как дисциплины с длинными хвостами составляют менее 5%. Из -за единого источника данных (такого как Википедия) и ненадежной краудсорсинговой аннотации, трудно измерить способность к выводу модели в сложных сценариях. SuperGPQA улучшает качество за счет трехэтапных процессов: экспертный скрининг исходных проблем, стандартизированная транскрипция, многослойная проверка качества (фильтрация правил, тестирование LLM, экспертный обзор). Результаты оценки показывают, что инструкция тонкая настройка значительно повышает производительность, например, оценки DeepSeek-V3 превышает основную версию, но модель с открытым исходным кодом все еще отстает от решений с закрытым исходным кодом в сложных вопросах.
SuperGPQA использовался для выявления разрыва в производительности между моделями с открытым исходным кодом и с закрытым исходным кодом и стал важным инструментом для разработки ИИ. Выпуск этого контрольного теста не только обеспечивает новые стандарты оценки для исследований искусственного интеллекта, но и указывает на направление для будущей оптимизации модели и улучшения возможностей рассуждения знаний.
Бумажная ссылка: https://arxiv.org/pdf/2502.14739
Ссылка на данные: https://huggingface.co/datasets/map/supergpqa
Ссылка на код: https://github.com/supergpqa/supergpqa