Недавно 360 Intellent Brain Team сделала значительный прорыв в области искусственного интеллекта, успешно воссоздав эффект подкрепления DeepSeek и официально выпустил модель с открытым исходным кодом Light-R1-14B-DS. Выпуск этой модели знаменует собой значительный прогресс в области обучения подкрепления, особенно в области математических рассуждений. Light-R1-14B-DS не только превосходит DeepSeek-R1-Distill-Llama-70B и DeepSeek-R1-Distill-QWEN-32B в результате производительности, но также становится первой моделью отрасли, которая достигла влияния подкрепления обучения по шкале 14B параметров, демонстрируя ее выдающиеся способности в сложных TASKS.
В конкретных тестах Light-R1-14B-DS показал значительное улучшение. По сравнению с DeepSeek-R1-14B, эта модель особенно хорошо работает в задачах по математике. В тесте AIME24 его оценка увеличилась на 4,3 балла, а в AIME25 он увеличился на 10 очков. Кроме того, по задаче по математическим рассуждениям GPQA Light-R1-14B-DS достигла превосходного балла 61,7, что даже превзошло большинство моделей уровня 32B, полностью демонстрируя свои мощные способности в области математических рассуждений.
Чтобы достичь этого прорыва, 360 Intelligent Brain Team приняла два инновационных метода обучения. Первым является учебная программа SFT (Advanced Supersised Fine Tuning), которая позволяет модели постепенно переходить от простых математических задач к сложным проблемам посредством поэтапного обучения, тем самым еще больше повышая способность логического рассуждения. Вторым является обучение подкреплению (RL), которое впервые было успешно применяется к модели вывода на уровне 14B, не только значительно повышая точность рассуждений, но и обеспечивая основную без потерь других навыков. Комбинация этих двух методов позволила Light-R1-14B-DS для достижения качественного скачка в производительности.
Этот выпуск включает не только саму модель, но и данные SFT с открытым исходным кодом, код и технические отчеты, предоставляя ценные ресурсы для отрасли. Это достижение не только знаменует собой значительный прогресс в области подкрепления, обучающихся на малых и средних моделях, но также закладывает прочную основу для дальнейшей популяризации и развития возможностей рассуждений искусственного интеллекта. Благодаря открытому источнику этих ресурсов, 360 Intelligent Brain Team надеется продвинуть большего количества исследователей и разработчиков для участия в исследованиях в этой области и совместно способствовать развитию технологий искусственного интеллекта.
Адрес проекта: https://github.com/qihoo360/light-r1
Адрес модели: https://huggingface.co/qihoo360/light-r1-14b-ds
Адрес данных: https://huggingface.co/datasets/qihoo360/light-r1-sftdata