24 февраля 2024 года в области искусственного интеллекта был сделан важный прорыв. Модель среднего вывода Tiny-R1-32B-Preview, совместно разработанная 360 Intelligent Brain Team и Peking University, была официально выпущена. Используя только 5% объема параметров, эта инновационная модель успешно подходит к полному характеристикам DeepSeek-R1-671B, открывая новые возможности для области эффективных рассуждений.
В тестировании производительности Tiny-R1-32B-Preview показала впечатляющую производительность. Особенно в области математики, модель достигла превосходного балла 78,1 в обзоре AIME2024, который на расчете всего на 1,7 балла от 79,8 балла оригинальной модели R1, а также значительно опередил 70,0 баллов Deepseek-R1-Distill-Llama-70B. В областях программирования и науки модель также показала хорошо, достигнув 61,6 и 65,0 баллов в тестах Livecodebench и GPQA-Diamond, соответственно, превосходя современную модель с открытым исходным кодом 70B. Эта серия достижений не только доказывает превосходную производительность Tiny-R1-32B-Preview, но и достигает значительного повышения эффективности за счет значительного снижения затрат на вывод.

За этим прорывами результатом является инновационная стратегия «Разделяющей и сходящейся интеграции» исследовательской группы. Эта стратегия сначала генерирует массовые полевые данные, основанные на DeepSeek-R1, и обучает профессиональные модели в трех вертикальных областях математики, программирования и науки. Впоследствии исследовательская группа использовала инструмент Mergekit команды Arcee для интеллектуальной интеграции, успешно преодолев лимит производительности одной модели и достигнув сбалансированной оптимизации многозадач. Этот инновационный технический путь не только значительно улучшает общую производительность модели, но также предоставляет новые идеи и направления для будущей разработки моделей вывода.
360 Intelligent Brain Team и совместная команда R & D Университета Пекинга особенно подчеркнули, что успех Tiny-R1-32B-Preview неразделим от сильной поддержки сообщества с открытым исходным кодом. Эта модель в полной мере выигрывает от технологии дистилляции DeepSeek-R1, постепенного обучения DeepSeek-R1-Distill-32B и передовой технологии слияния модели. Накопление этих технических достижений заложило прочную основу для разработки моделей.
Чтобы содействовать инклюзивности технологий, команда R & D обещает раскрыть полный модельный склад, включая подробные технические отчеты, коды обучения и некоторые наборы данных. В настоящее время модельный склад был официально запущен на платформе объятий, а адрес доступа-https://huggingface.co/qihoo360/tinyr1-32b-preview. Эта открытая инициатива предоставит ценные ресурсы для исследования исследований искусственного интеллекта и способствует дальнейшему развитию связанных технологий.