Em 24 de fevereiro de 2024, foi feito um importante avanço no campo da inteligência artificial. O modelo de inferência de média escala Tiny-R1-32b-View desenvolvido em conjunto pela 360 Intelligent Brain Team e Peking University foi lançado oficialmente. Com seu único volume de parâmetros de 5%, esse modelo inovador aborda com sucesso o desempenho de saúde total do DeepSeek-R1-671B, abrindo novas possibilidades para o campo de raciocínio eficiente.
Nos testes de desempenho, o Tiny-R1-32B-View mostrou desempenho impressionante. Especialmente no campo da matemática, o modelo alcançou uma excelente pontuação de 78,1 na revisão AIME2024, que fica a apenas 1,7 pontos da pontuação de 79,8 do modelo R1 original e também está significativamente à frente da pontuação de 70.0 do Deepseek-R1-Distill-llama-70b. Nos campos da programação e da ciência, o modelo também teve um bom desempenho, alcançando 61,6 e 65,0 pontos nos testes LivecodeBench e GPQA-Diamond, respectivamente, superando o melhor modelo atual de 70b de código aberto. Esta série de realizações não apenas prova o excelente desempenho da previsão Tiny-R1-32B, mas também alcança uma melhoria significativa na eficiência, reduzindo significativamente os custos de inferência.

Por trás desse resultado inovador está a inovadora estratégia de "divisão e integração convergente" da equipe de pesquisa. Essa estratégia primeiro gera dados de campo maciços com base no Deepseek-R1 e treina modelos profissionais nos três campos verticais de matemática, programação e ciência. Posteriormente, a equipe de pesquisa usou a ferramenta Mergekit da equipe da Arcee para integração inteligente, rompendo com sucesso o limite de desempenho de um único modelo e alcançando otimização equilibrada de várias tarefas. Esse caminho técnico inovador não apenas melhora significativamente o desempenho geral do modelo, mas também fornece novas idéias e direções para o desenvolvimento futuro de modelos de inferência.
A 360 Intelligent Brain Team e a equipe conjunta de P&D da Universidade de Pequim enfatizaram particularmente que o sucesso da pré-visualização Tiny-R1-32b é inseparável com o forte apoio da comunidade de código aberto. Esse modelo se beneficia totalmente da tecnologia de destilação Deepseek-R1, treinamento incremental Deepseek-R1-Distill-32B e tecnologia avançada de fusão de modelos. O acúmulo dessas realizações técnicas estabeleceu uma base sólida para o desenvolvimento de modelos.
Para promover a inclusão da tecnologia, a equipe de P&D promete divulgar um armazém completo, incluindo relatórios técnicos detalhados, códigos de treinamento e alguns conjuntos de dados. Atualmente, o Modelo Warehouse foi lançado oficialmente na plataforma Face Hugging, e o endereço de acesso é https://huggingface.co/qihoo360/tinyr1-32b-preview. Esta iniciativa aberta fornecerá recursos valiosos à comunidade de pesquisa de inteligência artificial e promoverá o desenvolvimento adicional de tecnologias relacionadas.