Bomba rei! A IA da China acrescenta outro "Cartão Trump"! Kunlun Wanwei Skywork R1V Modelo de inferência multimodal é chocante e de código aberto! - Artigos da IA

Autor：Eve Cole Data da Última Atualização：2025-05-23 01:25:02

2025 Binance Direct

Kunlun Wanwei anunciou oficialmente hoje que o modelo de inferência multimodal R1V Skywork R1V que eles criaram foi oficialmente de código aberto! Este não é apenas o primeiro modelo de inferência multimodal da China no setor, mas também marca um passo de marco para o poder de IA da China no campo de entendimento e raciocínio multimodais! A partir de agora, os pesos do modelo e os relatórios técnicos serão completamente abertos ao mundo exterior!

Imagine que um modelo de IA pode não apenas entender as imagens, mas também executar raciocínio lógico como humanos e resolver problemas visuais complexos - isso não é mais uma cena nos filmes de ficção científica, mas uma capacidade que o Skywork R1V está implementando! Este modelo é como um "Solmes no mundo da IA". É bom em remover os threads e decifrar o significado profundo de informações visuais maciças por meio de análises lógicas em várias etapas e, finalmente, fornece uma resposta precisa. Seja resolvendo quebra -cabeças da lógica visual, resolvendo problemas difíceis de matemática visual, analisando fenômenos científicos em imagens ou mesmo ajudando com inferências diagnósticas de imagens médicas, o Skywork R1V pode mostrar uma força incrível.

Para medir o "QI" de um modelo de IA, os dados são os mais convincentes! Em termos de capacidade de raciocínio, o Skywork R1V marcou 94.0 e 72,0 nos referências autoritárias de Math500 e Aime, respectivamente! Isso significa que o Skywork R1V pode facilmente fazê -lo, seja resolvendo problemas matemáticos complexos ou conduzindo raciocínio lógico rigoroso. O que é ainda mais incrível é que ele "enxertou" sua poderosa capacidade de raciocínio no campo da visão e alcançou pontuações altas de 69 e 67,5 em testes de referência de raciocínio visual, como MMMU e Mathvista! Esses dados de núcleo duro provam diretamente que o Skywork R1V possui os principais recursos de raciocínio lógico e análise matemática!

Kunlun Wanwei afirmou orgulhosamente que, por trás do modelo Skywork R1V, existem três principais inovações tecnológicas:

O primeiro é a migração eficiente multimodal dos recursos de raciocínio de texto. A equipe Kunlun Wanwei adotou uma abordagem única e usou inteligentemente o projetor visual da Skywork-VL, sem gastar enormes quantias de dinheiro para treinar o modelo de idioma e o codificador visual. Assim como "A Grande Mudança do Mundo", ele moveu perfeitamente sua capacidade de raciocínio de texto poderosa original para tarefas visuais e não afetou suas habilidades originais de raciocínio de texto!

O segundo é o treinamento híbrido multimodal (SFT+GRPO iterativo). Esse método de treinamento é como alimentar o modelo A "refeição nutritiva mista". Através da inteligente combinação de supervisão iterativa de ajuste fino e aprendizado de reforço GRPO, a representação de texto visual está alinhada em estágios e estrategicamente, e a fusão eficiente de tarefas cruzadas é finalmente alcançada, e as capacidades cruzadas do modelo também fizeram um grande progresso! Nos testes de referência MMMU e Mathvista, o desempenho do Skywork R1V pode até ser comparável a um modelo de fonte fechada em maior escala!

Finalmente, destilação de cadeia de pensamento de comprimento adaptativo. A equipe Kunlun Wanwei propôs inovar um mecanismo de "freio inteligente". O modelo pode ajustar de forma adaptativa o comprimento da cadeia de inferência de acordo com a complexidade do texto visual para evitar "demais", melhorando bastante a eficiência da inferência, garantindo a precisão do raciocínio! Além disso, com a estratégia de auto-distribuição de vários estágios, a geração de dados e a qualidade da inferência do modelo são aprimoradas para um nível superior e está mais à vontade em tarefas multimodais complexas!

O código aberto do Skywork R1V, sem dúvida, fornecerá uma poderosa "arma" multimodal de raciocínio para pesquisadores e desenvolvedores de IA na China e até no mundo. Seu surgimento não apenas acelerará a inovação e a aplicação da tecnologia multimodal de IA, mas também promoverá a profunda integração da tecnologia de IA em todas as esferas da vida, abrindo um futuro mais inteligente e melhor para nós!