Kunlun Wanwei lançou recentemente oficialmente o primeiro modelo de inferência multimodal industrial do mundo, Skywork R1V, referido como "R1V". Com 3,8 bilhões de parâmetros, o modelo está próximo do conhecido modelo de código fechado Deepseek-R1 e teve um bom desempenho em vários benchmarks, varrendo uma série de tecnologias atuais de ponta (SOTAs). Kunlun Wanwei escolheu o código aberto R1V, com o objetivo de promover o compartilhamento de tecnologia e o progresso e injetar uma nova vitalidade na comunidade global de código aberto da IA.

Conhecida por seus excelentes recursos de raciocínio multimodal, o R1V é capaz de combinar perfeitamente informações de texto e visual para demonstrar inteligência poderosa. Especificamente, o R1V compara diretamente modelos de código fechado, como Claude3.5SONNET e GPT-4O em tarefas visuais de perguntas e respostas, e mantém os principais recursos de raciocínio de texto. No benchmark MMMU, o R1V estabeleceu um novo recorde para modelos do mesmo tamanho, com uma pontuação alta de 69, enquanto também alcançou uma marca de 67,5 no teste Mathvista, demonstrando sua poderosa capacidade em raciocínio matemático complexo e análise lógica.
O sucesso do R1V é devido às muitas tecnologias inovadoras da equipe de pesquisa de Kunlun Wanwei. Entre eles, inclui o aprendizado de transferência cruzada, que transfere efetivamente os recursos de raciocínio de texto de modelos grandes para modos visuais, reduzindo bastante a necessidade de dados de inferência multimodal. Além disso, a estratégia de treinamento híbrido adotada pelo R1V ajusta dinamicamente a duração das cadeias de pensamento através da combinação de supervisão iterativa de ajuste fino e aprendizado de reforço, melhorando assim a eficiência da inferência. Vale ressaltar que o R1V também introduz uma estrutura de destilação de cadeia de pensamento de comprimento adaptativo para evitar "demais" no processo de raciocínio, o que melhora significativamente a eficiência e a qualidade do raciocínio.
Com o lançamento do R1V, Kunlun Wanwei não apenas se tornou a primeira empresa de modelos de inferência multimodal de código aberto do mundo, mas também deu um passo importante na promoção da realização do sonho da AGI (Geral Artificial Intelligence). Os pesos, o código de inferência e os relatórios técnicos do modelo são todos publicados, e qualquer pessoa pode obter recursos relevantes através do Github e abraçar o rosto.
Download de peso do modelo
Abraçando o rosto:
https://huggingface.co/skywork/skywork-r1v-38b
Github:
https://github.com/skyworkai/skywork-r1v
Relatório Técnico detalhado
https://github.com/skyworkai/skywork-r1v/blob/main/skywork_r1v.pdf
Pontos -chave:
A Skywork R1V, o primeiro modelo de inferência multimodal de código aberto industrial do mundo, foi lançado oficialmente com parâmetros de até 3,8 bilhões.
O R1V teve um bom desempenho em vários benchmarks, especialmente em MMMU e Mathvista, com pontuações altas de 69 e 67,5, respectivamente.
A iniciativa de código aberto de Kunlun Wanwei visa promover o compartilhamento de tecnologia, injetar vitalidade na comunidade global de código aberto da IA e ajudar o sonho de Agi a se tornar realidade.