Kunlun Wanwei Open Skide Skywork R1V Modelo de inferencia de la cadena de pensamiento visual - Artículos de IA

Autor：Eve Cole Fecha de actualización：2025-05-22 23:25:01

2025 binance directo

Sitio web oficial www.binance.com/zh-cn :ingrese el sitio web oficial ☜☜
Aplicación: ☞☞Official App Download☜☜

Kunlun Wanwei lanzó recientemente oficialmente el primer modelo de inferencia multimodal industrial del mundo, Skywork R1V, conocido como "R1V". Con 3,8 mil millones de parámetros, el modelo está cerca del conocido modelo de código cerrado Deepseek-R1, y se ha desempeñado bien en múltiples puntos de referencia, ampliando una serie de tecnologías actuales de última generación (SOTAS). Kunlun Wanwei eligió Open Source R1V, con el objetivo de promover el intercambio de tecnología y el progreso e inyectar una nueva vitalidad en la comunidad global de código abierto de IA.

Conocido por sus sobresalientes capacidades de razonamiento multimodal, el R1V puede combinar a la perfección el texto y la información visual para demostrar una inteligencia poderosa. Específicamente, R1V reúne directamente los modelos de código cerrado como Claude3.5sonnet y GPT-4O en tareas visuales de preguntas y respuestas, y mantiene las principales capacidades de razonamiento de texto. En el punto de referencia de MMMU, el R1V estableció un nuevo registro para modelos del mismo tamaño con una puntuación alta de 69, mientras que también logró una marca de 67.5 en la prueba de Mathvista, lo que demuestra su poderosa capacidad en un razonamiento matemático complejo y un análisis lógico.

El éxito de R1V se debe a las muchas tecnologías innovadoras del equipo de investigación Kunlun Wanwei. Entre ellos, incluye el aprendizaje de transferencia intermodal, que transfiere efectivamente las capacidades de razonamiento de texto de modelos grandes a modos visuales, reduciendo en gran medida la necesidad de datos de inferencia multimodal. Además, la estrategia de entrenamiento híbrido adoptada por R1V ajusta dinámicamente la longitud de las cadenas de pensamiento a través de la combinación de supervisión iterativa, ajuste fino y aprendizaje de refuerzo, mejorando así la eficiencia de la inferencia. Vale la pena mencionar que R1V también introduce un marco de destilación de la cadena de pensamiento de longitud adaptativa para evitar "pensar demasiado" en el proceso de razonamiento, lo que mejora significativamente la eficiencia y la calidad del razonamiento.

Con el lanzamiento de R1V, Kunlun Wanwei no solo se ha convertido en la primera compañía modelo de inferencia multimodal de código abierto del mundo, sino que también ha dado un paso importante para promover la realización del sueño AGI (inteligencia artificial general). Los pesos, el código de inferencia y los informes técnicos del modelo se publican, y cualquiera puede obtener recursos relevantes a través de Github y abrazando la cara.

Descarga de peso del modelo

Cara abrazada:

https://huggingface.co/skywork/skywork-r1v-38b

GitHub:

https://github.com/skyworkai/skywork-r1v

Informe técnico detallado

https://github.com/skyworkai/skywork-r1v/blob/main/skywork_r1v.pdf

Puntos clave:

SkyWork R1V, el primer modelo de inferencia multimodal de código abierto industrial del mundo, se lanzó oficialmente con parámetros de hasta 3.8 mil millones.

R1V funcionó bien en múltiples puntos de referencia, especialmente en MMMU y Mathvista con puntajes altos de 69 y 67.5 respectivamente.

La iniciativa de código abierto de Kunlun Wanwei tiene como objetivo promover el intercambio de tecnología, inyectar vitalidad en la comunidad global de código abierto de IA y ayudar al sueño de AGI a hacerse realidad.