¡Rey Bomb! ¡La IA de China agrega otra "tarjeta Trump"! ¡El modelo de inferencia multimodal Kunlun Wanwei Skywork R1V es impactante y de código abierto! - Artículos de IA

Autor：Eve Cole Fecha de actualización：2025-05-23 01:25:02

2025 binance directo

Sitio web oficial www.binance.com/zh-cn :ingrese el sitio web oficial ☜☜
Aplicación: ☞☞Official App Download☜☜

¡Kunlun Wanwei anunció oficialmente hoy que el modelo de inferencia multimodal Skywork R1V que crearon ha sido oficialmente de código abierto! ¡Este no es solo el primer código abierto del modelo de inferencia multimodal de China en la industria, sino que también marca un paso hito para el poder de IA de China en el campo de la comprensión y el razonamiento multimodal! ¡De ahora en adelante, los pesos del modelo y los informes técnicos estarán completamente abiertos al mundo exterior!

Imagine que un modelo de IA no solo puede comprender las imágenes, sino también realizar un razonamiento lógico como los humanos y resolver problemas visuales complejos, ¡ya esta ya no es una escena en las películas de ciencia ficción, sino una capacidad que SkyWork R1V está implementando! Este modelo es como un "Solmes en el mundo de la IA". Es bueno quitar los hilos y descifrar el significado profundo de la información visual masiva a través del análisis lógico de varios pasos, y finalmente ofrece una respuesta precisa. Ya sea que se trate de resolver acertijos de lógica visual, resolviendo problemas de matemáticas visuales difíciles, analizando fenómenos científicos en las imágenes o incluso ayudando con inferencias de diagnóstico de imágenes médicas, Skywork R1V puede mostrar una fuerza sorprendente.

Para medir el "coeficiente intelectual" de un modelo de IA, ¡los datos son los más convincentes! En términos de capacidad de razonamiento de razonamiento, SkyWork R1V obtuvo 94.0 y 72.0 en los puntos de referencia autorizados de Math500 y AIME respectivamente. Esto significa que SkyWork R1V puede hacerlo fácilmente, ya sea resolviendo problemas matemáticos complejos o realizando un razonamiento lógico riguroso. Lo que es aún más sorprendente es que ha "injertado" con éxito su poderosa capacidad de razonamiento en el campo de la visión, ¡y logró altas puntajes de 69 y 67.5 en pruebas de referencia de razonamiento visual como MMMU y Mathvista! ¡Estos datos de núcleo duro demuestran directamente que SkyWork R1V tiene las principales capacidades de razonamiento lógico y análisis matemático!

Kunlun Wanwei declaró con orgullo que detrás del modelo Skywork R1V, existen tres innovaciones tecnológicas clave:

El primero es la migración multimodal eficiente de las capacidades de razonamiento de texto. El equipo Kunlun Wanwei adoptó un enfoque único y usó inteligentemente el proyector visual de Skywork-VL, sin gastar grandes cantidades de dinero para volver a entrenar el modelo de idioma y el codificador visual. Al igual que "El gran cambio del mundo", movió perfectamente su poderosa capacidad de razonamiento de texto original a tareas visuales, ¡y no afectó sus habilidades de razonamiento de texto originales!

El segundo es el entrenamiento híbrido multimodal (iterativo SFT+GRPO). Este método de entrenamiento es como alimentar al modelo una "comida nutritiva mixta". A través de la inteligente combinación de supervisión iterativa, ajuste fino y aprendizaje de refuerzo de GRPO, la representación de texto visual está alineada en etapas y estratégicamente, y la fusión eficiente de las tareas intermodales finalmente se logra, ¡y las capacidades intermodales del modelo también han logrado un gran progreso! En las pruebas de referencia MMMU y Mathvista, ¡el rendimiento de Skywork R1V puede incluso ser comparable a un modelo de código cerrado a mayor escala!

Finalmente, la destilación de la cadena de pensamiento de longitud adaptativa. El equipo de Kunlun Wanwei propuso innovativamente un mecanismo de "freno inteligente". El modelo puede ajustar adaptativamente la longitud de la cadena de inferencia de acuerdo con la complejidad del texto visual para evitar "pensar demasiado", mejorando enormemente la eficiencia de la inferencia al tiempo que garantiza la precisión del razonamiento. Además, con la estrategia de autodistilación de varias etapas, la generación de datos y la calidad de inferencia del modelo se mejoran a un nivel más alto, ¡y está más a gusto en tareas multimodales complejas!

El código abierto de Skywork R1V indudablemente proporcionará un poderoso "arma" de razonamiento multimodal para los investigadores y desarrolladores de IA en China e incluso en el mundo. Su surgimiento no solo acelerará la innovación y la aplicación de la tecnología de IA multimodal, sino que también promoverá la profunda integración de la tecnología de IA en todos los ámbitos de la vida, abriendo un futuro más inteligente y mejor para nosotros.