Recientemente, el 360 Intelligent Brain Team ha hecho un gran avance en el campo de la inteligencia artificial, recreando con éxito el efecto de aprendizaje de refuerzo de Deepseek, y lanzó oficialmente el modelo de inferencia de código abierto Light-R1-14B-DS. La liberación de este modelo marca un avance significativo en el campo del aprendizaje de refuerzo, especialmente en la capacidad de razonamiento matemático. Light-R1-14B-DS no solo supera a Deepseek-R1-Distill-Llama-70B y Deepseek-R1-Distill-Qwen-32b en rendimiento, sino que también se convierte en el primer modelo de la industria para lograr efectos de aprendizaje de refuerzo en la escala de los parámetros 14B, demostrando sus capacidades sobresalientes en tareas complejas.
En pruebas específicas, la luz-R1-14B-DS mostró una mejora significativa. En comparación con Deepseek-R1-14B, este modelo funciona particularmente bien en las tareas de competencia de matemáticas. En la prueba AIME24, su puntaje aumentó en 4.3 puntos, mientras que en el AIME25 aumentó en 10 puntos. Además, en la tarea de razonamiento matemático GPQA, Light-R1-14B-DS logró un excelente puntaje de 61.7, que incluso superó la mayoría de los modelos de nivel 32B, demostrando completamente sus poderosas habilidades en el campo del razonamiento matemático.
Para lograr este avance, el equipo de cerebro inteligente 360 adoptó dos métodos de capacitación innovadores. El primero es el currículo SFT (ajuste fino supervisado avanzado), que permite que el modelo haga la transición gradualmente de problemas matemáticos simples a problemas complejos a través de un entrenamiento en fase, mejorando aún más su capacidad de razonamiento lógico. El segundo es el aprendizaje de refuerzo (RL), que es la primera vez que se ha aplicado con éxito en un modelo de inferencia de nivel de 14b, no solo mejora significativamente la precisión del razonamiento, sino que también garantiza la falta de pérdida básica de otras habilidades. La combinación de estos dos métodos ha permitido la luz-R1-14B-DS para lograr un salto cualitativo en el rendimiento.
Esta versión no solo incluye el modelo en sí, sino también datos SFT de código abierto, código e informes técnicos, proporcionando recursos valiosos para la industria. Este logro no solo marca un gran progreso en el campo del aprendizaje de refuerzo de modelos pequeños y medianos, sino que también sienta una base sólida para la popularización y el desarrollo de las capacidades de razonamiento de IA. A través del código abierto de estos recursos, el equipo cerebral inteligente 360 espera promover más investigadores y desarrolladores para participar en la investigación en este campo y promover conjuntamente el avance de la tecnología de inteligencia artificial.
Dirección del proyecto: https://github.com/qihoo360/light-r1
Dirección del modelo: https://huggingface.co/qihoo360/light-r1-14b-ds
Dirección de datos: https://huggingface.co/datasets/qihoo360/light-r1-sftdata