Recientemente, un gran avance en el campo de la inteligencia artificial ha aumentado. Moonshot anunció el código abierto de su último optimizador, Muon, una tecnología innovadora que aumentará la eficiencia informática a el doble del nivel de ADAMW tradicional. El lanzamiento de esta noticia coincide con el próximo código abierto de Deepseek de múltiples bibliotecas de código, que ha despertado una atención generalizada y una acalorada discusión en la industria.
El Muon Optimizer fue propuesto originalmente en 2024 por el investigador de OpenAI Keller Jordan y otros, y funcionó bien en el entrenamiento de modelos a pequeña escala. Sin embargo, a medida que se expandió el tamaño del modelo, el muón original encontró un cuello de botella en la mejora del rendimiento. Para resolver este problema, el equipo de Dark Side realizó mejoras técnicas en profundidad, principalmente incluyendo la adición de descomposición de peso y actualizaciones consistentes de cuadrícula de raíz (RMS) para respaldar la aplicación de Muon en capacitación a gran escala sin la necesidad de ajustes de hiperparameter.
El nuevo Muon Optimizer se ha aplicado al último modelo Moonlight, un modelo de experto híbrido (MOE) con parámetros 3B/16B. Después de 5.7 billones de entrenamiento de tokens, el rendimiento del modelo de luz de la luna ha mejorado significativamente y se ha convertido en la actual "frontera de Pareto". Este resultado significa que el modelo Moonlight supera a otros modelos en todas las métricas de rendimiento bajo el mismo presupuesto de capacitación.
El lado oscuro de Moon también abre el código de implementación de Muon y lanzó los puntos de control intermedios e intermedios correspondientes, proporcionando recursos valiosos para la investigación posterior de los investigadores. La investigación muestra que el optimizador de muones requiere solo el 52% de los fracasos de Adamw durante el entrenamiento, lo que verifica aún más su eficiencia en la capacitación en modelos de idiomas a gran escala.
El optimizador de muones del lado oscuro de la luna no solo supera los optimizadores tradicionales en el rendimiento, sino que también inyecta una nueva vitalidad en el desarrollo de todo el campo de IA a través de código abierto. Con más y más investigadores y desarrolladores participando, se espera que este optimizador impulse más avances en tecnología de inteligencia artificial.
Dirección en papel: https://github.com/moonshotai/moonlight/blob/master/moonlight.pdf