Récemment, une percée majeure dans le domaine de l'intelligence artificielle a inauguré. Moonshot a annoncé l'open source de son dernier optimiseur, Muon, une technologie innovante qui augmentera l'efficacité informatique au double du niveau de l'ADAMW traditionnel. La publication de cette nouvelle coïncide avec la prochaine open source de Deepseek de plusieurs bibliothèques de code, ce qui a suscité une attention généralisée et une discussion animée dans l'industrie.
Le Muon Optimizer a été initialement proposé en 2024 par le chercheur OpenAI Keller Jordan et d'autres, et il a bien fonctionné dans la formation de modèles à petite échelle. Cependant, à mesure que la taille du modèle se développait, le muon d'origine a rencontré un goulot d'étranglement dans l'amélioration des performances. Pour résoudre ce problème, l'équipe du côté obscur a apporté des améliorations techniques approfondies, y compris principalement l'ajout de décroissance de poids et les mises à jour cohérentes du carré moyen (RMS) pour soutenir l'application du muon dans une formation à grande échelle sans avoir besoin d'ajustements d'hyperparamètre.
Le nouvel optimiseur Muon a été appliqué au dernier modèle de clair de lune, un modèle d'expert hybride (MOE) avec des paramètres 3b / 16b. Après une formation de jetons de 5,7 billions, les performances du modèle de clair de lune se sont considérablement améliorées et sont devenues la "frontière de Pareto" actuelle. Ce résultat signifie que le modèle Moonlight dépasse d'autres modèles dans toutes les mesures de performance dans le même budget de formation.
Le côté obscur de la lune a également ouvert le code de mise en œuvre de Muon et a publié des points de contrôle pré-formation et intermédiaires correspondants, fournissant des ressources précieuses pour les recherches ultérieures des chercheurs. La recherche montre que l'optimiseur Muon ne nécessite que 52% des flops de l'ADAMW pendant la formation, ce qui vérifie davantage son efficacité dans la formation du modèle de langue à grande échelle.
L'optimiseur de muon du côté obscur de la lune dépasse non seulement les optimisateurs traditionnels dans les performances, mais injecte également une nouvelle vitalité dans le développement de l'ensemble du champ d'IA via l'open source. Avec de plus en plus de chercheurs et de développeurs participants, cet optimiseur devrait générer de nouvelles progrès dans la technologie de l'intelligence artificielle.
Adresse papier: https://github.com/moonshotai/moonlight/blob/master/moonlight.pdf