Vor kurzem hat ein großer Durchbruch auf dem Gebiet der künstlichen Intelligenz eingeleitet. Moonshot kündigte die Open Source seines jüngsten Optimierers, Muon, eine innovative Technologie an, die die Recheneffizienz auf das doppelte Niveau des traditionellen Adamw erhöhen wird. Die Veröffentlichung dieser Nachrichten fällt mit Deepseeks bevorstehender Open Source von mehreren Code -Bibliotheken zusammen, die weit verbreitete Aufmerksamkeit und hitzige Diskussion in der Branche erregt haben.
Der Myon-Optimierer wurde ursprünglich im Jahr 2024 vom OpenAI-Forscher Keller Jordan und anderen vorgeschlagen und hat sich in kleinem Modelltraining gut entwickelt. Als die Modellgröße erweiterte, stieß der ursprüngliche Myon jedoch auf einen Engpass bei der Leistungsverbesserung. Um dieses Problem zu lösen, hat das Dark Side-Team eingehende technische Verbesserungen vorgenommen, wobei hauptsächlich die Hinzufügung von Gewichtsverfall und konsistenten RMS-Updates (Rohes Mean Square) hinzugefügt wurde, um die Anwendung von Myon in großem Maßstab ohne Hyperparameteranpassungen zu unterstützen.
Der neue Myon -Optimierer wurde auf das neueste Moonlight -Modell angewendet, ein Hybrid -Expertenmodell (MOE) mit 3B/16B -Parametern. Nach 5,7 Billionen Token -Training hat sich die Leistung des Mondlichtmodells erheblich verbessert und ist zur aktuellen "Pareto -Grenze" geworden. Dieses Ergebnis bedeutet, dass das Mondlichtmodell andere Modelle in allen Leistungsmetriken unter demselben Trainingsbudget übertrifft.
Die dunkle Seite des Mondes hat auch den Implementierungscode von Myon offen und veröffentlicht entsprechende Voraussetzungs- und Zwischenkontrollpunkte. Untersuchungen zeigen, dass der Myon-Optimierer während des Trainings nur 52% der Flops von ADAMW benötigt, was seine Effizienz im groß angelegten Sprachmodelltraining weiter überprüft.
Der Myon -Optimierer der dunklen Seite des Mondes übertrifft nicht nur traditionelle Optimierer in der Leistung, sondern verleiht der Entwicklung des gesamten KI -Feldes durch Open Source auch neue Vitalität. Mit immer mehr Forschern und Entwicklern wird erwartet, dass dieser Optimierer weitere Fortschritte in der künstlichen Intelligenztechnologie erzielt.
Papieradresse: https://github.com/moonshotai/moonlight/blob/master/moonlight.pdf