최근 인공 지능 분야의 주요 획기적인 발전이 시작되었습니다. Moonshot은 최신 옵티마이징 마이저 인 Muon의 오픈 소스 인 혁신적인 기술을 발표하여 전통적인 ADAMW 수준의 두 배로 컴퓨팅 효율성을 높일 수있는 혁신적인 기술을 발표했습니다. 이 뉴스의 출시는 DeepSeek의 다가오는 여러 코드 라이브러리의 오픈 소스와 일치하며, 이는 업계에서 광범위한 관심과 격렬한 토론을 불러 일으켰습니다.
Muon Optimizer는 원래 2024 년 Openai 연구원 Keller Jordan 및 기타 사람들이 제안했으며 소규모 모델 교육에서 잘 수행되었습니다. 그러나 모델 크기가 확장됨에 따라 원래 Muon은 성능 향상에서 병목 현상을 만났습니다. 이 문제를 해결하기 위해 Dark Side 팀은 주로 중량 붕괴 및 일관된 루트 평균 제곱 (RMS) 업데이트를 포함하여 심층적 인 기술적 개선을 수행하여 대규모 훈련에서 뮤온의 적용을 지원하여 대규모 훈련을 지원합니다.
새로운 Muon Optimizer는 3B/16B 매개 변수의 하이브리드 전문가 (MOE) 모델 인 최신 Moonlight 모델에 적용되었습니다. 5.7 조 토큰 훈련 후, Moonlight 모델의 성능이 크게 향상되었으며 현재의 "파레토 프론티어"가되었습니다. 이 결과는 Moonlight 모델이 동일한 교육 예산에 따라 모든 성능 지표에서 다른 모델을 능가한다는 것을 의미합니다.
Moon의 Dark Side는 또한 Muon의 구현 코드를 공개하고 해당 사전 훈련 및 중간 체크 포인트를 공개하여 연구원의 후속 연구를위한 귀중한 리소스를 제공합니다. 연구에 따르면 Muon Optimizer는 훈련 중 ADAMW 플롭의 52% 만 필요하며, 이는 대규모 언어 모델 교육의 효율성을 더욱 검증합니다.
달의 어두운면의 뮤온 최적화는 성능의 전통적인 최적화기를 능가 할뿐만 아니라 오픈 소스를 통해 전체 AI 필드의 개발에 새로운 활력을 주입합니다. 점점 더 많은 연구원과 개발자가 참여함에 따라이 최적화는 인공 지능 기술의 발전을 더욱 발전시킬 것으로 예상됩니다.
종이 주소 : https://github.com/moonshotai/moonlight/blob/master/moonlight.pdf