Недавно был открыт крупный прорыв в области искусственного интеллекта. Moonshot объявил о открытом исходном источнике своего новейшего оптимизатора Muon, инновационной технологии, которая повысит эффективность вычислительной техники до вдвое превышает уровень традиционного ADAMW. Выпуск этих новостей совпадает с предстоящим открытым исходным источником DeepSeek многочисленных библиотек кода, который вызвал широкое внимание и горячее обсуждение в отрасли.
Muon Optimizer был первоначально предложен в 2024 году исследователем Openai Келлером Джорданом и другими, и он хорошо показал небольшую модельную подготовку. Однако по мере расширения размера модели оригинальный Muon столкнулся с узким местом в улучшении производительности. Чтобы решить эту проблему, команда Dark Side внесла подробные технические улучшения, в основном включая добавление распада веса и последовательные обновления средней квадратной (RMS) для поддержки применения MUON в крупномасштабном обучении без необходимости корректировки гиперпараметра.
Новый Muon Optimizer был применен к последней модели Moonlight, модели гибридного эксперта (MOE) с параметрами 3B/16B. После 5,7 триллиона токенов производительность модели Moonlight значительно улучшилась и стала текущей «Pareto Frontier». Этот результат означает, что модель Moonlight превосходит другие модели во всех показателях эффективности в рамках одного и того же бюджета обучения.
Темная сторона Луны также открыла код реализации MUON и выпустил соответствующие предварительные и промежуточные контрольно-пропускные пункты, обеспечивая ценные ресурсы для последующих исследований исследователей. Исследования показывают, что Muon Optimizer требует только 52% провалов ADAMW во время обучения, что дополнительно проверяет его эффективность в крупномасштабной тренировке для модели языка.
Мюон оптимизатор темной стороны Луны не только превосходит традиционные оптимизаторы в производительности, но и внедряет новую жизнеспособность в разработку всего поля ИИ через открытый исходный код. С учетом участия все больше и больше исследователей и разработчиков, ожидается, что этот оптимизатор будет стимулировать дальнейшие достижения в области технологий искусственного интеллекта.
Бумажный адрес: https://github.com/moonshotai/moonlight/blob/master/moonlight.pdf