Recentemente, um grande avanço no campo da inteligência artificial inaugurou. Moonshot anunciou o código aberto de seu mais recente otimizador, Muon, uma tecnologia inovadora que aumentará a eficiência da computação para o dobro do nível de Adamw tradicional. O lançamento dessas notícias coincide com o próximo código aberto de Bibliotecas de Código de Código, que despertou atenção generalizada e acalorou discussões no setor.
O otimizador Muon foi proposto originalmente em 2024 pelo pesquisador do Openai, Keller Jordan e outros, e teve um bom desempenho em treinamento modelo em pequena escala. No entanto, à medida que o tamanho do modelo se expandia, o Muon original encontrou um gargalo na melhoria do desempenho. Para resolver esse problema, a equipe do lado sombrio fez melhorias técnicas detalhadas, incluindo principalmente a adição de decaimento de peso e atualizações de quadrado médio da raiz consistente (RMS) para apoiar a aplicação do Muon em treinamento em larga escala sem a necessidade de ajustes de hiperparâmetro.
O novo otimizador Muon foi aplicado ao mais recente modelo Moonlight, um modelo de especialista em híbrido (MOE) com parâmetros 3B/16B. Após 5,7 trilhões de tokens de treinamento, o desempenho do modelo Moonlight melhorou significativamente e se tornou a atual "fronteira de Pareto". Esse resultado significa que o modelo da lua supera outros modelos em todas as métricas de desempenho com o mesmo orçamento de treinamento.
O lado sombrio da lua também abriu o código de implementação do Muon e lançou os postos de controle pré-treinamento e intermediários correspondentes, fornecendo recursos valiosos para a pesquisa subsequente dos pesquisadores. Pesquisas mostram que o otimizador Muon requer apenas 52% dos falhos de Adamw durante o treinamento, o que verifica ainda mais sua eficiência no treinamento em modelos de idiomas em larga escala.
O otimizador Muon do lado sombrio da lua não apenas supera os otimizadores tradicionais no desempenho, mas também injeta a nova vitalidade no desenvolvimento de todo o campo de IA através de código aberto. Com mais e mais pesquisadores e desenvolvedores participando, esse otimizador deve impulsionar novos avanços na tecnologia de inteligência artificial.
Endereço em papel: https://github.com/moonshotai/moonlight/blob/master/moonlight.pdf