Baru -baru ini, terobosan besar di bidang kecerdasan buatan telah mengantarkan. Moonshot mengumumkan sumber terbuka pengoptimal terbarunya, Muon, sebuah teknologi inovatif yang akan meningkatkan efisiensi komputasi menjadi dua kali level AdamW tradisional. Rilis berita ini bertepatan dengan open source Deepseek yang akan datang dari beberapa perpustakaan kode, yang telah membangkitkan perhatian luas dan diskusi panas di industri.
Muon Optimizer awalnya diusulkan pada tahun 2024 oleh peneliti Openai Keller Jordan dan lainnya, dan berkinerja baik dalam pelatihan model skala kecil. Namun, ketika ukuran model diperluas, Muon asli mengalami hambatan dalam peningkatan kinerja. Untuk mengatasi masalah ini, tim Sisi Gelap membuat perbaikan teknis yang mendalam, terutama termasuk penambahan pembaruan berat badan dan root rata-rata root square (RMS) yang konsisten untuk mendukung penerapan muon dalam pelatihan skala besar tanpa perlu penyesuaian hiperparameter.
Muon Optimizer baru telah diterapkan pada model Moonlight terbaru, model Hybrid Expert (MOE) dengan parameter 3B/16B. Setelah pelatihan 5,7 triliun token, kinerja model sinar bulan telah meningkat secara signifikan dan telah menjadi "Pareto Frontier" saat ini. Hasil ini berarti bahwa model Moonlight melampaui model lain di semua metrik kinerja di bawah anggaran pelatihan yang sama.
Sisi Gelap Moon juga membuka bersumber kode implementasi Muon dan dirilis pra-pelatihan dan pos pemeriksaan menengah yang sesuai, menyediakan sumber daya berharga untuk penelitian peneliti selanjutnya. Penelitian menunjukkan bahwa pengoptimal muon hanya membutuhkan 52% dari jepit ADAMW selama pelatihan, yang selanjutnya memverifikasi efisiensinya dalam pelatihan model bahasa skala besar.
Pengoptimal muon dari sisi gelap bulan tidak hanya melampaui pengoptimal tradisional dalam kinerja, tetapi juga menyuntikkan vitalitas baru ke dalam pengembangan seluruh bidang AI melalui open source. Dengan semakin banyak peneliti dan pengembang yang berpartisipasi, pengoptimal ini diharapkan untuk mendorong kemajuan lebih lanjut dalam teknologi kecerdasan buatan.
Alamat kertas: https://github.com/moonshotai/moonlight/blob/master/moonlight.pdf