Di bidang kecerdasan buatan, percobaan yang mahal diam -diam mengubah cara model bahasa besar dilatih. Tim peneliti langkah demi bintang baru-baru ini merilis hasil penelitian yang penting. Mereka melatih 3.700 model dari berbagai ukuran dari awal dengan menghabiskan hampir 1 juta jam NVIDIA H800 GPU dari daya komputasi, dan melatih total 100 triliun token, mengungkapkan aturan penskalaan universal yang disebut "hukum langkah". Penemuan ini memberikan arah panduan baru untuk pelatihan yang efisien dari model bahasa besar.
Studi ini tidak hanya eksplorasi optimasi hiperparameter, tetapi juga pemeriksaan komprehensif dari stabilitas model hiperparameter optimal di bawah bentuk yang berbeda, jarang dan distribusi data. Hasil penelitian menunjukkan bahwa undang -undang langkah menunjukkan sangat kuat terlepas dari desain arsitektur model dan bahasa atau bidang data pelatihan, yang sangat meningkatkan nilai alat dalam aplikasi praktis.
3.700 model yang dilatih oleh tim peneliti mencakup konfigurasi skala yang berbeda, kombinasi hiperparameter yang berbeda, bentuk yang berbeda, rasio data yang berbeda dan sparsity yang berbeda, termasuk dua arsitektur: MOE dan padat. Melalui percobaan besar-besaran ini, mereka menemukan bahwa laju pembelajaran yang optimal menunjukkan perubahan hukum-hukum dengan skala parameter model dan skala data, dan ukuran batch optimal terutama terkait dengan skala data. Penemuan ini merongrong pemahaman tradisional industri tentang pengaturan hiperparameter.

Data eksperimental menunjukkan bahwa di bawah kondisi ukuran model tetap dan ukuran data, lansekap yang dioptimalkan hiperparameter menghadirkan karakteristik cembung yang jelas, yang berarti ada area hiperparameter optimal yang stabil dan mudah ditemukan. Untuk memverifikasi ini, tim peneliti membangun ruang visual tiga dimensi untuk menunjukkan dampak tingkat pembelajaran secara visual dan ukuran batch pada kerugian pelatihan. Hasilnya jelas menunjukkan bentuk "lembah", dengan ujung bawah cembung menjadi area yang relatif datar, yang memberikan dasar teoritis yang berharga untuk penyetelan hiperparameter dalam praktiknya.
Untuk membuat penemuan ini menguntungkan seluruh komunitas AI, tim mengembangkan dan meluncurkan alat estimasi hiperparameter optimal yang umum. Dibandingkan dengan hiperparameter optimal global yang diperoleh melalui pencarian lengkap, kesenjangan kinerja antara hasil prediksi alat ini hanya 0,09%. Ini berarti bahwa para peneliti dan insinyur tidak dapat lagi mengandalkan pencarian grid yang mahal, tetapi secara langsung mendapatkan konfigurasi hiperparameter yang hampir optimal melalui alat ini.
Yang lebih mengesankan adalah universalitas hukum langkah. Tim peneliti memverifikasi ruang lingkup penerapannya dari tiga sudut yang berbeda: pertama, tidak peduli bagaimana bentuk model berubah - apakah itu bias terhadap undang -undang lebar, kedalaman, atau keseimbangan -kedalaman - undang -undang langkah dapat secara akurat memprediksi wilayah hiperparameter yang optimal; Kedua, aturan ini tidak hanya berlaku untuk model padat, tetapi juga meluas dengan baik untuk model MOE dengan jarang yang berbeda; Akhirnya, apakah data pelatihan yang dipimpin oleh bahasa Inggris, bilingual bahasa Inggris-Inggris, campuran kode-dan-bahasa Inggris, atau distribusi berbasis kode, undang-undang langkah menunjukkan stabilitas yang luar biasa.
Penelitian ini juga mengungkapkan arah optimasi strategi penjadwalan tingkat pembelajaran. Tidak seperti strategi peluruhan tingkat pembelajaran tradisional, tim mengusulkan untuk mengadopsi tingkat pembelajaran minimum tetap (1E-5) alih-alih menetapkan nilai minimum ke sepersepuluh dari nilai maksimum dalam metode tradisional. Perubahan ini memungkinkan pelatihan untuk mempertahankan ukuran langkah pembaruan parameter yang lebih masuk akal pada tahap selanjutnya, secara efektif menghindari osilasi terus menerus dari fungsi kerugian pada tahap konvergensi.
Selain itu, penelitian ini menemukan bahwa kerugian pelatihan perataan sangat konsisten dengan hiperparameter yang optimal dari kerugian verifikasi, yang memberikan pendekatan yang lebih ekonomis untuk seleksi hiperparameter - para peneliti dapat memandu penyesuaian hiperparameter dengan memantau kerugian pelatihan tanpa sering mengevaluasi kinerja model pada set verifikasi.
Terlepas dari hasil yang luar biasa, tim peneliti Jieyuexing mengakui bahwa ini hanyalah permulaan. Mereka berencana untuk melakukan berbagai rincian eksperimen open source, termasuk pos pemeriksaan akhir dari hampir 4.000 model, untuk analisis yang lebih mendalam dan penjelasan teoritis di seluruh masyarakat. Arahan penelitian di masa depan termasuk mengeksplorasi ruang cembung dari ruang tiga dimensi loss-BS-LR, meningkatkan metode pemasangan hiperparameter optimal, menjelaskan perubahan di wilayah optimal berikutnya dari konfigurasi yang berbeda, dan penelitian mendalam tentang dinamika pelatihan di bawah pengaturan yang berbeda.
Pekerjaan tindak lanjut dalam seri skala yang dapat diprediksi dapat membahas lebih lanjut prediksi kinerja model super besar, sifat penskalaan kode & matematika, dan karakteristik penskalaan dari berbagai jenis perhatian. Dapat diramalkan bahwa serangkaian penelitian ini akan memberikan panduan teoritis yang lebih komprehensif dan alat -alat praktis untuk pelatihan yang efisien dari model bahasa besar, dan mempromosikan teknologi AI untuk berkembang dalam arah yang lebih efisien dan dapat dikendalikan.