Di bidang pembelajaran yang mendalam, lapisan normalisasi selalu dianggap sebagai salah satu komponen yang sangat diperlukan dalam jaringan saraf modern. Namun, sebuah penelitian baru -baru ini yang dipimpin oleh ilmuwan riset meta adil Liu Zhuang, "Transformer tanpa lapisan normalisasi" telah menarik perhatian luas. Studi ini tidak hanya mengusulkan teknologi baru yang disebut dinamis Tanh (Dynamic Tanh, DYT), tetapi juga menunjukkan bahwa arsitektur transformator masih dapat mencapai pelatihan dan penalaran yang efisien tanpa menggunakan lapisan normalisasi tradisional.
Lapisan normalisasi, terutama normalisasi lapisan (LN), telah memainkan peran penting dalam mengoptimalkan model pembelajaran yang mendalam selama dekade terakhir. LN LN mempercepat konvergensi model dengan menskalakan dan mengompresi aktivasi input. Namun, para peneliti menemukan bahwa penggunaan lapisan LN secara luas bukanlah satu -satunya pilihan. Penelitian mereka dimulai dengan mengamati perilaku lapisan LN dan mengusulkan metode alternatif baru, DYT. Operasi tingkat elemen ini tidak hanya mensimulasikan efek penskalaan dan kompresi dari lapisan LN, tetapi juga menghilangkan perhitungan data aktivasi yang kompleks.

Dalam percobaan, tim peneliti menggantikan lapisan normalisasi tradisional dalam beberapa arsitektur transformator dengan DYT, dan hasilnya menunjukkan bahwa model menggunakan DYT dapat dilatih secara stabil dan mencapai kinerja akhir yang lebih tinggi. Yang lebih menarik adalah bahwa pendekatan baru ini biasanya tidak memerlukan penyesuaian hiperparameter untuk arsitektur asli, mengurangi kompleksitas pelatihan model.
Dengan menganalisis proses propagasi ke depan dari tiga model transformator yang berbeda, para peneliti menemukan bahwa lapisan LN awal menunjukkan hubungan linier, tetapi pada lapisan LN yang lebih dalam, hubungan antara input dan output menunjukkan kurva berbentuk S yang mirip dengan fungsi TANH. Temuan ini mengejutkan tim peneliti dan juga memberikan dukungan empiris yang kuat untuk efektivitas DYT.
Liu Zhuang mengatakan bahwa pekerjaan ini membantunya secara mendalam memahami peran lapisan normalisasi dan mengharapkan DYT untuk membawa kemungkinan baru untuk mengurangi biaya pelatihan model dan penalaran. Di masa depan, DYT diharapkan menjadi kandidat penting dalam desain jaringan yang berorientasi efisiensi, mempromosikan pengembangan lebih lanjut dari pembelajaran mendalam.