深い学習の分野では、正規化層は常に現代のニューラルネットワークに不可欠なコンポーネントの1つと見なされてきました。しかし、Meta Fair Research Scientist Liu Zhuangが率いる最近の研究「正規化層のないトランス」は、広範囲にわたる注目を集めています。この研究では、Dynamic Tanh(Dynamic Tanh、DYT)と呼ばれる新しいテクノロジーを提案するだけでなく、トランスアーキテクチャが従来の正規化層を使用せずに効率的なトレーニングと推論を達成できることも示しています。
正規化層、特にレイヤー正規化(LN)は、過去10年間で深い学習モデルを最適化する上で重要な役割を果たしてきました。 LN層は、入力アクティベーションをスケーリングおよび圧縮することにより、モデルの収束を加速します。しかし、研究者は、LN層の広範な使用が唯一の選択肢ではないことを発見しました。彼らの研究は、LN層の挙動を観察することから始まり、新しい代替方法DYTを提案しました。この要素レベルの操作は、LN層のスケーリングと圧縮効果をシミュレートするだけでなく、複雑な活性化データ計算を排除します。

実験では、研究チームは複数の変圧器アーキテクチャの従来の正規化層をDYTに置き換え、結果はDYTを使用したモデルを安定して訓練し、より高い最終性能を達成できることを示しました。さらにエキサイティングなのは、この新しいアプローチでは、通常、元のアーキテクチャに対するハイパーパラメーターの調整を必要としないため、モデルトレーニングの複雑さを減らすことです。
3つの異なるトランスモデルの順方向伝播プロセスを分析することにより、研究者は初期のLN層が線形関係を示したことを発見しましたが、より深いLN層では、入力と出力の関係はTANH関数と同様のS字型曲線を示しました。この発見は研究チームを驚かせ、DYTの有効性に対する強力な経験的支援も提供しました。
Liu Zhuangは、この作業は彼が正規化層の役割を深く理解し、DYTがモデルトレーニングと推論のコストを削減するための新しい可能性をもたらすことを期待していると述べました。将来的には、DYTは効率指向のネットワーク設計の重要な候補者になると予想され、深い学習のさらなる発展を促進します。