Dans le domaine de l'apprentissage en profondeur, les couches de normalisation ont toujours été considérées comme l'une des composantes indispensables des réseaux de neurones modernes. Cependant, une étude récente dirigée par le chercheur Meta Fair, Liu Zhuang, "Transformer sans couche de normalisation" a attiré une attention généralisée. Cette étude propose non seulement une nouvelle technologie appelée Dynamic TanH (Dynamic TanH, DYT), mais montre également que l'architecture des transformateurs peut toujours obtenir une formation et un raisonnement efficaces sans utiliser de couches de normalisation traditionnelles.
Les couches de normalisation, en particulier la normalisation des couches (LN), ont joué un rôle crucial dans l'optimisation des modèles d'apprentissage en profondeur au cours de la dernière décennie. La couche LN accélère la convergence du modèle en élargissant et en compressant l'activation d'entrée. Cependant, les chercheurs ont constaté que l'utilisation généralisée de la couche LN n'était pas la seule option. Leurs recherches ont commencé par observer le comportement de la couche LN et ont proposé une nouvelle méthode alternative, Dyt. Cette opération au niveau de l'élément simule non seulement les effets de mise à l'échelle et de compression de la couche LN, mais élimine également les calculs de données d'activation complexes.

Dans l'expérience, l'équipe de recherche a remplacé les couches de normalisation traditionnelles dans plusieurs architectures de transformateurs par DYT, et les résultats ont montré que les modèles utilisant DYT peuvent être formés de manière stable et atteindre des performances finales plus élevées. Ce qui est encore plus excitant, c'est que cette nouvelle approche ne nécessite généralement pas d'ajustements d'hyperparamètre à l'architecture d'origine, réduisant la complexité de la formation des modèles.
En analysant le processus de propagation avant de trois modèles de transformateurs différents, les chercheurs ont constaté que la couche LN précoce montrait une relation linéaire, mais dans la couche LN plus profonde, la relation entre l'entrée et la sortie a montré une courbe en forme de S similaire à la fonction TANH. Cette constatation a surpris l'équipe de recherche et a également fourni un fort soutien empirique à l'efficacité de Dyt.
Liu Zhuang a déclaré que ce travail l'avait aidé à comprendre profondément le rôle de la couche de normalisation et de DYT attendu pour apporter de nouvelles possibilités pour réduire le coût de la formation et du raisonnement des modèles. À l'avenir, DYT devrait devenir un candidat important dans la conception de réseaux axé sur l'efficacité, favorisant le développement ultérieur de l'apprentissage en profondeur.