En el campo del aprendizaje profundo, las capas de normalización siempre se han considerado como uno de los componentes indispensables en las redes neuronales modernas. Sin embargo, un estudio reciente dirigido por el científico de investigación de Meta Fair Liu Zhuang, "Transformer sin una capa de normalización" ha atraído una atención generalizada. Este estudio no solo propone una nueva tecnología llamada Dynamic Tanh (Dynamic Tanh, DYT), sino que también muestra que la arquitectura del transformador aún puede lograr un entrenamiento y razonamiento eficientes sin usar capas de normalización tradicionales.
Las capas de normalización, especialmente la normalización de la capa (LN), han jugado un papel crucial en la optimización de modelos de aprendizaje profundo durante la última década. La capa LN acelera la convergencia del modelo escala y comprimiendo la activación de entrada. Sin embargo, los investigadores encontraron que el uso generalizado de la capa LN no era la única opción. Su investigación comenzó con la observación del comportamiento de la capa LN y propuso un nuevo método alternativo, DYT. Esta operación a nivel de elemento no solo simula los efectos de escala y compresión de la capa LN, sino que también elimina los cálculos de datos de activación complejos.

En el experimento, el equipo de investigación reemplazó las capas de normalización tradicionales en arquitecturas de transformadores múltiples con DYT, y los resultados mostraron que los modelos que usan DYT pueden ser entrenados de manera estable y lograr un rendimiento final más alto. Lo que es aún más emocionante es que este nuevo enfoque generalmente no requiere ajustes de hiperparameter a la arquitectura original, reduciendo la complejidad del entrenamiento modelo.
Al analizar el proceso de propagación hacia adelante de tres modelos de transformadores diferentes, los investigadores encontraron que la capa LN temprana mostró una relación lineal, pero en la capa LN más profunda, la relación entre la entrada y la salida mostró una curva en forma de S similar a la función Tanh. Este hallazgo sorprendió al equipo de investigación y también proporcionó un fuerte apoyo empírico para la efectividad de DYT.
Liu Zhuang dijo que este trabajo lo ayudó a comprender profundamente el papel de la capa de normalización y esperaba que DYT traiga nuevas posibilidades para reducir el costo de la capacitación y el razonamiento del modelo. En el futuro, se espera que DYT se convierta en un candidato importante en el diseño de la red orientado a la eficiencia, promoviendo el desarrollo adicional del aprendizaje profundo.