No campo da aprendizagem profunda, as camadas de normalização sempre foram consideradas um dos componentes indispensáveis nas redes neurais modernas. No entanto, um estudo recente liderado pelo cientista da Meta Fair Research Liu Zhuang, "Transformer sem uma camada de normalização", atraiu atenção generalizada. Este estudo não apenas propõe uma nova tecnologia chamada Tanh dinâmica (Tanh Dynamic, DYT), mas também mostra que a arquitetura do transformador ainda pode obter treinamento e raciocínio eficientes sem o uso de camadas tradicionais de normalização.
As camadas de normalização, especialmente a normalização da camada (LN), desempenharam um papel crucial na otimização de modelos de aprendizado profundo na última década. A camada LN acelera a convergência do modelo, dimensionando e comprimindo a ativação de entrada. No entanto, os pesquisadores descobriram que o uso generalizado da camada LN não era a única opção. Sua pesquisa começou com a observação do comportamento da camada LN e propôs um novo método alternativo, Dy. Essa operação no nível do elemento não apenas simula os efeitos de escala e compressão da camada LN, mas também elimina cálculos complexos de dados de ativação.

No experimento, a equipe de pesquisa substituiu as camadas de normalização tradicionais em várias arquiteturas de transformadores por DYT, e os resultados mostraram que os modelos usando DYT podem ser treinados de forma estável e obter maior desempenho final. O que é ainda mais emocionante é que essa nova abordagem geralmente não requer ajustes de hiperparâmetro na arquitetura original, reduzindo a complexidade do treinamento de modelos.
Ao analisar o processo de propagação direta de três modelos diferentes de transformadores, os pesquisadores descobriram que a camada LN inicial mostrava uma relação linear, mas na camada LN mais profunda, a relação entre entrada e saída mostrou uma curva em forma de S semelhante à função Tanh. Essa descoberta surpreendeu a equipe de pesquisa e também forneceu forte apoio empírico à eficácia do DYT.
Liu Zhuang disse que esse trabalho o ajudou a entender profundamente o papel da camada de normalização e o Dyt esperado para trazer novas possibilidades para reduzir o custo do treinamento e raciocínio modelo. No futuro, espera-se que o DYT se torne um candidato importante no design de rede orientado a eficiência, promovendo o desenvolvimento adicional de aprendizado profundo.