В области глубокого обучения слои нормализации всегда считались одним из незаменимых компонентов в современных нейронных сетях. Тем не менее, недавнее исследование, проведенное научным исследователем Meta Fair Liu Zhuang, «Transformer без слоя нормализации» привлек к себе широкое внимание. В этом исследовании не только новая технология, называемая Dynamic Tanh (Dynamic Tanh, DYT), но также показывает, что архитектура трансформатора все еще может достичь эффективного обучения и рассуждений без использования традиционных слоев нормализации.
Слои нормализации, особенно нормализация слоев (LN), сыграли решающую роль в оптимизации моделей глубокого обучения за последнее десятилетие. Слой LN ускоряет конвергенцию модели, масштабируя и сжав активацию ввода. Тем не менее, исследователи обнаружили, что широкое использование уровня LN было не единственным вариантом. Их исследование началось с наблюдения за поведением слоя LN и предложило новый альтернативный метод Dyt. Эта операция на уровне элемента не только имитирует эффекты масштабирования и сжатия уровня LN, но также устраняет сложные расчеты данных активации.

В эксперименте исследовательская группа заменила традиционные слои нормализации в нескольких архитектурах трансформатора DYT, и результаты показали, что модели, использующие DYT, могут быть стабильно обучены и достигать более высокой конечной производительности. Что еще более захватывающе, так это то, что этот новый подход обычно не требует корректировки гиперпараметра к исходной архитектуре, что снижает сложность модели.
Анализируя процесс прямого распространения трех различных моделей трансформатора, исследователи обнаружили, что ранний уровень LN показал линейную связь, но в более глубоком уровне LN взаимосвязь между входом и выходом показала S-образную кривую, сходную с функцией TANH. Этот вывод удивил исследовательскую группу, а также обеспечил сильную эмпирическую поддержку эффективности DYT.
Лю Чжуан сказал, что эта работа помогла ему глубоко понять роль слоя нормализации и ожидаемого DYT, чтобы принести новые возможности для снижения стоимости модельного обучения и рассуждений. В будущем DYT, как ожидается, станет важным кандидатом в дизайн сети, ориентированной на эффективность, способствуя дальнейшему развитию глубокого обучения.