딥 러닝 분야에서, 정규화 층은 항상 현대 신경망에서 필수 요소 중 하나로 간주되어왔다. 그러나 Meta Fair Research 과학자 Liu Zhuang이 이끄는 최근의 연구는 "정규화 층이없는 변압기"가 널리 퍼져 나갔습니다. 이 연구는 Dynamic Tanh (Dynamic Tanh, DYT)라는 새로운 기술을 제안 할뿐만 아니라 변압기 아키텍처가 전통적인 정규화 층을 사용하지 않고도 효율적인 교육 및 추론을 달성 할 수 있음을 보여줍니다.
정규화 층, 특히 층 정규화 (LN)는 지난 10 년 동안 딥 러닝 모델을 최적화하는 데 중요한 역할을 해왔습니다. LN 층은 입력 활성화를 스케일링하고 압축하여 모델의 수렴을 가속화합니다. 그러나 연구자들은 LN 층의 광범위한 사용만이 유일한 옵션이 아니라는 것을 발견했습니다. 그들의 연구는 LN 층의 행동을 관찰하는 것으로 시작하여 새로운 대안 방법 인 Dyt를 제안했습니다. 이 요소 수준 작동은 LN 층의 스케일링 및 압축 효과를 시뮬레이션 할뿐만 아니라 복잡한 활성화 데이터 계산을 제거합니다.

실험에서 연구팀은 다중 변압기 아키텍처의 기존 정규화 층을 DYT로 대체했으며, 결과는 DYT를 사용하는 모델을 안정적으로 훈련시키고 최종 성능을 높일 수 있음을 보여주었습니다. 더 흥미로운 점은이 새로운 접근 방식이 일반적으로 원래 아키텍처에 대한 과복 동물 조정이 필요하지 않으므로 모델 교육의 복잡성을 줄입니다.
연구자들은 세 가지 다른 변압기 모델의 순방향 전파 프로세스를 분석함으로써 초기 LN 층이 선형 관계를 보였지만 더 깊은 LN 층에서 입력과 출력 사이의 관계는 TANH 함수와 유사한 S 자형 곡선을 보여 주었다. 이 발견은 연구팀을 놀라게하고 DYT의 효과에 대한 강력한 경험적 지원을 제공했습니다.
Liu Zhuang 은이 작업이 정규화 계층의 역할을 깊이 이해하는 데 도움이되었으며 DYT는 모델 교육 및 추론 비용을 줄일 수있는 새로운 가능성을 가져올 것으로 예상했습니다. 앞으로 DYT는 효율성 지향 네트워크 설계에서 중요한 후보가 될 것으로 예상되어 딥 러닝의 추가 개발을 촉진합니다.