Im Bereich des tiefen Lernens wurden Normalisierungsschichten immer als eine der unverzichtbaren Komponenten in modernen neuronalen Netzwerken angesehen. Eine kürzlich durchgeführte Studie unter der Leitung von META Fair Research Scientist Liu Zhuang, "Transformator ohne Normalisierungsschicht", hat weit verbreitete Aufmerksamkeit erregt. Diese Studie schlägt nicht nur eine neue Technologie vor, die als Dynamic Tanh (Dynamic Tanh, DYT) bezeichnet wird, sondern zeigt auch, dass die Transformatorarchitektur immer noch ein effizientes Training und Argumentation erreichen kann, ohne traditionelle Normalisierungsschichten zu verwenden.
Normalisierungsschichten, insbesondere Schichtnormalisierung (LN), haben in den letzten zehn Jahren eine entscheidende Rolle bei der Optimierung von Deep -Learning -Modellen gespielt. Die LN -Schicht beschleunigt die Konvergenz des Modells durch Skalierung und Komprimierung der Eingangsaktivierung. Forscher fanden jedoch heraus, dass die weit verbreitete Verwendung der LN -Schicht nicht die einzige Option war. Ihre Forschung begann mit der Beobachtung des Verhaltens der LN -Schicht und schlug eine neue alternative Methode vor, DYT. Dieser Betrieb auf Elementebene simuliert nicht nur die Skalierungs- und Komprimierungseffekte der LN-Schicht, sondern eliminiert auch komplexe Aktivierungsdatenberechnungen.

In dem Experiment ersetzte das Forschungsteam traditionelle Normalisierungsschichten in mehreren Transformatorarchitekturen durch DYT, und die Ergebnisse zeigten, dass Modelle mit DYT stabil geschult und eine höhere endgültige Leistung erzielen können. Noch aufregender ist, dass dieser neue Ansatz normalerweise keine Hyperparameteranpassungen an die ursprüngliche Architektur erfordert, was die Komplexität des Modelltrainings verringert.
Durch die Analyse des Vorwärtsvermeidungsprozesses von drei verschiedenen Transformatormodellen stellten die Forscher fest, dass die frühe LN-Schicht eine lineare Beziehung zeigte. In der tieferen LN-Schicht zeigte die Beziehung zwischen Input und Ausgabe eine S-förmige Kurve, die der TANH-Funktion ähnelte. Dieser Befund überraschte das Forschungsteam und lieferte auch eine starke empirische Unterstützung für die Wirksamkeit von DYT.
Liu Zhuang sagte, dass diese Arbeit ihm geholfen habe, die Rolle der Normalisierungsschicht und den erwarteten DYT zutiefst zu verstehen, um neue Möglichkeiten zu bieten, um die Kosten für Modelltraining und -untergründung zu senken. In Zukunft wird erwartet, dass DYT ein wichtiger Kandidat für effizienzorientierte Netzwerkdesign wird und die Weiterentwicklung von Deep-Lernen fördert.