في مجال التعلم العميق ، كانت طبقات التطبيع دائمًا واحدة من المكونات التي لا غنى عنها في الشبكات العصبية الحديثة. ومع ذلك ، فإن دراسة حديثة بقيادة عالم الأبحاث المعرض للوصول ليو تشوانغ ، "المحول بدون طبقة تطبيع" اجتذبت اهتمامًا واسع النطاق. لا تقترح هذه الدراسة تقنية جديدة تسمى Dynamic TANH (Dynamic TANH ، DYT) ، ولكنها توضح أيضًا أن بنية المحولات لا تزال يمكن أن تحقق تدريبًا وتفكيرًا فعالين دون استخدام طبقات التطبيع التقليدية.
لعبت طبقات التطبيع ، وخاصة تطبيع الطبقة (LN) ، دورًا حاسمًا في تحسين نماذج التعلم العميق على مدار العقد الماضي. تقوم طبقة LN بتسريع تقارب النموذج عن طريق تحجيم وضغط تنشيط الإدخال. ومع ذلك ، وجد الباحثون أن الاستخدام الواسع للطبقة LN لم يكن الخيار الوحيد. بدأت أبحاثهم بمراقبة سلوك طبقة LN واقترحت طريقة بديلة جديدة ، DYT. لا تحاكي عملية مستوى العنصر هذه فقط تأثيرات التحجيم والضغط لطبقة LN ، ولكنها تلغي أيضًا حسابات بيانات التنشيط المعقدة.

في التجربة ، استبدل فريق البحث طبقات التطبيع التقليدية في بنيات محولات متعددة مع DYT ، وأظهرت النتائج أن النماذج التي تستخدم DYT يمكن تدريبها بشكل ثابت وتحقيق أداء نهائي أعلى. الأمر الأكثر إثارة هو أن هذا النهج الجديد عادة لا يتطلب تعديلات مفرطة في البنية الأصلية ، مما يقلل من تعقيد التدريب النموذجي.
من خلال تحليل عملية الانتشار الأمامية لثلاثة نماذج مختلفة للمحولات ، وجد الباحثون أن طبقة LN المبكرة أظهرت علاقة خطية ، ولكن في طبقة LN العميقة ، أظهرت العلاقة بين المدخلات والمخرجات منحنى على شكل S مماثل لوظيفة TANH. فاجأ هذا الاكتشاف فريق البحث وقدم أيضًا دعمًا تجريبيًا قويًا لفعالية الحدود.
قال ليو تشوانغ إن هذا العمل ساعده بعمق على فهم دور طبقة التطبيع والحدود المتوقعة لتقليل إمكانيات جديدة لتقليل تكلفة التدريب النموذجي والتفكير. في المستقبل ، من المتوقع أن يصبح DYT مرشحًا مهمًا في تصميم الشبكة الموجهة نحو الكفاءة ، مما يعزز المزيد من التطوير للتعلم العميق.