MASR هو مشروع التعرف على خطاب الماندرين الصيني يعتمد على الشبكات العصبية العميقة الشاملة .
يستخدم MASR شبكة عصبية تلافيفية بوابات ، مع بنية شبكة مشابهة لـ WAV2Letter التي اقترحها Facebook في عام 2016. لكن وظيفة التنشيط المستخدمة ليست ReLU أو HardTanh ، ولكن GLU (الوحدة الخطية ذات البوابات). لذلك ، يطلق عليه شبكة تلافيفية بوابات. وفقا لتجاربي ، فإن استخدام التقارب GLU أسرع من HardTanh . إذا كنت ترغب في دراسة آثار الشبكات التلافيفية للتعرف على الكلام ، فيمكن استخدام هذا المشروع كمرجع.
ما يلي هو معدل خطأ كلمة CER لقياس أداء النموذج. CER = تحرير المسافة/طول الجملة ، كلما كان ذلك أفضل.
يمكن فهمه تقريبًا على أنه 1 - CER هو دقة الاعتراف.
تم تدريب النموذج باستخدام مجموعة بيانات Aishell-1 ، مع ما مجموعه 150 ساعة من التسجيل ، والتي تغطي أكثر من 4000 حرف صيني. عادةً ما تستخدم أنظمة التعرف على الصوت المستخدمة في الصناعة 10 أضعاف بيانات التسجيل لهذا المشروع لتدريب نماذج اللغة ، ولا تتوقع أن يكون هذا المشروع مماثل لتأثير التعرف على الصناعة. هذا ليس واقعيًا لأي مشروع فردي على Github ، ما لم تولد المزيد من التكنولوجيا المتقدمة.
ما هو نموذج اللغة لتدريب Corpus لسيناريوهات محددة؟ على سبيل المثال ، عندما تستخدم التعرف على الصوت في اللعبة ، فإنه يميل إلى التعرف على كلماتك على أنها ما قد تقوله عند لعب اللعبة ، مثل "Dio Chan تعرض للضرب حتى الموت من قبل LAN". في مشاهد أخرى ، "Dio Chan تعرض للضرب حتى الموت من قبل LAN" ليست جملة سلسة على الإطلاق. إذا كنت لا تصدق ذلك ، فستقول لشخص قد قرأ فقط رومانسية الممالك الثلاث ولم يلعب أبدًا شرف الملوك ، "لقد تعرضت Dio Chan للضرب حتى الموت من قبل LAN". أنت متأكد من أنه لن يطلب منك مرة أخرى: "ماذا؟ من قُتل ديو تشان؟ من هي الشبكة المحلية؟"
على البطاقة الفردية GTX 1080TI ، يستغرق حوالي 20 دقيقة لتكرار عصر واحد. (إصدار CUDA من المختبر منخفض نسبيًا ، ولا يستبعد أنه سيكون أسرع بعد تحديث إصدار CUDA.)
يوضح الشكل أعلاه منحنى تدريب CER مع عصر مجموعة التحقق. يمكن ملاحظة أن مجموعة التحقق من CER قد انخفضت إلى 11 ٪.
لا يظهر أداء مجموعة الاختبار في الشكل. CER من مجموعة الاختبار أعلى قليلاً ، بنسبة 14 ٪.
يمكن تخفيض CER من مجموعة الاختبار إلى 8 ٪ من خلال نموذج اللغة الخارجي.
تم تدريب النموذج الذي تم تدريبه مسبقًا الذي يوفره المشروع حاليًا على حوالي 100 عصر ، وهو الأفضل تقريبًا.