ديبانغ رافال 1 | فيوم باثاك 1 | Muktan Patel 1 | بريجيش بهات 1
جامعة Dharmsinh Desai ، Nadiad 1
نقدم نهجًا جديدًا لتحسين أداء نظام التعرف على الكلام الشامل للغة غوجاراتية. نتبع نهجًا قائمًا على التعلم العميق والذي يتضمن الشبكة العصبية التلافيفية (CNN) ، وطبقات الذاكرة طويلة المدى الطويلة في الاتجاه (BILSTM) ، والطبقات الكثيفة ، والتصنيف الزمني للاتصال (CTC) كدالة خسارة. من أجل تحسين أداء النظام مع الحجم المحدود لمجموعة البيانات ، نقدم نموذج فك تشفير اللغة المدمجة (WLM و CLM) وتمثيلات تشفير ثنائية الاتجاه من تقنية ما بعد المعالجة القائمة على المحولات (BERT). للحصول على رؤى رئيسية من نظام التعرف على الكلام التلقائي (ASR) ، اقترحنا طرق تحليل مختلفة. تساعد هذه الأفكار على فهم نظام ASR الخاص بنا استنادًا إلى لغة معينة (غوجاراتية) وكذلك يمكن أن تحكم أنظمة ASR "لتحسين أداء لغات الموارد المنخفضة. لقد قمنا بتدريب النموذج على مجموعة خطاب Microsoft ، ونلاحظ انخفاضًا بنسبة 5.11 ٪ في معدل خطأ الكلمات (WER) فيما يتعلق بنماذج القاعدة.
إذا وجدت هذا العمل مفيدًا ، فيرجى الاستشهاد بهذا العمل باستخدام Bibtex التالي:
@inproceedings { raval-etal-2020-end ,
title = " End-to-End Automatic Speech Recognition for {G}ujarati " ,
author = " Raval, Deepang and
Pathak, Vyom and
Patel, Muktan and
Bhatt, Brijesh " ,
booktitle = " Proceedings of the 17th International Conference on Natural Language Processing (ICON) " ,
month = dec,
year = " 2020 " ,
address = " Indian Institute of Technology Patna, Patna, India " ,
publisher = " NLP Association of India (NLPAI) " ,
url = " https://aclanthology.org/2020.icon-main.56 " ,
pages = " 409--419 " ,
abstract = "We present a novel approach for improving the performance of an End-to-End speech recognition system for the Gujarati language. We follow a deep learning based approach which includes Convolutional Neural Network (CNN), Bi-directional Long Short Term Memory (BiLSTM) layers, Dense layers, and Connectionist Temporal Classification (CTC) as a loss function. In order to improve the performance of the system with the limited size of the dataset, we present a combined language model (WLM and CLM) based prefix decoding technique and Bidirectional Encoder Representations from Transformers (BERT) based post-processing technique. To gain key insights from our Automatic Speech Recognition (ASR) system, we proposed different analysis methods. These insights help to understand our ASR system based on a particular language (Gujarati) as well as can govern ASR systems{'} to improve the performance for low resource languages. We have trained the model on the Microsoft Speech Corpus, and we observe a 5.11{%} decrease in Word Error Rate (WER) with respect to base-model WER.",
}git clone https://github.com/01-vyom/End_2_End_Automatic_Speech_Recognition_For_Gujarati.git
python -m venv asr_env
source $PWD /asr_env/bin/activateتغيير الدليل إلى جذر المستودع.
pip install --upgrade pip
pip install -r requirements.txtتغيير الدليل إلى جذر المستودع.
لتدريب النموذج في الورقة ، قم بتشغيل هذا الأمر:
python ./Train/train.pyملحوظة:
PathDataAudios و PathDataTranscripts للإشارة إلى المسار المناسب إلى ملفات الصوت والمسار إلى ملف Trascript ، في ملف Train/Depative_extractor.py.currmodel في ملف Train/Train.py لتغيير اسم النموذج الذي يتم حفظه.للاستنتاج باستخدام النموذج المدربين ، قم بتشغيل:
python ./Eval/inference.pyملحوظة:
PathDataAudios و PathDataTranscripts للإشارة إلى المسار المناسب إلى ملفات الصوت والمسار إلى ملف trascript للاختبار.model المتغير ، وتغيير اسم الملف للاختبار ، قم بتغيير متغير test_data ../Eval/ المخرج .pickle لفك تشفير الإخراج المستنتج ، قم بتشغيل:
python ./Eval/decode.pyملحوظة:
.pickle تغيير متغير model ../Eval/ لما بعد المعالجة الإخراج الذي تم فك تشفيره ، اتبع الخطوات المذكورة في هذا ReadMe.
لإجراء تحليل النظام ، تشغيل:
python ./System Analysis/system_analysis.pyملحوظة:
لتحديد ملف decoding .csv محدد نموذج لتحليله ، قم بتغيير متغير model .
لتحديد نوع معين من العمود (نوع الفرضية) لإجراء التحليل ، قم بتغيير متغير type . سيتم حفظ ملفات الإخراج في ./System Analysis/ ، خاصة بنموذج ونوع فك التشفير.
تحقق خوارزميةنا الأداء التالي:
| اسم التقنية | تخفيض (٪) |
|---|---|
| بادئة مع LMS ' | 2.42 |
| بادئة مع LMS ' + تعويذة مصحح بيرت | 5.11 |
ملحوظة:
يعتمد رمز فك تشفير البادئة على تطبيقات 1 و 2 مفتوحة المصدر. تم تكييف رمز Code for Bert المستند إلى Bert من هذا التنفيذ المفتوح المصدر
مرخصة بموجب ترخيص معهد ماساتشوستس للتكنولوجيا.