End_2_End_Automatic_Speech_Recognition_For_Gujarati download - تنزيل End_2_End_Automatic_Speech_Recognition_For

End_2_End_Automatic_Speech_Recognition_For_Gujarati

كود الذكاء الاصطناعي

1.0.0

تنزيل

التعرف على الكلام التلقائي من طرف إلى غوجاراتي

أيقونة 2020: المؤتمر الدولي السابع عشر لمعالجة اللغة الطبيعية

[ورقة] | [حديث عن طريق الفم الطويل]

ديبانغ رافال ¹ | فيوم باثاك ¹ | Muktan Patel ¹ | بريجيش بهات ¹

جامعة Dharmsinh Desai ، Nadiad ¹

نقدم نهجًا جديدًا لتحسين أداء نظام التعرف على الكلام الشامل للغة غوجاراتية. نتبع نهجًا قائمًا على التعلم العميق والذي يتضمن الشبكة العصبية التلافيفية (CNN) ، وطبقات الذاكرة طويلة المدى الطويلة في الاتجاه (BILSTM) ، والطبقات الكثيفة ، والتصنيف الزمني للاتصال (CTC) كدالة خسارة. من أجل تحسين أداء النظام مع الحجم المحدود لمجموعة البيانات ، نقدم نموذج فك تشفير اللغة المدمجة (WLM و CLM) وتمثيلات تشفير ثنائية الاتجاه من تقنية ما بعد المعالجة القائمة على المحولات (BERT). للحصول على رؤى رئيسية من نظام التعرف على الكلام التلقائي (ASR) ، اقترحنا طرق تحليل مختلفة. تساعد هذه الأفكار على فهم نظام ASR الخاص بنا استنادًا إلى لغة معينة (غوجاراتية) وكذلك يمكن أن تحكم أنظمة ASR "لتحسين أداء لغات الموارد المنخفضة. لقد قمنا بتدريب النموذج على مجموعة خطاب Microsoft ، ونلاحظ انخفاضًا بنسبة 5.11 ٪ في معدل خطأ الكلمات (WER) فيما يتعلق بنماذج القاعدة.

إذا وجدت هذا العمل مفيدًا ، فيرجى الاستشهاد بهذا العمل باستخدام Bibtex التالي:

 @inproceedings { raval-etal-2020-end ,
    title = " End-to-End Automatic Speech Recognition for {G}ujarati " ,
    author = " Raval, Deepang  and
      Pathak, Vyom  and
      Patel, Muktan  and
      Bhatt, Brijesh " ,
    booktitle = " Proceedings of the 17th International Conference on Natural Language Processing (ICON) " ,
    month = dec,
    year = " 2020 " ,
    address = " Indian Institute of Technology Patna, Patna, India " ,
    publisher = " NLP Association of India (NLPAI) " ,
    url = " https://aclanthology.org/2020.icon-main.56 " ,
    pages = " 409--419 " ,
    abstract = "We present a novel approach for improving the performance of an End-to-End speech recognition system for the Gujarati language. We follow a deep learning based approach which includes Convolutional Neural Network (CNN), Bi-directional Long Short Term Memory (BiLSTM) layers, Dense layers, and Connectionist Temporal Classification (CTC) as a loss function. In order to improve the performance of the system with the limited size of the dataset, we present a combined language model (WLM and CLM) based prefix decoding technique and Bidirectional Encoder Representations from Transformers (BERT) based post-processing technique. To gain key insights from our Automatic Speech Recognition (ASR) system, we proposed different analysis methods. These insights help to understand our ASR system based on a particular language (Gujarati) as well as can govern ASR systems{'} to improve the performance for low resource languages. We have trained the model on the Microsoft Speech Corpus, and we observe a 5.11{%} decrease in Word Error Rate (WER) with respect to base-model WER.",
}

يثبت

النظام والمتطلبات

Linux OS
بيثون -3.6
TensorFlow -2.2.0
CUDA-11.1
Cudnn-7.6.5

إعداد مستودع

git clone https://github.com/01-vyom/End_2_End_Automatic_Speech_Recognition_For_Gujarati.git
python -m venv asr_env
source $PWD /asr_env/bin/activate

تثبيت التبعيات

تغيير الدليل إلى جذر المستودع.

pip install --upgrade pip
pip install -r requirements.txt

رمز التشغيل

تغيير الدليل إلى جذر المستودع.

تمرين

لتدريب النموذج في الورقة ، قم بتشغيل هذا الأمر:

python ./Train/train.py

ملحوظة:

إذا لزم الأمر ، قم بتغيير المتغيرات PathDataAudios و PathDataTranscripts للإشارة إلى المسار المناسب إلى ملفات الصوت والمسار إلى ملف Trascript ، في ملف Train/Depative_extractor.py.
إذا لزم الأمر ، قم بتغيير متغير currmodel في ملف Train/Train.py لتغيير اسم النموذج الذي يتم حفظه.

تقييم

الاستدلال

للاستنتاج باستخدام النموذج المدربين ، قم بتشغيل:

python ./Eval/inference.py

ملحوظة:

قم بتغيير المتغيرات PathDataAudios و PathDataTranscripts للإشارة إلى المسار المناسب إلى ملفات الصوت والمسار إلى ملف trascript للاختبار.
لتغيير اسم النموذج للاستدلال ، قم بتغيير model المتغير ، وتغيير اسم الملف للاختبار ، قم بتغيير متغير test_data .
./Eval/ المخرج .pickle

فك التشفير

لفك تشفير الإخراج المستنتج ، قم بتشغيل:

python ./Eval/decode.py

ملحوظة:

لتحديد نموذج محدد .pickle تغيير متغير model .
سيتم تخزين الإخراج في ./Eval/

ما بعد المعالجة

لما بعد المعالجة الإخراج الذي تم فك تشفيره ، اتبع الخطوات المذكورة في هذا ReadMe.

تحليل النظام

لإجراء تحليل النظام ، تشغيل:

python ./System Analysis/system_analysis.py

ملحوظة:

لتحديد ملف decoding .csv محدد نموذج لتحليله ، قم بتغيير متغير model .
لتحديد نوع معين من العمود (نوع الفرضية) لإجراء التحليل ، قم بتغيير متغير type . سيتم حفظ ملفات الإخراج في ./System Analysis/ ، خاصة بنموذج ونوع فك التشفير.