End_2_End_Automatic_Speech_Recognition_For_Gujarati Unduh - End_2_End_Automatic_Speech_Recognition_For

End_2_End_Automatic_Speech_Recognition_For_Gujarati

Kode Sumber AI

1.0.0

Unduh

Pengenalan ucapan otomatis ujung ke ujung untuk Gujarati

Ikon 2020: Konferensi Internasional ke -17 tentang Pemrosesan Bahasa Alami

[Kertas] | [Pembicaraan lisan panjang]

Deepang Raval ¹ | Vyom Pathak ¹ | Muktan Patel ¹ | BRIJESH Bhatt ¹

Universitas Dharmsinh Desai, Nadiad ¹

Kami menyajikan pendekatan baru untuk meningkatkan kinerja sistem pengenalan ucapan ujung ke ujung untuk bahasa Gujarati. Kami mengikuti pendekatan berbasis pembelajaran yang mendalam yang mencakup jaringan saraf konvolusional (CNN), lapisan dua arah jangka pendek memori jangka pendek (BILSTM), lapisan padat, dan klasifikasi temporal connectionalist (CTC) sebagai fungsi kerugian. Untuk meningkatkan kinerja sistem dengan ukuran terbatas dari dataset, kami menyajikan teknik decoding awalan model bahasa gabungan (WLM dan CLM) dan representasi enkoder dua arah dari Teknik Pasca Pemrosesan Berbasis Transformers (BerT). Untuk mendapatkan wawasan utama dari sistem pengenalan ucapan otomatis (ASR) kami, kami mengusulkan metode analisis yang berbeda. Wawasan ini membantu memahami sistem ASR kami berdasarkan bahasa tertentu (Gujarati) serta dapat mengatur sistem ASR 'untuk meningkatkan kinerja untuk bahasa sumber daya rendah. Kami telah melatih model pada Microsoft Speech Corpus, dan kami mengamati penurunan 5,11% dalam tingkat kesalahan kata (WER) sehubungan dengan model-base-model WER.

Jika Anda menemukan pekerjaan ini bermanfaat, silakan kutip pekerjaan ini menggunakan Bibtex berikut:

 @inproceedings { raval-etal-2020-end ,
    title = " End-to-End Automatic Speech Recognition for {G}ujarati " ,
    author = " Raval, Deepang  and
      Pathak, Vyom  and
      Patel, Muktan  and
      Bhatt, Brijesh " ,
    booktitle = " Proceedings of the 17th International Conference on Natural Language Processing (ICON) " ,
    month = dec,
    year = " 2020 " ,
    address = " Indian Institute of Technology Patna, Patna, India " ,
    publisher = " NLP Association of India (NLPAI) " ,
    url = " https://aclanthology.org/2020.icon-main.56 " ,
    pages = " 409--419 " ,
    abstract = "We present a novel approach for improving the performance of an End-to-End speech recognition system for the Gujarati language. We follow a deep learning based approach which includes Convolutional Neural Network (CNN), Bi-directional Long Short Term Memory (BiLSTM) layers, Dense layers, and Connectionist Temporal Classification (CTC) as a loss function. In order to improve the performance of the system with the limited size of the dataset, we present a combined language model (WLM and CLM) based prefix decoding technique and Bidirectional Encoder Representations from Transformers (BERT) based post-processing technique. To gain key insights from our Automatic Speech Recognition (ASR) system, we proposed different analysis methods. These insights help to understand our ASR system based on a particular language (Gujarati) as well as can govern ASR systems{'} to improve the performance for low resource languages. We have trained the model on the Microsoft Speech Corpus, and we observe a 5.11{%} decrease in Word Error Rate (WER) with respect to base-model WER.",
}

Pengaturan

Sistem & Persyaratan

Linux OS
Python-3.6
TensorFlow-2.2.0
CUDA-11.1
Cudnn-7.6.5

Menyiapkan repositori

git clone https://github.com/01-vyom/End_2_End_Automatic_Speech_Recognition_For_Gujarati.git
python -m venv asr_env
source $PWD /asr_env/bin/activate

Menginstal dependensi

Ubah direktori ke akar repositori.

pip install --upgrade pip
pip install -r requirements.txt

Kode berjalan

Ubah direktori ke akar repositori.

Pelatihan

Untuk melatih model di koran, jalankan perintah ini:

python ./Train/train.py

Catatan:

Jika diperlukan ubah variabel PathDataAudios dan PathDataTranscripts untuk menunjuk ke jalur yang sesuai untuk file audio dan path ke file trascript, dalam file train/fitur_extractor.py.
Jika diperlukan Ubah variabel currmodel di file train/train.py untuk mengubah nama model yang sedang disimpan.

Evaluasi

Kesimpulan

Untuk inferensi menggunakan model yang dilatih, jalankan:

python ./Eval/inference.py

Catatan:

Ubah variabel PathDataAudios dan PathDataTranscripts untuk menunjuk ke jalur yang sesuai untuk file audio dan jalur ke file trascript untuk pengujian.
Untuk mengubah nama model untuk inferencing, ubah model variabel, dan untuk mengubah nama file untuk pengujian, ubah variabel test_data .
Output akan menjadi .pickle referensi dan hipotesis dengan nama model spesifik yang disimpan di folder ./Eval/ .

Decoding

Untuk mendekode output yang disimpulkan, jalankan:

python ./Eval/decode.py

Catatan:

Untuk memilih model spesifik .pickle Ubah variabel model .
Output akan disimpan di ./Eval/ , khusus untuk model dengan semua jenis decoding dan teks aktual.

Pasca-pemrosesan

Untuk pasca-pemrosesan output yang diterjemahkan, ikuti langkah-langkah yang disebutkan dalam readme ini.

Analisis Sistem

Untuk melakukan analisis sistem, jalankan:

python ./System Analysis/system_analysis.py

Catatan:

Untuk memilih file decoding spesifik .csv untuk dianalisis, ubah variabel model .
Untuk memilih jenis kolom tertentu (tipe hipotesis) untuk melakukan analisis, ubah variabel type . File output akan disimpan dalam ./System Analysis/ , khusus untuk model dan jenis decoding.

Hasil

Algoritma kami mencapai kinerja berikut:

Nama Teknik	Pengurangan (%)
Awalan dengan LMS '	2.42
Awalan dengan LMS ' + Korektor Meja Bert	5.11

Catatan:

Pengurangan ini dalam decoding yang serakah.

Pengakuan

Kode decoding awalan didasarkan pada 1 dan 2 implementasi sumber terbuka. Kode untuk korektor mantra berbasis Bert diadaptasi dari implementasi sumber terbuka ini

Berlisensi di bawah lisensi MIT.

Memperluas

Informasi Tambahan