Deepang Raval 1 | Vyom Pathak 1 | Muktan Patel 1 | BRIJESH Bhatt 1
Universitas Dharmsinh Desai, Nadiad 1
Kami menyajikan pendekatan baru untuk meningkatkan kinerja sistem pengenalan ucapan ujung ke ujung untuk bahasa Gujarati. Kami mengikuti pendekatan berbasis pembelajaran yang mendalam yang mencakup jaringan saraf konvolusional (CNN), lapisan dua arah jangka pendek memori jangka pendek (BILSTM), lapisan padat, dan klasifikasi temporal connectionalist (CTC) sebagai fungsi kerugian. Untuk meningkatkan kinerja sistem dengan ukuran terbatas dari dataset, kami menyajikan teknik decoding awalan model bahasa gabungan (WLM dan CLM) dan representasi enkoder dua arah dari Teknik Pasca Pemrosesan Berbasis Transformers (BerT). Untuk mendapatkan wawasan utama dari sistem pengenalan ucapan otomatis (ASR) kami, kami mengusulkan metode analisis yang berbeda. Wawasan ini membantu memahami sistem ASR kami berdasarkan bahasa tertentu (Gujarati) serta dapat mengatur sistem ASR 'untuk meningkatkan kinerja untuk bahasa sumber daya rendah. Kami telah melatih model pada Microsoft Speech Corpus, dan kami mengamati penurunan 5,11% dalam tingkat kesalahan kata (WER) sehubungan dengan model-base-model WER.
Jika Anda menemukan pekerjaan ini bermanfaat, silakan kutip pekerjaan ini menggunakan Bibtex berikut:
@inproceedings { raval-etal-2020-end ,
title = " End-to-End Automatic Speech Recognition for {G}ujarati " ,
author = " Raval, Deepang and
Pathak, Vyom and
Patel, Muktan and
Bhatt, Brijesh " ,
booktitle = " Proceedings of the 17th International Conference on Natural Language Processing (ICON) " ,
month = dec,
year = " 2020 " ,
address = " Indian Institute of Technology Patna, Patna, India " ,
publisher = " NLP Association of India (NLPAI) " ,
url = " https://aclanthology.org/2020.icon-main.56 " ,
pages = " 409--419 " ,
abstract = "We present a novel approach for improving the performance of an End-to-End speech recognition system for the Gujarati language. We follow a deep learning based approach which includes Convolutional Neural Network (CNN), Bi-directional Long Short Term Memory (BiLSTM) layers, Dense layers, and Connectionist Temporal Classification (CTC) as a loss function. In order to improve the performance of the system with the limited size of the dataset, we present a combined language model (WLM and CLM) based prefix decoding technique and Bidirectional Encoder Representations from Transformers (BERT) based post-processing technique. To gain key insights from our Automatic Speech Recognition (ASR) system, we proposed different analysis methods. These insights help to understand our ASR system based on a particular language (Gujarati) as well as can govern ASR systems{'} to improve the performance for low resource languages. We have trained the model on the Microsoft Speech Corpus, and we observe a 5.11{%} decrease in Word Error Rate (WER) with respect to base-model WER.",
}git clone https://github.com/01-vyom/End_2_End_Automatic_Speech_Recognition_For_Gujarati.git
python -m venv asr_env
source $PWD /asr_env/bin/activateUbah direktori ke akar repositori.
pip install --upgrade pip
pip install -r requirements.txtUbah direktori ke akar repositori.
Untuk melatih model di koran, jalankan perintah ini:
python ./Train/train.pyCatatan:
PathDataAudios dan PathDataTranscripts untuk menunjuk ke jalur yang sesuai untuk file audio dan path ke file trascript, dalam file train/fitur_extractor.py.currmodel di file train/train.py untuk mengubah nama model yang sedang disimpan.Untuk inferensi menggunakan model yang dilatih, jalankan:
python ./Eval/inference.pyCatatan:
PathDataAudios dan PathDataTranscripts untuk menunjuk ke jalur yang sesuai untuk file audio dan jalur ke file trascript untuk pengujian.model variabel, dan untuk mengubah nama file untuk pengujian, ubah variabel test_data ..pickle referensi dan hipotesis dengan nama model spesifik yang disimpan di folder ./Eval/ . Untuk mendekode output yang disimpulkan, jalankan:
python ./Eval/decode.pyCatatan:
.pickle Ubah variabel model ../Eval/ , khusus untuk model dengan semua jenis decoding dan teks aktual. Untuk pasca-pemrosesan output yang diterjemahkan, ikuti langkah-langkah yang disebutkan dalam readme ini.
Untuk melakukan analisis sistem, jalankan:
python ./System Analysis/system_analysis.pyCatatan:
Untuk memilih file decoding spesifik .csv untuk dianalisis, ubah variabel model .
Untuk memilih jenis kolom tertentu (tipe hipotesis) untuk melakukan analisis, ubah variabel type . File output akan disimpan dalam ./System Analysis/ , khusus untuk model dan jenis decoding.
Algoritma kami mencapai kinerja berikut:
| Nama Teknik | Pengurangan (%) |
|---|---|
| Awalan dengan LMS ' | 2.42 |
| Awalan dengan LMS ' + Korektor Meja Bert | 5.11 |
Catatan:
Kode decoding awalan didasarkan pada 1 dan 2 implementasi sumber terbuka. Kode untuk korektor mantra berbasis Bert diadaptasi dari implementasi sumber terbuka ini
Berlisensi di bawah lisensi MIT.