Deepang Raval 1 | Vyom Pathak 1 | Muktan Patel 1 | Brijesh Bhatt 1
Dharmsinh Desai University、Nadiad 1
グジャラート語のエンドツーエンドの音声認識システムのパフォーマンスを改善するための新しいアプローチを提示します。畳み込み関数としての畳み込みニューラルネットワーク(CNN)、双方向の長期記憶(BILSTM)層、密な層、およびコネクショニストの時間分類(CTC)を含む深い学習ベースのアプローチに従います。データセットのサイズが限られているシステムのパフォーマンスを改善するために、コンバインド言語モデル(WLMおよびCLM)ベースのプレフィックスデコード技術と、変圧器(BERT)ベースのポスト処理技術からの双方向エンコーダー表現を提示します。自動音声認識(ASR)システムから重要な洞察を得るために、さまざまな分析方法を提案しました。これらの洞察は、特定の言語(Gujarati)に基づいてASRシステムを理解するのに役立ち、ASRシステムを管理して低リソース言語のパフォーマンスを改善できます。 Microsoft Speech Corpusでモデルを訓練しましたが、ベースモデルWERに関して、単語エラー率(WER)が5.11%減少することが観察されます。
この作業が役立つと思われる場合は、次のbibtexを使用してこの作品を引用してください。
@inproceedings { raval-etal-2020-end ,
title = " End-to-End Automatic Speech Recognition for {G}ujarati " ,
author = " Raval, Deepang and
Pathak, Vyom and
Patel, Muktan and
Bhatt, Brijesh " ,
booktitle = " Proceedings of the 17th International Conference on Natural Language Processing (ICON) " ,
month = dec,
year = " 2020 " ,
address = " Indian Institute of Technology Patna, Patna, India " ,
publisher = " NLP Association of India (NLPAI) " ,
url = " https://aclanthology.org/2020.icon-main.56 " ,
pages = " 409--419 " ,
abstract = "We present a novel approach for improving the performance of an End-to-End speech recognition system for the Gujarati language. We follow a deep learning based approach which includes Convolutional Neural Network (CNN), Bi-directional Long Short Term Memory (BiLSTM) layers, Dense layers, and Connectionist Temporal Classification (CTC) as a loss function. In order to improve the performance of the system with the limited size of the dataset, we present a combined language model (WLM and CLM) based prefix decoding technique and Bidirectional Encoder Representations from Transformers (BERT) based post-processing technique. To gain key insights from our Automatic Speech Recognition (ASR) system, we proposed different analysis methods. These insights help to understand our ASR system based on a particular language (Gujarati) as well as can govern ASR systems{'} to improve the performance for low resource languages. We have trained the model on the Microsoft Speech Corpus, and we observe a 5.11{%} decrease in Word Error Rate (WER) with respect to base-model WER.",
}git clone https://github.com/01-vyom/End_2_End_Automatic_Speech_Recognition_For_Gujarati.git
python -m venv asr_env
source $PWD /asr_env/bin/activateディレクトリをリポジトリのルートに変更します。
pip install --upgrade pip
pip install -r requirements.txtディレクトリをリポジトリのルートに変更します。
論文でモデルをトレーニングするには、このコマンドを実行します。
python ./Train/train.py注記:
PathDataAudiosとPathDataTranscripts 、トレーニング/feature_extractor.pyファイルで、オーディオファイルへの適切なパスとtraScriptファイルへのパスをtraScriptファイルへのパスを指します。currmodel変更して、保存されているモデル名を変更します。訓練されたモデルを使用して推論するには、実行してください。
python ./Eval/inference.py注記:
PathDataAudiosとPathDataTranscripts変更して、オーディオファイルへの適切なパスと、テスト用のTraScriptファイルへのパスを指します。modelを変更し、テスト用のファイルの名前を変更するには、 test_data変数を変更します。./Eval/フォルダーに保存されているモデル固有の名前を使用して、参照と仮説の.pickleになります。 推測された出力をデコードするには、実行します。
python ./Eval/decode.py注記:
.pickleを選択するには、 model変数を変更します。./Eval/に保存されます。 デコードされた出力を後処理するには、このREADMEに記載されている手順に従ってください。
システム分析を実行するには、実行してください。
python ./System Analysis/system_analysis.py注記:
モデル固有のデコード.csvファイルを選択するには、 model変数を変更します。
分析を実行するために特定のタイプの列(仮説タイプ)を選択するには、 type変数を変更します。出力ファイルは./System Analysis/に保存されます。これは、モデルとデコードの種類に固有です。
アルゴリズムは次のパフォーマンスを達成します。
| テクニック名 | wer(%)削減 |
|---|---|
| LMSを含むプレフィックス ' | 2.42 |
| LMS ' +スペル補正bertを含むプレフィックス | 5.11 |
注記:
プレフィックスデコードコードは、1および2のオープンソースの実装に基づいています。 Bertベースのスペル補正のコードは、このオープンソースの実装から採用されています
MITライセンスに基づいてライセンスされています。