End_2_End_Automatic_Speech_Recognition_For_GujaratiダウンロードEnd_2_End_Automatic_Speech_Recognition_For

End_2_End_Automatic_Speech_Recognition_For_Gujarati

AI ソースコード

1.0.0

ダウンロード

グジャラティのエンドツーエンドの自動音声認識

アイコン2020：17回目の自然言語加工に関する国際会議

[紙] | [長い口頭講演]

Deepang Raval ¹ | Vyom Pathak ¹ | Muktan Patel ¹ | Brijesh Bhatt ¹

Dharmsinh Desai University、Nadiad ¹

グジャラート語のエンドツーエンドの音声認識システムのパフォーマンスを改善するための新しいアプローチを提示します。畳み込み関数としての畳み込みニューラルネットワーク（CNN）、双方向の長期記憶（BILSTM）層、密な層、およびコネクショニストの時間分類（CTC）を含む深い学習ベースのアプローチに従います。データセットのサイズが限られているシステムのパフォーマンスを改善するために、コンバインド言語モデル（WLMおよびCLM）ベースのプレフィックスデコード技術と、変圧器（BERT）ベースのポスト処理技術からの双方向エンコーダー表現を提示します。自動音声認識（ASR）システムから重要な洞察を得るために、さまざまな分析方法を提案しました。これらの洞察は、特定の言語（Gujarati）に基づいてASRシステムを理解するのに役立ち、ASRシステムを管理して低リソース言語のパフォーマンスを改善できます。 Microsoft Speech Corpusでモデルを訓練しましたが、ベースモデルWERに関して、単語エラー率（WER）が5.11％減少することが観察されます。

この作業が役立つと思われる場合は、次のbibtexを使用してこの作品を引用してください。

 @inproceedings { raval-etal-2020-end ,
    title = " End-to-End Automatic Speech Recognition for {G}ujarati " ,
    author = " Raval, Deepang  and
      Pathak, Vyom  and
      Patel, Muktan  and
      Bhatt, Brijesh " ,
    booktitle = " Proceedings of the 17th International Conference on Natural Language Processing (ICON) " ,
    month = dec,
    year = " 2020 " ,
    address = " Indian Institute of Technology Patna, Patna, India " ,
    publisher = " NLP Association of India (NLPAI) " ,
    url = " https://aclanthology.org/2020.icon-main.56 " ,
    pages = " 409--419 " ,
    abstract = "We present a novel approach for improving the performance of an End-to-End speech recognition system for the Gujarati language. We follow a deep learning based approach which includes Convolutional Neural Network (CNN), Bi-directional Long Short Term Memory (BiLSTM) layers, Dense layers, and Connectionist Temporal Classification (CTC) as a loss function. In order to improve the performance of the system with the limited size of the dataset, we present a combined language model (WLM and CLM) based prefix decoding technique and Bidirectional Encoder Representations from Transformers (BERT) based post-processing technique. To gain key insights from our Automatic Speech Recognition (ASR) system, we proposed different analysis methods. These insights help to understand our ASR system based on a particular language (Gujarati) as well as can govern ASR systems{'} to improve the performance for low resource languages. We have trained the model on the Microsoft Speech Corpus, and we observe a 5.11{%} decrease in Word Error Rate (WER) with respect to base-model WER.",
}

設定

システムと要件

Linux OS
Python-3.6
Tensorflow-2.2.0
CUDA-11.1
cudnn-7.6.5

リポジトリのセットアップ

git clone https://github.com/01-vyom/End_2_End_Automatic_Speech_Recognition_For_Gujarati.git
python -m venv asr_env
source $PWD /asr_env/bin/activate

依存関係のインストール

ディレクトリをリポジトリのルートに変更します。

pip install --upgrade pip
pip install -r requirements.txt

実行コード

ディレクトリをリポジトリのルートに変更します。

トレーニング

論文でモデルをトレーニングするには、このコマンドを実行します。

python ./Train/train.py

注記：

必要に応じて変数を変更しますPathDataAudiosとPathDataTranscripts 、トレーニング/feature_extractor.pyファイルで、オーディオファイルへの適切なパスとtraScriptファイルへのパスをtraScriptファイルへのパスを指します。
必要に応じて、Train/Train.pyファイルの変数currmodel変更して、保存されているモデル名を変更します。

評価

推論

訓練されたモデルを使用して推論するには、実行してください。

python ./Eval/inference.py

注記：

変数を変更して、 PathDataAudiosとPathDataTranscripts変更して、オーディオファイルへの適切なパスと、テスト用のTraScriptファイルへのパスを指します。
推論のためにモデルの名前を変更するには、変数modelを変更し、テスト用のファイルの名前を変更するには、 test_data変数を変更します。
出力は、 ./Eval/フォルダーに保存されているモデル固有の名前を使用して、参照と仮説の.pickleになります。

デコード

推測された出力をデコードするには、実行します。

python ./Eval/decode.py

注記：

モデル固有の.pickleを選択するには、 model変数を変更します。
出力は、すべてのタイプのデコードと実際のテキストを備えたモデルに固有の./Eval/に保存されます。

後処理

デコードされた出力を後処理するには、このREADMEに記載されている手順に従ってください。

システム分析

システム分析を実行するには、実行してください。

python ./System Analysis/system_analysis.py

注記：

モデル固有のデコード.csvファイルを選択するには、 model変数を変更します。
分析を実行するために特定のタイプの列（仮説タイプ）を選択するには、 type変数を変更します。出力ファイルは./System Analysis/に保存されます。これは、モデルとデコードの種類に固有です。