Deepang Raval 1 | Vyom Pathak 1 | Muktan Patel 1 | 브리 제시 바트 1
Dharmsinh Desai University, Nadiad 1
우리는 구자라트 언어에 대한 엔드 투 엔드 음성 인식 시스템의 성능을 향상시키기위한 새로운 접근법을 제시합니다. 우리는 컨볼 루션 신경 네트워크 (CNN), 양방향 장기 단기 메모리 (BILSTM) 층, 밀도가 높은 층 및 연결주의 시간적 분류 (CTC)를 손실 함수로 포함하는 딥 러닝 기반 접근법을 따릅니다. 데이터 세트의 제한된 크기로 시스템의 성능을 향상시키기 위해, 우리는 변압기 (BERT) 기반 후 처리 기술로부터의 WLM (Wlm) 기반 접두사 디코딩 기술 및 양방향 인코더 표현을 제공합니다. 자동 음성 인식 (ASR) 시스템에서 주요 통찰력을 얻기 위해 다른 분석 방법을 제안했습니다. 이러한 통찰력은 특정 언어 (Gujarati)를 기반으로 ASR 시스템을 이해하고 ASR 시스템을 관리하여 낮은 리소스 언어의 성능을 향상시킬 수 있습니다. 우리는 Microsoft Speech Corpus에 대한 모델을 훈련 시켰으며 기본 모델 WER과 관련하여 WER (Word Error Rate)의 5.11% 감소를 관찰합니다.
이 작업이 유용하다고 생각되면 다음 Bibtex를 사용 하여이 작업을 인용하십시오.
@inproceedings { raval-etal-2020-end ,
title = " End-to-End Automatic Speech Recognition for {G}ujarati " ,
author = " Raval, Deepang and
Pathak, Vyom and
Patel, Muktan and
Bhatt, Brijesh " ,
booktitle = " Proceedings of the 17th International Conference on Natural Language Processing (ICON) " ,
month = dec,
year = " 2020 " ,
address = " Indian Institute of Technology Patna, Patna, India " ,
publisher = " NLP Association of India (NLPAI) " ,
url = " https://aclanthology.org/2020.icon-main.56 " ,
pages = " 409--419 " ,
abstract = "We present a novel approach for improving the performance of an End-to-End speech recognition system for the Gujarati language. We follow a deep learning based approach which includes Convolutional Neural Network (CNN), Bi-directional Long Short Term Memory (BiLSTM) layers, Dense layers, and Connectionist Temporal Classification (CTC) as a loss function. In order to improve the performance of the system with the limited size of the dataset, we present a combined language model (WLM and CLM) based prefix decoding technique and Bidirectional Encoder Representations from Transformers (BERT) based post-processing technique. To gain key insights from our Automatic Speech Recognition (ASR) system, we proposed different analysis methods. These insights help to understand our ASR system based on a particular language (Gujarati) as well as can govern ASR systems{'} to improve the performance for low resource languages. We have trained the model on the Microsoft Speech Corpus, and we observe a 5.11{%} decrease in Word Error Rate (WER) with respect to base-model WER.",
}git clone https://github.com/01-vyom/End_2_End_Automatic_Speech_Recognition_For_Gujarati.git
python -m venv asr_env
source $PWD /asr_env/bin/activate디렉토리를 저장소의 루트로 변경하십시오.
pip install --upgrade pip
pip install -r requirements.txt디렉토리를 저장소의 루트로 변경하십시오.
논문에서 모델을 훈련 시키려면이 명령을 실행하십시오.
python ./Train/train.py메모:
PathDataAudios 및 PathDataTranscripts 변경하여 오디오 파일에 대한 적절한 경로와 Train/feaction_Extractor.py 파일의 트래 스크립트 파일 경로를 가리 킵니다.currmodel 변경하여 저장된 모델 이름을 변경하십시오.훈련 된 모델을 사용하여 추론하기 위해 실행하십시오.
python ./Eval/inference.py메모:
PathDataAudios 및 PathDataTranscripts 를 변경하여 오디오 파일의 적절한 경로와 테스트를 위해 TraScript 파일로의 경로를 가리 킵니다.model 변경하고 테스트를위한 파일 이름을 변경하려면 test_data 변수를 변경하십시오../Eval/ 폴더에 저장된 모델 특정 이름이있는 .pickle of references 및 가설입니다. 유추 된 출력을 해독하려면 실행하십시오.
python ./Eval/decode.py메모:
.pickle 선택하려면 model 변수를 변경하십시오../Eval/ 에 저장됩니다. 디코딩 된 출력을 사후 처리하려면이 readme에 언급 된 단계를 따르십시오.
시스템 분석을 수행하려면 실행 :
python ./System Analysis/system_analysis.py메모:
분석 할 모델 특정 디코딩 .csv 파일을 선택하려면 model 변수를 변경하십시오.
분석을 수행 할 특정 유형의 열 (가설 유형)을 선택하려면 type 변수를 변경하십시오. 출력 파일은 모델 및 디코딩 유형에 따라 ./System Analysis/ 에 저장됩니다.
우리의 알고리즘은 다음과 같은 성능을 달성합니다.
| 기술 이름 | (%) 감소 |
|---|---|
| LMS와 접두사 | 2.42 |
| LMS ' + Spell Corrector Bert와 접두사 | 5.11 |
메모:
접두사 디코딩 코드는 1 및 2 개의 오픈 소스 구현을 기반으로합니다. Bert 기반 주문 수정 사항에 대한 코드는이 오픈 소스 구현에서 수정되었습니다.
MIT 라이센스에 따라 라이센스.