Deepang Raval 1 | VYOM PATHAK 1 | Muktan Patel 1 | Brijesh Bhatt 1
Dharmsinh Desai University, Nadiad 1
เรานำเสนอวิธีการใหม่ในการปรับปรุงประสิทธิภาพของระบบการรู้จำเสียงพูดแบบ end-to-end สำหรับภาษาคุชราต เราทำตามวิธีการเรียนรู้อย่างลึกซึ้งซึ่งรวมถึงเครือข่ายประสาทเทียม (CNN), เลเยอร์หน่วยความจำระยะยาวระยะยาวสองทิศทาง (BILSTM) เลเยอร์หนาแน่นและการจำแนกประเภทการเชื่อมต่อชั่วคราว (CTC) เป็นฟังก์ชั่นการสูญเสีย เพื่อปรับปรุงประสิทธิภาพของระบบด้วยขนาดที่ จำกัด ของชุดข้อมูลเรานำเสนอแบบจำลองภาษาแบบรวม (WLM และ CLM) เทคนิคการถอดรหัสคำนำหน้าและการแสดงตัวเข้ารหัสแบบสองทิศทางจากเทคนิคหลังการประมวลผลที่ใช้ Transformers (BERT) เพื่อให้ได้ข้อมูลเชิงลึกที่สำคัญจากระบบการรู้จำเสียงพูดอัตโนมัติ (ASR) ของเราเราเสนอวิธีการวิเคราะห์ที่แตกต่างกัน ข้อมูลเชิงลึกเหล่านี้ช่วยให้เข้าใจระบบ ASR ของเราตามภาษาเฉพาะ (รัฐคุชราต) รวมถึงสามารถควบคุมระบบ ASR 'เพื่อปรับปรุงประสิทธิภาพสำหรับภาษาทรัพยากรต่ำ เราได้ฝึกอบรมแบบจำลองใน Microsoft Speech Corpus และเราสังเกตการลดลง 5.11% ของอัตราความผิดพลาดของ Word (WER) เกี่ยวกับโมเดลพื้นฐาน
หากคุณพบว่างานนี้มีประโยชน์โปรดอ้างอิงงานนี้โดยใช้ bibtex ต่อไปนี้:
@inproceedings { raval-etal-2020-end ,
title = " End-to-End Automatic Speech Recognition for {G}ujarati " ,
author = " Raval, Deepang and
Pathak, Vyom and
Patel, Muktan and
Bhatt, Brijesh " ,
booktitle = " Proceedings of the 17th International Conference on Natural Language Processing (ICON) " ,
month = dec,
year = " 2020 " ,
address = " Indian Institute of Technology Patna, Patna, India " ,
publisher = " NLP Association of India (NLPAI) " ,
url = " https://aclanthology.org/2020.icon-main.56 " ,
pages = " 409--419 " ,
abstract = "We present a novel approach for improving the performance of an End-to-End speech recognition system for the Gujarati language. We follow a deep learning based approach which includes Convolutional Neural Network (CNN), Bi-directional Long Short Term Memory (BiLSTM) layers, Dense layers, and Connectionist Temporal Classification (CTC) as a loss function. In order to improve the performance of the system with the limited size of the dataset, we present a combined language model (WLM and CLM) based prefix decoding technique and Bidirectional Encoder Representations from Transformers (BERT) based post-processing technique. To gain key insights from our Automatic Speech Recognition (ASR) system, we proposed different analysis methods. These insights help to understand our ASR system based on a particular language (Gujarati) as well as can govern ASR systems{'} to improve the performance for low resource languages. We have trained the model on the Microsoft Speech Corpus, and we observe a 5.11{%} decrease in Word Error Rate (WER) with respect to base-model WER.",
}git clone https://github.com/01-vyom/End_2_End_Automatic_Speech_Recognition_For_Gujarati.git
python -m venv asr_env
source $PWD /asr_env/bin/activateเปลี่ยนไดเรกทอรีเป็นรากของที่เก็บ
pip install --upgrade pip
pip install -r requirements.txtเปลี่ยนไดเรกทอรีเป็นรากของที่เก็บ
ในการฝึกอบรมแบบจำลองในกระดาษให้เรียกใช้คำสั่งนี้:
python ./Train/train.pyบันทึก:
PathDataAudios และ PathDataTranscripts เพื่อชี้ไปที่เส้นทางที่เหมาะสมไปยังไฟล์เสียงและเส้นทางไปยังไฟล์ trascript ในไฟล์ train/feature_extractor.pycurrmodel ตัวแปรในไฟล์รถไฟ/รถไฟ py เพื่อเปลี่ยนชื่อรุ่นที่ถูกบันทึกไว้ในการอนุมานโดยใช้แบบจำลองที่ผ่านการฝึกอบรม Run:
python ./Eval/inference.pyบันทึก:
PathDataAudios และ PathDataTranscripts เพื่อชี้ไปที่เส้นทางที่เหมาะสมไปยังไฟล์เสียงและเส้นทางไปยังไฟล์ trascript สำหรับการทดสอบmodel ตัวแปรและเปลี่ยนชื่อไฟล์สำหรับการทดสอบเปลี่ยนตัวแปร test_data.pickle ของการอ้างอิงและสมมติฐานที่มีชื่อเฉพาะรุ่นที่เก็บไว้ในโฟลเดอร์ ./Eval/ ในการถอดรหัสเอาต์พุตที่อนุมานให้เรียกใช้:
python ./Eval/decode.pyบันทึก:
.pickle เปลี่ยนตัวแปร model./Eval/ / เฉพาะสำหรับรุ่นที่มีการถอดรหัสและข้อความจริงทุกประเภท สำหรับการโพสต์การประมวลผลเอาต์พุตที่ถอดรหัสทำตามขั้นตอนที่กล่าวถึงใน readMe นี้
เพื่อดำเนินการวิเคราะห์ระบบ Run:
python ./System Analysis/system_analysis.pyบันทึก:
ในการเลือกไฟล์การถอดรหัสเฉพาะรุ่น .csv เพื่อวิเคราะห์เปลี่ยนตัวแปร model
ในการเลือกประเภทของคอลัมน์เฉพาะ (ประเภทสมมติฐาน) เพื่อทำการวิเคราะห์ให้เปลี่ยนตัวแปร type ไฟล์เอาต์พุตจะถูกบันทึกใน ./System Analysis/ เฉพาะสำหรับรุ่นและประเภทของการถอดรหัส
อัลกอริทึมของเราบรรลุประสิทธิภาพต่อไปนี้:
| ชื่อเทคนิค | การลดลง (%) |
|---|---|
| คำนำหน้าด้วย lms ' | 2.42 |
| คำนำหน้าด้วย lms ' + corrector bert | 5.11 |
บันทึก:
รหัสการถอดรหัสคำนำหน้าจะขึ้นอยู่กับการใช้งานโอเพนซอร์ซ 1 และ 2 รหัสสำหรับตัวตรวจสอบคาถาที่ใช้เบิร์ตถูกดัดแปลงจากการใช้งานโอเพนซอร์ซนี้
ได้รับใบอนุญาตภายใต้ใบอนุญาต MIT