End_2_End_Automatic_Speech_Recognition_For_Gujarati ดาวน์โหลด - End_2_End_Automatic_Speech_Recognition_For_Gujarati ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

End_2_End_Automatic_Speech_Recognition_For_Gujarati

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

การรู้จำเสียงพูดอัตโนมัติแบบ end-to-end สำหรับรัฐคุชราต

ไอคอน 2020: การประชุมนานาชาติครั้งที่ 17 เกี่ยวกับการประมวลผลภาษาธรรมชาติ

[กระดาษ] | [พูดคุยกันนาน]

Deepang Raval ¹ | VYOM PATHAK ¹ | Muktan Patel ¹ | Brijesh Bhatt ¹

Dharmsinh Desai University, Nadiad ¹

เรานำเสนอวิธีการใหม่ในการปรับปรุงประสิทธิภาพของระบบการรู้จำเสียงพูดแบบ end-to-end สำหรับภาษาคุชราต เราทำตามวิธีการเรียนรู้อย่างลึกซึ้งซึ่งรวมถึงเครือข่ายประสาทเทียม (CNN), เลเยอร์หน่วยความจำระยะยาวระยะยาวสองทิศทาง (BILSTM) เลเยอร์หนาแน่นและการจำแนกประเภทการเชื่อมต่อชั่วคราว (CTC) เป็นฟังก์ชั่นการสูญเสีย เพื่อปรับปรุงประสิทธิภาพของระบบด้วยขนาดที่ จำกัด ของชุดข้อมูลเรานำเสนอแบบจำลองภาษาแบบรวม (WLM และ CLM) เทคนิคการถอดรหัสคำนำหน้าและการแสดงตัวเข้ารหัสแบบสองทิศทางจากเทคนิคหลังการประมวลผลที่ใช้ Transformers (BERT) เพื่อให้ได้ข้อมูลเชิงลึกที่สำคัญจากระบบการรู้จำเสียงพูดอัตโนมัติ (ASR) ของเราเราเสนอวิธีการวิเคราะห์ที่แตกต่างกัน ข้อมูลเชิงลึกเหล่านี้ช่วยให้เข้าใจระบบ ASR ของเราตามภาษาเฉพาะ (รัฐคุชราต) รวมถึงสามารถควบคุมระบบ ASR 'เพื่อปรับปรุงประสิทธิภาพสำหรับภาษาทรัพยากรต่ำ เราได้ฝึกอบรมแบบจำลองใน Microsoft Speech Corpus และเราสังเกตการลดลง 5.11% ของอัตราความผิดพลาดของ Word (WER) เกี่ยวกับโมเดลพื้นฐาน

หากคุณพบว่างานนี้มีประโยชน์โปรดอ้างอิงงานนี้โดยใช้ bibtex ต่อไปนี้:

 @inproceedings { raval-etal-2020-end ,
    title = " End-to-End Automatic Speech Recognition for {G}ujarati " ,
    author = " Raval, Deepang  and
      Pathak, Vyom  and
      Patel, Muktan  and
      Bhatt, Brijesh " ,
    booktitle = " Proceedings of the 17th International Conference on Natural Language Processing (ICON) " ,
    month = dec,
    year = " 2020 " ,
    address = " Indian Institute of Technology Patna, Patna, India " ,
    publisher = " NLP Association of India (NLPAI) " ,
    url = " https://aclanthology.org/2020.icon-main.56 " ,
    pages = " 409--419 " ,
    abstract = "We present a novel approach for improving the performance of an End-to-End speech recognition system for the Gujarati language. We follow a deep learning based approach which includes Convolutional Neural Network (CNN), Bi-directional Long Short Term Memory (BiLSTM) layers, Dense layers, and Connectionist Temporal Classification (CTC) as a loss function. In order to improve the performance of the system with the limited size of the dataset, we present a combined language model (WLM and CLM) based prefix decoding technique and Bidirectional Encoder Representations from Transformers (BERT) based post-processing technique. To gain key insights from our Automatic Speech Recognition (ASR) system, we proposed different analysis methods. These insights help to understand our ASR system based on a particular language (Gujarati) as well as can govern ASR systems{'} to improve the performance for low resource languages. We have trained the model on the Microsoft Speech Corpus, and we observe a 5.11{%} decrease in Word Error Rate (WER) with respect to base-model WER.",
}

การตั้งค่า

ระบบและข้อกำหนด

Linux OS
Python-3.6
Tensorflow-2.2.0
CUDA-11.1
cudnn-7.6.5

การตั้งค่าที่เก็บข้อมูล

git clone https://github.com/01-vyom/End_2_End_Automatic_Speech_Recognition_For_Gujarati.git
python -m venv asr_env
source $PWD /asr_env/bin/activate

การติดตั้งการอ้างอิง

เปลี่ยนไดเรกทอรีเป็นรากของที่เก็บ

pip install --upgrade pip
pip install -r requirements.txt

รหัสกำลัง

เปลี่ยนไดเรกทอรีเป็นรากของที่เก็บ

การฝึกอบรม

ในการฝึกอบรมแบบจำลองในกระดาษให้เรียกใช้คำสั่งนี้:

python ./Train/train.py

บันทึก:

หากจำเป็นต้องเปลี่ยนตัวแปร PathDataAudios และ PathDataTranscripts เพื่อชี้ไปที่เส้นทางที่เหมาะสมไปยังไฟล์เสียงและเส้นทางไปยังไฟล์ trascript ในไฟล์ train/feature_extractor.py
หากจำเป็นต้องเปลี่ยน currmodel ตัวแปรในไฟล์รถไฟ/รถไฟ py เพื่อเปลี่ยนชื่อรุ่นที่ถูกบันทึกไว้

การประเมิน

การอนุมาน

ในการอนุมานโดยใช้แบบจำลองที่ผ่านการฝึกอบรม Run:

python ./Eval/inference.py

บันทึก:

เปลี่ยนตัวแปร PathDataAudios และ PathDataTranscripts เพื่อชี้ไปที่เส้นทางที่เหมาะสมไปยังไฟล์เสียงและเส้นทางไปยังไฟล์ trascript สำหรับการทดสอบ
หากต้องการเปลี่ยนชื่อของโมเดลสำหรับการอนุมานเปลี่ยน model ตัวแปรและเปลี่ยนชื่อไฟล์สำหรับการทดสอบเปลี่ยนตัวแปร test_data
ผลลัพธ์จะเป็น .pickle ของการอ้างอิงและสมมติฐานที่มีชื่อเฉพาะรุ่นที่เก็บไว้ในโฟลเดอร์ ./Eval/

การถอดรหัส

ในการถอดรหัสเอาต์พุตที่อนุมานให้เรียกใช้:

python ./Eval/decode.py

บันทึก:

ในการเลือกรุ่นเฉพาะ .pickle เปลี่ยนตัวแปร model
เอาต์พุตจะถูกเก็บไว้ใน ./Eval/ / เฉพาะสำหรับรุ่นที่มีการถอดรหัสและข้อความจริงทุกประเภท

การโพสต์

สำหรับการโพสต์การประมวลผลเอาต์พุตที่ถอดรหัสทำตามขั้นตอนที่กล่าวถึงใน readMe นี้

การวิเคราะห์ระบบ

เพื่อดำเนินการวิเคราะห์ระบบ Run:

python ./System Analysis/system_analysis.py

บันทึก:

ในการเลือกไฟล์การถอดรหัสเฉพาะรุ่น .csv เพื่อวิเคราะห์เปลี่ยนตัวแปร model
ในการเลือกประเภทของคอลัมน์เฉพาะ (ประเภทสมมติฐาน) เพื่อทำการวิเคราะห์ให้เปลี่ยนตัวแปร type ไฟล์เอาต์พุตจะถูกบันทึกใน ./System Analysis/ เฉพาะสำหรับรุ่นและประเภทของการถอดรหัส