รหัสการอนุมานและน้ำหนักแบบจำลองสำหรับกระดาษ "วิธีการสร้างแบบจำลองภาษาเพื่อ Hebrew TTS ที่ปราศจาก diacritic" (Interspeech 2024)

บทคัดย่อ: เราจัดการกับงานของข้อความเป็นคำพูด (TTS) ในภาษาฮีบรู ภาษาฮิบรูแบบดั้งเดิมมี diacritics (`niqqued ') ซึ่งกำหนดวิธีที่แต่ละคนควรออกเสียงคำที่ได้รับอย่างไรก็ตามภาษาฮีบรูสมัยใหม่ไม่ค่อยใช้พวกเขา การขาด diacritics ในภาษาฮีบรูสมัยใหม่ส่งผลให้ผู้อ่านคาดว่าจะสรุปการออกเสียงที่ถูกต้องและเข้าใจว่าหน่วยเสียงที่จะใช้ตามบริบท สิ่งนี้กำหนดความท้าทายพื้นฐานเกี่ยวกับระบบ TTS เพื่อแมประหว่างข้อความกับการพูดอย่างแม่นยำ ในการศึกษานี้เราเสนอให้ใช้วิธีการสร้างแบบจำลองภาษาแบบจำลอง TTS ที่ปราศจาก Diacritics สำหรับงานของ Hebrew TTS โมเดลภาษา (LM) ดำเนินการในการเป็นตัวแทนคำพูดที่ไม่ต่อเนื่องและมีเงื่อนไขใน tokenizer ชิ้นคำ เราเพิ่มประสิทธิภาพวิธีการที่นำเสนอโดยใช้การบันทึกที่มีการดูแลอย่างอ่อนในขณะที่และเปรียบเทียบกับระบบ TTS ของฮีบรู TTS ที่ใช้ dicritic ผลการวิจัยแนะนำวิธีการที่เสนอนั้นเหนือกว่าเส้นเขตแดนที่ประเมินโดยพิจารณาทั้งการเก็บรักษาเนื้อหาและความเป็นธรรมชาติของคำพูดที่สร้างขึ้น
คุณสามารถลองใช้โมเดลของเราในการสาธิต Google Colab
git clone https://github.com/slp-rl/HebTTS.gitเราเผยแพร่จุดตรวจสอบของเราใน Google Drive รุ่น AR ได้รับการฝึกฝนสำหรับขั้นตอน 1.2 ม. และโมเดล NAR สำหรับขั้นตอน 200K บน HEBDB
gdown 11NoOJzMLRX9q1C_Q4sX0w2b9miiDjGrvpip install torch torchaudio
pip install torchmetrics
pip install omegaconf
pip install git+https://github.com/lhotse-speech/lhotse
pip install librosa
pip install encodec
pip install phonemizer
pip install audiocraft # optional คุณสามารถเล่นกับโมเดลที่มีลำโพงและข้อความที่แตกต่างกัน
รัน infer.py :
python infer.py --checkpoint checkpoint.pt --output-dir ./out --text "היי מה קורה"
คุณสามารถระบุอาร์กิวเมนต์เพิ่มเติม --speaker และ --top-k
เคล็ดลับ
เราอนุญาตให้ใช้ Vocoder Multi Multi Band (MBD) ใหม่สำหรับการสร้างเสียง quallity ที่ดีขึ้น ติดตั้ง Audiocraft และ Set --mbd True Flag
คุณสามารถเชื่อมต่อข้อความโดยใช้ | หรือระบุเส้นทางของไฟล์ข้อความที่มีการตั้งค่าโดย n หากการเขียนภาษาฮีบรูในเทอร์มินัลไม่สะดวก
תגידו גנבו לכם פעם את האוטו ופשוט ידעתם שאין טעם להגיש תלונה במשטרה
היי מה קורה
בראשית היתה חללית מסוג נחתת
และวิ่ง
python infer.py --checkpoint checkpoint.pt --output-dir ./out --text example.txt
คุณสามารถใช้ลำโพงที่กำหนดไว้ใน speakers.yaml หรือเพิ่มลำโพงเพิ่มเติม ระบุไฟล์ WAV และการถอดความในรูปแบบเดียวกัน
--speaker shaul
@article { roth2024language ,
title = { A Language Modeling Approach to Diacritic-Free Hebrew TTS } ,
author = { Roth, Amit and Turetzky, Arnon and Adi, Yossi } ,
journal = { arXiv preprint arXiv:2407.12206 } ,
year = { 2024 }
}valle ขึ้นอยู่กับการใช้งานของ Feiteng Li