shanghainese tts
2023.06.06
ในการสร้างระบบ text-to-speech (TTS) สำหรับเซี่ยงไฮ้ตั้งแต่เริ่มต้นเพื่อปรับปรุงการผลิตน้ำเสียง Sandhi เมื่อเทียบกับรุ่นที่มีอยู่โดยให้ความสนใจเป็นพิเศษกับการประมวลผลข้อความล่วงหน้า
ดู writeup/main.pdf
pip install -r phonemisation/requirements.txt
pip install -r speech_synthesis/requirements.txt
pip install -r comparison_questionnaire/requirements.txt # for analysis of questionnaire results ดู speech_synthesis/README.md
phonemisation/ : มีโมดูล phonemisationphonemisation/__init__.pypython -m phonemisation "text to phonemise"jieba ใช้สำหรับการแบ่งส่วนคำQieyun เพื่อเพิ่มเสียงหมายเลข 1 ในพยางค์ของโทนเสียง陰平yinping / inbin ; เสียงอื่น ๆ นั้นไม่มีการทำเครื่องหมายทางสัณฐานวิทยาromanisation_to_ipa ใน romanisation.py มีฟังก์ชั่นการออกเสียงmake_metadata.py : ใช้โมดูล phonemisation เพื่อแปลงการถอดรหัสเป็น IPA และสร้างข้อมูลเมตาสำหรับการฝึกอบรมdata/data/ : มีชุดข้อมูลที่ใช้สำหรับการฝึกอบรมshh.dict.cn/ เท่านั้นที่ใช้สำหรับการฝึกอบรม*/metadata.txt ถูกสร้างขึ้นโดย make_metadata.pytraining/coqui-ai/TTS ซึ่งมีการใช้งาน VITSwriteup/ : The Write-Upspeech_synthesis/ : มีรูปแบบการสังเคราะห์คำพูดspeech_synthesis/README.md สำหรับรายละเอียดเพิ่มเติมcomparison_questionnaire/ : มีไฟล์แบบสอบถามและไฟล์เสียงที่ใช้ในการเปรียบเทียบคำพูดที่ผลิตโดยรุ่นนี้โมเดล Apple และลำโพงมนุษย์*-1.wav : ผลิตโดยรุ่นนี้*-2.wav : ผลิตโดย Apple VoiceOver (MacBook Pro 14-inch, 2021; MacOS Ventura 13.0.1)*-3.wav : พูดด้วยตัวเองstats.ipynb : สมุดบันทึก Jupyter สำหรับการวิเคราะห์ผลลัพธ์แบบสอบถาม