ดาวน์โหลด shanghainese tts - ดาวน์โหลดซอร์สโค้ด shanghainese tts

shanghainese tts

โค้ดแหล่งที่มา AI

2023.06.06

ดาวน์โหลด

เซี่ยงไฮ้ TTS

Dartmouth Ling 48 โครงการสุดท้าย: การปรับปรุง TTS สำหรับเซี่ยงไฮ้
Yuanhao Chen [email protected] Spring 2023

เป้าหมาย

ในการสร้างระบบ text-to-speech (TTS) สำหรับเซี่ยงไฮ้ตั้งแต่เริ่มต้นเพื่อปรับปรุงการผลิตน้ำเสียง Sandhi เมื่อเทียบกับรุ่นที่มีอยู่โดยให้ความสนใจเป็นพิเศษกับการประมวลผลข้อความล่วงหน้า

คำอธิบาย

ดู writeup/main.pdf

การพึ่งพาอาศัยกัน

pip install -r phonemisation/requirements.txt
pip install -r speech_synthesis/requirements.txt
pip install -r comparison_questionnaire/requirements.txt  # for analysis of questionnaire results

การใช้งาน

ดู speech_synthesis/README.md

โครงสร้าง

phonemisation/ : มีโมดูล phonemisation
- ดูคำอธิบายของผลลัพธ์ใน phonemisation/__init__.py
- การใช้งาน: python -m phonemisation "text to phonemise"
- กลไก: ประโยคภาษาจีน - การแบ่งส่วนคำ ⟶ คำภาษาจีน - Romanisation ⟶ Shanghainese Pinyin - phonemisation ⟶ Shanghainese Phonemes
  - jieba ใช้สำหรับการแบ่งส่วนคำ
  - พจนานุกรมเซี่ยงไฮ้ที่ฉันเคยทำมาก่อนจะใช้สำหรับโรแมนซิออน
    - ใช้โมดูล Qieyun เพื่อเพิ่มเสียงหมายเลข 1 ในพยางค์ของโทนเสียง陰平yinping / inbin ; เสียงอื่น ๆ นั้นไม่มีการทำเครื่องหมายทางสัณฐานวิทยา
  - ฟังก์ชั่น romanisation_to_ipa ใน romanisation.py มีฟังก์ชั่นการออกเสียง
make_metadata.py : ใช้โมดูล phonemisation เพื่อแปลงการถอดรหัสเป็น IPA และสร้างข้อมูลเมตาสำหรับการฝึกอบรม
- ดูด้านล่างใน data/
data/ : มีชุดข้อมูลที่ใช้สำหรับการฝึกอบรม
- การถอดความและไฟล์เสียงถูกดัดแปลงจาก repo นี้
  - ลดลงถึง 16kHz สำหรับการฝึกอบรม
  - ปัจจุบันมีเพียง shh.dict.cn/ เท่านั้นที่ใช้สำหรับการฝึกอบรม
- ไฟล์ */metadata.txt ถูกสร้างขึ้นโดย make_metadata.py
training/
- สมุดบันทึก Juptyer สำหรับการฝึกอบรมแบบจำลอง
- ตั้งใจจะอัปโหลดและทำงานในสภาพแวดล้อมของ Google Colab จำเป็นต้องแก้ไขเพื่อการใช้งานในท้องถิ่น
- ใช้ repo coqui-ai/TTS ซึ่งมีการใช้งาน VITS
writeup/ : The Write-Up
speech_synthesis/ : มีรูปแบบการสังเคราะห์คำพูด
- ดู speech_synthesis/README.md สำหรับรายละเอียดเพิ่มเติม
comparison_questionnaire/ : มีไฟล์แบบสอบถามและไฟล์เสียงที่ใช้ในการเปรียบเทียบคำพูดที่ผลิตโดยรุ่นนี้โมเดล Apple และลำโพงมนุษย์
- *-1.wav : ผลิตโดยรุ่นนี้
- *-2.wav : ผลิตโดย Apple VoiceOver (MacBook Pro 14-inch, 2021; MacOS Ventura 13.0.1)
- *-3.wav : พูดด้วยตัวเอง
- stats.ipynb : สมุดบันทึก Jupyter สำหรับการวิเคราะห์ผลลัพธ์แบบสอบถาม