shanghainese tts
2023.06.06
Untuk membangun sistem Text-to-Speech (TTS) untuk Shanghain dari awal, berusaha untuk meningkatkan produksi nada Sandhi dibandingkan dengan model yang ada dengan memberikan perhatian khusus pada preprocessing teks.
Lihat writeup/main.pdf.
pip install -r phonemisation/requirements.txt
pip install -r speech_synthesis/requirements.txt
pip install -r comparison_questionnaire/requirements.txt # for analysis of questionnaire results Lihat speech_synthesis/README.md .
phonemisation/ : Berisi modul fonemisasiphonemisation/__init__.pypython -m phonemisation "text to phonemise"jieba digunakan untuk segmentasi kataQieyun untuk menambahkan nada nomor 1 ke suku kata 陰平 nada yinping / inbin ; Nada lain secara fonologis tidak bertandaromanisation_to_ipa dalam romanisation.py berisi fungsi fonemisasimake_metadata.py : menggunakan modul phonemisation untuk mengubah transkripsi menjadi IPA dan menghasilkan metadata untuk pelatihandata/data/ : Berisi dataset yang digunakan untuk pelatihanshh.dict.cn/ yang digunakan untuk pelatihan*/metadata.txt dihasilkan oleh make_metadata.pytraining/coqui-ai/TTS , yang berisi implementasi vitswriteup/ : Tulisannyaspeech_synthesis/ : berisi model sintesis bicaraspeech_synthesis/README.md untuk lebih jelasnyacomparison_questionnaire/ : berisi file kuesioner dan audio yang digunakan untuk membandingkan pidato yang dihasilkan oleh model ini, model Apple, dan pembicara manusia*-1.wav : Diproduksi oleh model ini*-2.wav : Diproduksi oleh Apple Voiceover (MacBook Pro 14-inci, 2021; MacOS Ventura 13.0.1)*-3.wav : diucapkan sendiristats.ipynb : Jupyter Notebook untuk menganalisis hasil kuesioner