shanghainese tts
2023.06.06
Чтобы построить систему текста в речь (TTS) для Shanghainese с нуля, стремясь улучшить производство тона Sandhi по сравнению с существующими моделями, уделяя особое внимание предварительной обработке текста.
См. Размещение/main.pdf.
pip install -r phonemisation/requirements.txt
pip install -r speech_synthesis/requirements.txt
pip install -r comparison_questionnaire/requirements.txt # for analysis of questionnaire results См speech_synthesis/README.md .
phonemisation/ : содержит модуль фонемизацииphonemisation/__init__.pypython -m phonemisation "text to phonemise"jieba используется для сегментации словQieyun для добавления тонального номера 1 в слоги 陰平jinping / inbin tone; Другие тона фонологически без опознавательных знаковromanisation_to_ipa в romanisation.pymake_metadata.py : использует модуль phonemisation для преобразования транскрипции в IPA и генерировать метаданные для обученияdata/data/ : содержит набор данных, используемый для обученияshh.dict.cn/ используется для обучения*/metadata.txt генерируются make_metadata.pytraining/coqui-ai/TTS , которая содержит реализацию VITwriteup/ : записьspeech_synthesis/ : содержит модель синтеза речиspeech_synthesis/README.md для более подробной информацииcomparison_questionnaire/ : содержит вопросник и аудиофайлы, используемые для сравнения речи, произведенной этой моделью, моделью Apple и оратором человека*-1.wav : произведено этой моделью*-2.wav : производится Apple Voiceover (MacBook Pro 14-дюймовый, 2021; Macos Ventura 13.0.1)*-3.wav :stats.ipynb : Notebook Jupyter для анализа результатов анкеты