shanghainese tts
2023.06.06
Pour construire un système de texte à dispection (TTS) pour les shanghaineais à partir de zéro, cherchant à améliorer la production de Tone Sandhi par rapport aux modèles existants en accordant une attention particulière au prétraitement du texte.
Voir écriture / main.pdf.
pip install -r phonemisation/requirements.txt
pip install -r speech_synthesis/requirements.txt
pip install -r comparison_questionnaire/requirements.txt # for analysis of questionnaire results Voir speech_synthesis/README.md .
phonemisation/ : contient le module de phonémisationphonemisation/__init__.pypython -m phonemisation "text to phonemise"jieba est utilisée pour la segmentation des motsQieyun pour ajouter la tonalité numéro 1 aux syllabes de la tonalité 陰平yinping / inbin ; Les autres tons sont phonologiquement non marquésromanisation_to_ipa dans romanisation.py contient la fonction de phonémisationmake_metadata.py : utilise le module phonemisation pour convertir la transcription en IPA et générer des métadonnées pour la formationdata/data/ : contient l'ensemble de données utilisé pour la formationshh.dict.cn/ est utilisé pour la formation*/metadata.txt sont générés par make_metadata.pytraining/coqui-ai/TTS , qui contient une implémentation de VITSwriteup/ : l'écriturespeech_synthesis/ : contient le modèle de synthèse de la parolespeech_synthesis/README.md pour plus de détailscomparison_questionnaire/ : contient le questionnaire et les fichiers audio utilisés pour comparer la parole produite par ce modèle, le modèle Apple et un haut-parleur humain*-1.wav : produit par ce modèle*-2.wav : produit par Apple Voiceover (MacBook Pro 14 pouces, 2021; MacOS Ventura 13.0.1)*-3.wav : parlé par moi-mêmestats.ipynb : cahier Jupyter pour analyser les résultats du questionnaire