shanghainese tts
2023.06.06
Um ein Text-to-Speech-System (TTS) für Shanghainese von Grund auf neu zu erstellen, um die Produktion von Ton Sandhi im Vergleich zu vorhandenen Modellen zu verbessern, indem Sie die Vorverarbeitung von Text besondere Aufmerksamkeit schenken.
Siehe Schreiben/Main.pdf.
pip install -r phonemisation/requirements.txt
pip install -r speech_synthesis/requirements.txt
pip install -r comparison_questionnaire/requirements.txt # for analysis of questionnaire results Siehe speech_synthesis/README.md .
phonemisation/ : Enthält das Phonemisierungsmodulphonemisation/__init__.pypython -m phonemisation "text to phonemise"jieba wird zur Wortsegmentierung verwendetQieyun -Modul, um die Tonnummer 1 zu Silben von 陰平Yinping / Inbin -Ton hinzuzufügen. Andere Töne sind phonologisch nicht markiertromanisation_to_ipa in romanisation.py enthält die Phonemisierungsfunktionmake_metadata.py : Verwendet das phonemisation , um die Transkription in IPA umzuwandeln und Metadaten für das Training zu generierendata/data/ : Enthält den für das Training verwendeten Datensatzshh.dict.cn/ für das Training verwendet*/metadata.txt werden von make_metadata.py generierttraining/coqui-ai/TTS -Repo, das eine Implementierung von Vits enthältwriteup/ : Das Schreibenspeech_synthesis/ : Enthält das Sprachsynthesemodellspeech_synthesis/README.mdcomparison_questionnaire/ : Enthält die Fragebogen- und Audio -Dateien, die zum Vergleich der von diesem Modell erzeugten Sprache, des Apple -Modells und eines menschlichen Sprechers verwendet wurden*-1.wav : Produziert durch dieses Modell*-2.wav : Produziert von Apple VoiceOver (MacBook Pro 14-Zoll, 2021; MacOS Ventura 13.0.1)*-3.wav : Ich habe von mir selbst gesprochenstats.ipynb : Jupyter Notebook zur Analyse der Fragebogenergebnisse