shanghainese tts Download - shanghainese tts Source Code Download

shanghainese tts

AI-Quellcode

2023.06.06

Herunterladen

Shanghainese TTS

Dartmouth Ling 48 Endprojekt: TTS für Shanghainese verbessert
Yuanhao chen [email protected] Spring 2023

Ziel

Um ein Text-to-Speech-System (TTS) für Shanghainese von Grund auf neu zu erstellen, um die Produktion von Ton Sandhi im Vergleich zu vorhandenen Modellen zu verbessern, indem Sie die Vorverarbeitung von Text besondere Aufmerksamkeit schenken.

Beschreibung

Siehe Schreiben/Main.pdf.

Abhängigkeiten

pip install -r phonemisation/requirements.txt
pip install -r speech_synthesis/requirements.txt
pip install -r comparison_questionnaire/requirements.txt  # for analysis of questionnaire results

Verwendung

Siehe speech_synthesis/README.md .

Struktur

phonemisation/ : Enthält das Phonemisierungsmodul
- Siehe Erklärung der Ausgabe in phonemisation/__init__.py
- Nutzung: python -m phonemisation "text to phonemise"
- Mechanismus: chinesischer Satz - Wortsegmentierung ⟶ Chinesische Wörter - Romanisierung ⟶ Shanghainese Pinyin - Phonemisierung ⟶ Shanghainese Phonemes
  - jieba wird zur Wortsegmentierung verwendet
  - Ein zuvor gemachtes Shanghainese -Wörterbuch wird zur Romanisierung verwendet
    - Verwendet Qieyun -Modul, um die Tonnummer 1 zu Silben von 陰平Yinping / Inbin -Ton hinzuzufügen. Andere Töne sind phonologisch nicht markiert
  - Die romanisation_to_ipa in romanisation.py enthält die Phonemisierungsfunktion
make_metadata.py : Verwendet das phonemisation , um die Transkription in IPA umzuwandeln und Metadaten für das Training zu generieren
- Siehe unten in data/
data/ : Enthält den für das Training verwendeten Datensatz
- Die Transkriptionen und Audiodateien sind aus diesem Repo angepasst
  - Downgetidt auf 16 kHz zum Training
  - Derzeit wird nur shh.dict.cn/ für das Training verwendet
- Die Dateien */metadata.txt werden von make_metadata.py generiert
training/
- JUFTYER Notebook zum Training des Modells
- In der Google Colab -Umgebung hochgeladen und ausgeführt werden; muss für die lokale Verwendung geändert werden
- Verwendet das coqui-ai/TTS -Repo, das eine Implementierung von Vits enthält
writeup/ : Das Schreiben
speech_synthesis/ : Enthält das Sprachsynthesemodell
- Weitere Informationen finden Sie speech_synthesis/README.md
comparison_questionnaire/ : Enthält die Fragebogen- und Audio -Dateien, die zum Vergleich der von diesem Modell erzeugten Sprache, des Apple -Modells und eines menschlichen Sprechers verwendet wurden
- *-1.wav : Produziert durch dieses Modell
- *-2.wav : Produziert von Apple VoiceOver (MacBook Pro 14-Zoll, 2021; MacOS Ventura 13.0.1)
- *-3.wav : Ich habe von mir selbst gesprochen
- stats.ipynb : Jupyter Notebook zur Analyse der Fragebogenergebnisse