SC-CNN: Effektive Lautsprecher-Konditionierungsmethode für Null-Shot-Multi-Speaker-Text-zu-Sprache-Systeme
Dank StyleSpeech und Vits haben wir unsere Codes basierend auf Link und Link erstellt
- VCTK -Datensatz wird verwendet.
- Die Abtastrate wird auf 22050 Hz gesetzt.
- Dies ist die Implementierung von
SC-TransferTTS
Materialien
Voraussetzungen
- Klonen Sie dieses Repository.
- Installieren Sie die Python -Anforderungen. Bitte beachten Sie die Anforderungen.txt
- Möglicherweise müssen Sie zuerst Espeak installieren:
apt-get install espeak
- Datensätze herunterladen
- Laden Sie den VCTK -Datensatz und den Down -Beispiel -WAV -Dateien auf 22050 Hz herunter und extrahieren Sie. Nennen
ln -s /path/to/VCTK-Corpus/downsampled_wavs DUMMY3 dann einen Link zum Dataset -Ordner um oder erstellen
- Erstellen Sie monotonische Ausrichtungssuche und führen Sie die Vorverarbeitung aus, wenn Sie Ihre eigenen Datensätze verwenden.
# Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace
Training exmaple
python train.py -c configs/vctk_base.json -m vctk_base
Inferenzbeispiel
Siehe Inferenz.ipynb