MSMC TTS Download - MSMC TTS Quellcode Download

MSMC TTS

AI-Quellcode

1.0.0

Herunterladen

MSMC-TTS: Multi-Stufe Multi-CodeBook-TTS

Offizielle Implementierung des MSMC-TTS-Systems von Papieren

Ein mehrstufiger Multi-Code-Book-VQ-VAE-Ansatz für Hochleistungsneural-TTs
Auf hochwertige neuronale TTs für Sprachen mit niedriger Ressourcen durch Lernen kompakter Repräsentation
QS-TTS: Auf dem Weg zur semi-überwachten Text-zu-Sprache-Synthese über vektor-quantisierte selbstsütige Sprachrepräsentation Lernen

Die neuesten MSMC-TTs (MSMC-TTS-V2) sind mit einem Autocoder-basierten MSMC-VQ-GAN-Basis optimiert, der MSMC-VQ-VAE und HiFigan kombiniert. Der mehrstufige Prädiktor wird weiterhin als akustisches Modell zur Vorhersage von MSMCRs für die TTS-Synthese angewendet. Avatar

Nachricht

[2024.04.10] (in Arbeit) Die Implementierung von QS-TTs ist unter Beispielen/CSMSC/Konfigurationen verfügbar

[2022.10.20] Wir veröffentlichen die neueste Version von MSMC-TTS (MSMC-TTS-V2) basierend auf MSMC-VQ-GAN. In unserem neuesten Artikel "in Richtung hochwertiger neuronaler TTs für Sprachen mit niedrigem Ressourcen, indem Sie kompakte Repräsentation lernen"

[2022.10.18] Wir werden den Code aller Versionen von MSMC-TTs in diesem Repo veröffentlichen. Und jeder, der sich für diese Arbeit interessiert, ist herzlich eingeladen, sich uns anzuschließen, um nützliche Sprachdarstellungen für die Sprachsynthese zu untersuchen.

[2022.9.22] "Ein mehrstufiger Multi-CodeBook-VQ-VAE-Ansatz für Hochleistungsneural-TTs" wird unter Interspeech 2022 veröffentlicht.

Verwendung

 # Install
pip -r requirements.txt

# Train (Take the example of CSMSC, please refer to the example of CSMSC to prepare your training data)
python train.py -c examples/csmsc/configs/msmc_vq_gan.yaml
python train.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml

# Multi-GPU Training
python train_dist.py -c examples/csmsc/configs/msmc_vq_gan.yaml
python train_dist.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml

# Test -- Analysis-Synthesis
python infer.py -c examples/csmsc/configs/msmc_vq_gan.yaml -m examples/csmsc/checkpoints/msmc_vq_gan/model_800000 -t examples/csmsc/data/test_ae.yaml -o analysis_synthesis

# Test -- TTS-Synthesis
python infer.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml -m examples/csmsc/checkpoints/msmc_vq_gan_am/model_200000 -t examples/csmsc/data/test_tts.yaml -o tts

Tipps

Helfen Sie Ihnen, Ihre Modelle besser zu trainieren!

MSMC-VQ-GAN

Achten Sie auf die Kompaktheit Ihrer Darstellung. Bei Standard-TTs mit einem Sprecher können Sie 2-4 Köpfe ausprobieren, die jeder Kopf 64-256 Codewörter haben kann.
Bitte verwenden Sie weniger Codewors, wenn Ihre Stapelgröße zu klein ist. Andernfalls reicht die Rahmengröße einer Charge nicht aus, um das dynamische Codebuch -Update zu unterstützen.
Sie können das Gewicht des Encoder-Verlusts ändern, wenn Sie feststellen, dass einige Stufen in Ihrem MSMC-VQ-Gan nichts lernen.

Mehrstufiger Prädiktor

Der Triplettverlust kann die Ausdruckskraft von TTs verbessern, aber auch die Glätte beeinträchtigen. Sie können unterschiedliche Gewichte des Triplettverlusts wie 0, 0,01, 0,1, 1 ausprobieren, um die ausgewogeneste Leistung zu finden.
Verwenden Sie für Datensätze mit niedrigem Ressourcen kleinere Modelle, um eine Überanpassung zu vermeiden. Frühstop ist auch ein nützlicher Trick.

Zitate

@inproceedings{guo2022msmc,
  title={A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS},
  author={Guo, Haohan and Xie, Fenglong and Soong, Frank K and Wu, Xixin and Meng, Helen},
  booktitle={Proc. INTERSPEECH},
  year={2022}
}