SyntaSpeech download - SyntaSpeech Source Code Download

SyntaSpeech

AI-Quellcode

Pretrained Models for LJ, Biaobei, and LibriTTS.

Herunterladen

Syntaspeech: syntax-bewusstes generatives widersprüchliches Text-zu-Sprach

| | | 中文文档

Dieses Repository ist die offizielle Pytorch-Implementierung unseres IJCAI-2022-Papiers, in dem wir Syntaspeech für syntaxbewusste nicht autoregressive Text-zu-Sprache vorschlagen.

Unsere Syntaspeech basiert auf der Grundlage von Portaspeech (Neurips 2021) mit drei neuen Funktionen:

Wir schlagen einen syntaktischen Graph Builder (§ 3.1) und einen syntaktischen Graphencodierer (§ 3.2) vor, der sich als effektives Gerät erwiesen, um syntaktische Merkmale zu extrahieren, um die Profimodellierung und Dauergenauigkeit des TTS -Modells zu verbessern.
Wir führen ein überlangen kontroverses Training (§ 3.3) ein, das das fließende Post-NET in Portaspeech ersetzen kann, wodurch die Inferenzzeit beschleunigt und die Natürlichkeit der Audioqualität verbessert wird.
Wir unterstützen drei Datensätze: LJSpeech (englischer Datensatz mit einem Lautsprecher), Biaobei (chinesischer Datensatz mit einem Lautsprecher) und Libritts (englischer Datensatz mit mehreren Sprechern).

Umgebungen

conda create -n synta python=3.7
condac activate synta
pip install -U pip
pip install Cython numpy==1.19.1
pip install torch==1.9.0 
pip install -r requirements.txt
# install dgl for graph neural network, dgl-cu102 supports rtx2080, dgl-cu113 support rtx3090
pip install dgl-cu102 dglgo -f https://data.dgl.ai/wheels/repo.html 
sudo apt install -y sox libsox-fmt-mp3
bash mfa_usr/install_mfa.sh # install force alignment tools

Führen Sie Syntaspeech aus!

Bitte befolgen Sie die folgenden Schritte, um dieses Repo auszuführen.

1. Vorbereitung

Datenvorbereitung

Sie können unsere binärisierten Datensätze für LJSpeech und Biaobei direkt verwenden. Laden Sie sie herunter und entpacken Sie sie in die data/binary/ Ordner.

Für Libritts können Sie die RAW -Datensätze herunterladen und mit unseren data_gen -Modulen verarbeiten. Detaillierte Anweisungen finden Sie in DOSC/PREAP_DATA.

Vokodervorbereitung

Wir bieten das vorgebildete Modell von Vocoder für drei Datensätze. Insbesondere Hifigan für Ljspeech und Biaobei, Parallelwavegan für Libritts. Laden Sie sie in die checkpoints/ den Ordner herunter und entpacken Sie sie.

2. Trainingsbeispiel

Dann können Sie Syntaspeech in den drei Datensätzen trainieren.

 cd < the root_dir of your SyntaSpeech folder >
export PYTHONPATH=./
CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/lj/synta.yaml --exp_name lj_synta --reset # training in LJSpeech
CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/biaobei/synta.yaml --exp_name biaobei_synta --reset # training in Biaobei
CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/libritts/synta.yaml --exp_name libritts_synta --reset # training in LibriTTS

3. Tensorboard

tensorboard --logdir=checkpoints/lj_synta
tensorboard --logdir=checkpoints/biaobei_synta
tensorboard --logdir=checkpoints/libritts_synta

4. Inferenzbeispiel

CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/lj/synta.yaml --exp_name lj_synta --reset --infer # inference in LJSpeech
CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/biaobei/synta.yaml --exp_name biaobei_synta --reset --infer # inference in Biaobei
CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/libritts/synta.yaml --exp_name libritts_synta --reset ---infer # inference in LibriTTS

Audiodemos

Audio -Beispiele im Papier finden Sie auf unserer Demo -Seite.

Wir bieten auch die Demo -Seite von Huggingface für LJSpeech. Probieren Sie dort Ihre interessanten Sätze!

Zitat

 @article{ye2022syntaspeech,
  title={SyntaSpeech: Syntax-Aware Generative Adversarial Text-to-Speech},
  author={Ye, Zhenhui and Zhao, Zhou and Ren, Yi and Wu, Fei},
  journal={arXiv preprint arXiv:2204.11792},
  year={2022}
}