Download do SyntaSpeech - SyntaSpeech Código Fonte Download

SyntaSpeech

Código-Fonte de IA

Pretrained Models for LJ, Biaobei, and LibriTTS.

Baixar

SyntaSPeech: Sintaxe com consciência generativa de texto em fala em discussão

| | | 中文文档

Este repositório é a implementação oficial do Pytorch do nosso artigo IJCAI-2022, no qual propomos o SyntaSpeech para a sintaxe, com consciência de sintaxe, não autorregressiva, texto em fala.

Nosso SyntaSpeech é construído com base no Portaspeech (Neurips 2021) com três novos recursos:

Propomos o construtor de gráficos sintáticos (seção 3.1) e o codificador de gráficos sintáticos (Seção 3.2) , que é provado ser uma unidade eficaz para extrair recursos sintáticos para melhorar a modelagem de prosódia e a precisão da duração do modelo TTS.
Introduzimos treinamento adversário de vários comprimentos (Seção 3.3) , que pode substituir a rede pós-rede baseada em fluxo em PortasPeech, acelerando o tempo de inferência e melhorando a naturalidade da qualidade do áudio.
Suportamos três conjuntos de dados: LJSpeech (conjunto de dados em inglês único), Biaobei (conjunto de dados chinês de alto-falante) e Libritts (conjunto de dados em inglês de vários falantes).

Ambientes

conda create -n synta python=3.7
condac activate synta
pip install -U pip
pip install Cython numpy==1.19.1
pip install torch==1.9.0 
pip install -r requirements.txt
# install dgl for graph neural network, dgl-cu102 supports rtx2080, dgl-cu113 support rtx3090
pip install dgl-cu102 dglgo -f https://data.dgl.ai/wheels/repo.html 
sudo apt install -y sox libsox-fmt-mp3
bash mfa_usr/install_mfa.sh # install force alignment tools

Execute o SyntaSpeech!

Siga as etapas a seguir para executar este repositório.

1. Preparação

Preparação de dados

Você pode usar diretamente nossos conjuntos de dados binarizados para LJSpeech e Biaobei. Faça o download e descompacte -os na pasta data/binary/ .

Quanto ao Libritts, você pode baixar os conjuntos de dados brutos e processá -los com nossos módulos data_gen . Instruções detalhadas podem ser encontradas em DOSC/preparar_data.

Preparação do vocoder

Fornecemos o modelo pré-treinado de vocoders para três conjuntos de dados. Especificamente, Hifi-Gan para LJSpeech e Biaobei, Parallelwavegan para Libritts. Faça o download e descompacte -os nos checkpoints/ pasta.

2. Exemplo de treinamento

Em seguida, você pode treinar o SyntaSPeech nos três conjuntos de dados.

 cd < the root_dir of your SyntaSpeech folder >
export PYTHONPATH=./
CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/lj/synta.yaml --exp_name lj_synta --reset # training in LJSpeech
CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/biaobei/synta.yaml --exp_name biaobei_synta --reset # training in Biaobei
CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/libritts/synta.yaml --exp_name libritts_synta --reset # training in LibriTTS

3. Tensorboard

tensorboard --logdir=checkpoints/lj_synta
tensorboard --logdir=checkpoints/biaobei_synta
tensorboard --logdir=checkpoints/libritts_synta

4. Exemplo de inferência

CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/lj/synta.yaml --exp_name lj_synta --reset --infer # inference in LJSpeech
CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/biaobei/synta.yaml --exp_name biaobei_synta --reset --infer # inference in Biaobei
CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/libritts/synta.yaml --exp_name libritts_synta --reset ---infer # inference in LibriTTS

Demos de áudio

Amostras de áudio no papel podem ser encontradas em nossa página de demonstração.

Também fornecemos a página de demonstração Huggingface para LJSpeech. Experimente suas frases interessantes lá!

Citação

 @article{ye2022syntaspeech,
  title={SyntaSpeech: Syntax-Aware Generative Adversarial Text-to-Speech},
  author={Ye, Zhenhui and Zhao, Zhou and Ren, Yi and Wu, Fei},
  journal={arXiv preprint arXiv:2204.11792},
  year={2022}
}