Download do MSMC TTS - MSMC TTS do download do código -fonte

MSMC TTS

Código-Fonte de IA

1.0.0

Baixar

MSMC-TTS: TTS de vários codificadores de vários estágios

Implemento oficial do sistema de trabalhos MSMC-TTS

Uma abordagem VQ-bae multi-codebook de vários estágios para TTS neural de alto desempenho
Em direção a TTs neurais de alta qualidade para idiomas de baixo recursos, aprendendo representação compacta
QS-TTS: Rumo à síntese de texto em fala semi-supervisionado por meio de representação de fala auto-supervisionada por vetor, aprendizado

O mais recente MSMC-TTS (MSMC-TTS-V2) é otimizado com um autoencoder baseado em MSMC-VQ-GAN combinando MSMC-VQ-VAE e Hifigan. O preditor de vários estágios ainda é aplicado como modelo acústico para prever MSMCRs para a síntese de TTS. Avatar

Notícias

[2024.04.10] (em andamento) A implementação do QS-TTS está disponível em exemplos/csmc/configurações

[2022.10.20] Lançamos a versão mais recente do MSMC-TTS (MSMC-TTS-V2) com base no MSMC-VQ-GAN. Consulte o nosso último artigo "Para TTs neurais de alta qualidade para idiomas de baixo recurso, aprendendo representação compacta"

[2022.10.18] Vamos lançar o código de todas as versões do MSMC-TTS neste repo. E qualquer pessoa interessada neste trabalho pode se juntar a nós para explorar representações de fala mais úteis para a síntese de fala.

[2022.9.22] "Uma abordagem VQ-VQ-VAE de vários estágios para TTS neural de alto desempenho" é publicada no Interspeech 2022.

Uso

 # Install
pip -r requirements.txt

# Train (Take the example of CSMSC, please refer to the example of CSMSC to prepare your training data)
python train.py -c examples/csmsc/configs/msmc_vq_gan.yaml
python train.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml

# Multi-GPU Training
python train_dist.py -c examples/csmsc/configs/msmc_vq_gan.yaml
python train_dist.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml

# Test -- Analysis-Synthesis
python infer.py -c examples/csmsc/configs/msmc_vq_gan.yaml -m examples/csmsc/checkpoints/msmc_vq_gan/model_800000 -t examples/csmsc/data/test_ae.yaml -o analysis_synthesis

# Test -- TTS-Synthesis
python infer.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml -m examples/csmsc/checkpoints/msmc_vq_gan_am/model_200000 -t examples/csmsc/data/test_tts.yaml -o tts

Pontas

Ajudá -lo melhor a treinar seus modelos!

MSMC-VQ-GAN

Cuidado com a compactação de sua representação. Para TTS padrão de alto-falante, você pode experimentar 2-4 cabeças, que cada cabeça pode ter 64 a 256 palavras de código.
Use menos palavras de código se o tamanho do seu lote for muito pequeno; caso contrário, o tamanho do quadro de um lote for insuficiente para suportar a atualização do livro de código dinâmico.
Você pode alterar o peso da perda do codificador se achar que alguns estágios do seu MSMC-VQ-GAN não aprendem nada.

Preditor de vários estágios

A perda de trigêmeos pode melhorar a expressividade do TTS, mas também pode degradar a suavidade. Você pode experimentar diferentes pesos de perda de trigêmeos, como 0, 0,01, 0,1, 1, para encontrar o desempenho mais equilibrado.
Para conjuntos de dados de baixo recurso, use modelos menores para evitar excesso de ajuste. A parada precoce também é um truque útil.

Citações

@inproceedings{guo2022msmc,
  title={A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS},
  author={Guo, Haohan and Xie, Fenglong and Soong, Frank K and Wu, Xixin and Meng, Helen},
  booktitle={Proc. INTERSPEECH},
  year={2022}
}