Em nosso artigo recente, propomos o modelo do seu. O YourTTS traz o poder de uma abordagem multilíngue para a tarefa de TTS de vários falantes de tiro zero. Nosso método se baseia no modelo VITS e adiciona várias novas modificações para treinamento multifuente e multilíngue zero-tiro. Conseguimos resultar em tts multi-alto-falantes de ponta e resultados comparáveis ao SOTA na conversão de voz com tiro zero no conjunto de dados VCTK. Além disso, nossa abordagem alcança resultados promissores em um idioma de destino com um conjunto de dados de um único alto-falante, possibilidades de abertura para sistemas de conversão de voz com vários alto-falantes e sistemas de conversão de voz zero em idiomas de baixa resistência. Finalmente, é possível ajustar o modelo do YEATTS com menos de 1 minuto de fala e obter resultados de ponta na similaridade de voz e com qualidade razoável. Isso é importante para permitir a síntese para falantes com uma voz muito diferente ou características de gravação daquelas observadas durante o treinamento.
Na seção 2 do artigo YourTts, definimos a função de perda de consistência do alto -falante (SCL). Além disso, usamos essa função de perda em 4 experimentos de ajuste fino nas seções 3 e 4 (Exp. 1 + SCL, Exp. 2 + SCL, Exp. 3 + SCL e Exp. 4 + SCL). No entanto, devido a um erro de implementação, o gradiente dessa função de perda não foi propagado para o modelo durante o treinamento. Isso significa que os experimentos de ajuste fino que usaram essa perda são equivalentes a treinar o modelo para mais etapas sem a perda de consistência do alto-falante. Este bug foi descoberto por Tomáš Nekvinda e relatado na edição número 2348 do repositório Coqui TTS. Este bug foi corrigido no número de solicitação de tração 2364 no repositório Coqui TTS. Atualmente, ele é corrigido para a versão coqui tts v0.12.0 ou superior. Gostaríamos de agradecer a Tomáš Nekvinda por encontrar o bug e relatá -lo.
Venha experimentar o nosso mais recente e mais recente Modelo Full Fullband Inglês https://coqui.ai/
Visite nosso site para obter amostras de áudio.
Todos os nossos experimentos foram implementados no repositório Coqui TTS.
| Demonstração | Url |
|---|---|
| Zero Shot TTS | link |
| Zero Shot VC | link |
| Zero Shot VC - Experiência 1 (treinado com apenas VCTK) | link |
Todos os pontos de verificação lançados estão licenciados no CC BY-ND-ND 4.0
| Modelo | Url |
|---|---|
| Codificador de alto -falante | link |
| Exp 1. Yourtts-en (vctk) | Não disponível |
| Exp 1. Yourtts-en (vctk) + SCL | link |
| Exp 2. Yourtts-en (vctk) -pt | Não disponível |
| Exp 2. Yourtts-en (vctk) -pt + SCL | Não disponível |
| Exp 3. Yourtts-en (vctk) -pt-fr | Não disponível |
| Exp 3. Yourtts-en (vctk) -Pt-FR SCL | Não disponível |
| Exp 4 | Não disponível |
Para usar o? TTS Versão v0.7.0 Modelo Lançado Yourtts para Text-to-Real Use o seguinte comando:
tts --text "This is an example!" --model_name tts_models/multilingual/multi-dataset/your_tts --speaker_wav target_speaker_wav.wav --language_idx "en"
Considerando o "Target_Speaker_wav.wav" uma amostra de áudio do alto -falante alvo.
Para usar o? O modelo TTS lançou o seu modelo para conversão de voz, use o seguinte comando:
tts --model_name tts_models/multilingual/multi-dataset/your_tts --speaker_wav target_speaker_wav.wav --reference_wav target_content_wav.wav --language_idx "en"
Considerando o "Target_content_wav.wav" como o arquivo de onda de referência para converter na voz do alto -falante "Target_Speaker_wav.wav".
Para garantir a replicabilidade, tornamos os áudios usados para gerar os MOS disponíveis aqui. Além disso, fornecemos o MOS para cada áudio aqui.
Para re-gerar os resultados dos nossos MOS, siga as instruções aqui. Para prever as frases de teste e gerar as SECs, use os notebooks Jupyter disponíveis aqui.
Libritts (teste limpo): 1188, 1995, 260, 1284, 2300, 237, 908, 1580, 121 e 1089
VCTK: P261, P225, P294, P347, P238, P234, P248, P335, P245, P326 e P302
MLS português: 12710, 5677, 12249, 12287, 9351, 11995, 7925, 3050, 4367 e 1306
Para replicar completamente o experimento 1, fornecemos uma receita em coqui tts. Esta receita Downloads, reamos, extrai as incorporações do alto -falante e treina o modelo sem a necessidade de quaisquer alterações no código.
O artigo foi feito usando meu garfo coqui tts no ramo multilíngue-torchaudio-se.
Se você deseja usar a versão mais recente do Coqui TTS, poderá obter o Config.json do modelo Lançado com Coqui.
Com o config.json em mãos, primeiro você precisa alterar a configuração "conjuntos de dados" para o seu conjunto de dados. Usando o Config.json com a configuração "conjuntos de dados" ajustada, é necessário extrair as incorporações do falante usando nosso codificador de alto -falante liberado usando o seguinte comando: python3 TTS/bin/compute_embeddings.py --model_path model_se.pth.tar --config_path config_se.json --config_dataset_path config.json --output_path d_vector_file.json
"Model_Se.Pth.tar" e "Config_Se.json" podem ser encontrados no modelo Lançado com Coqui, enquanto Config.json é a configuração para a qual você define os caminhos.
Outros parâmetros que você deve mudar estão no "config.json":
Agora que você tem o config.json configurado para replicar o treinamento, você pode usar o seguinte comando (se você gosta, pode usar o - -reestore_path {checkpoint_path} para transferir o aprendizado de um ponto de verificação e acelerar o treinamento: python3 TTS/bin/train_tts.py --config_path config.json
@ARTICLE{2021arXiv211202418C,
author = {{Casanova}, Edresson and {Weber}, Julian and {Shulby}, Christopher and {Junior}, Arnaldo Candido and {G{"o}lge}, Eren and {Antonelli Ponti}, Moacir},
title = "{YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone}",
journal = {arXiv e-prints},
keywords = {Computer Science - Sound, Computer Science - Computation and Language, Electrical Engineering and Systems Science - Audio and Speech Processing},
year = 2021,
month = dec,
eid = {arXiv:2112.02418},
pages = {arXiv:2112.02418},
archivePrefix = {arXiv},
eprint = {2112.02418},
primaryClass = {cs.SD},
adsurl = {https://ui.adsabs.harvard.edu/abs/2021arXiv211202418C},
adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}
@inproceedings{casanova2022yourtts,
title={Yourtts: Towards zero-shot multi-speaker tts and zero-shot voice conversion for everyone},
author={Casanova, Edresson and Weber, Julian and Shulby, Christopher D and Junior, Arnaldo Candido and G{"o}lge, Eren and Ponti, Moacir A},
booktitle={International Conference on Machine Learning},
pages={2709--2720},
year={2022},
organization={PMLR}
}