Download de YourTTS - Download do código fonte YourTTS

YourTTS

Código-Fonte de IA

MOS Samples

Baixar

Yourtts: em direção a Zero Shot Multi-Speaker TTS e conversão de voz com tiro zero para todos

Em nosso artigo recente, propomos o modelo do seu. O YourTTS traz o poder de uma abordagem multilíngue para a tarefa de TTS de vários falantes de tiro zero. Nosso método se baseia no modelo VITS e adiciona várias novas modificações para treinamento multifuente e multilíngue zero-tiro. Conseguimos resultar em tts multi-alto-falantes de ponta e resultados comparáveis ao SOTA na conversão de voz com tiro zero no conjunto de dados VCTK. Além disso, nossa abordagem alcança resultados promissores em um idioma de destino com um conjunto de dados de um único alto-falante, possibilidades de abertura para sistemas de conversão de voz com vários alto-falantes e sistemas de conversão de voz zero em idiomas de baixa resistência. Finalmente, é possível ajustar o modelo do YEATTS com menos de 1 minuto de fala e obter resultados de ponta na similaridade de voz e com qualidade razoável. Isso é importante para permitir a síntese para falantes com uma voz muito diferente ou características de gravação daquelas observadas durante o treinamento.

Errata

Na seção 2 do artigo YourTts, definimos a função de perda de consistência do alto -falante (SCL). Além disso, usamos essa função de perda em 4 experimentos de ajuste fino nas seções 3 e 4 (Exp. 1 + SCL, Exp. 2 + SCL, Exp. 3 + SCL e Exp. 4 + SCL). No entanto, devido a um erro de implementação, o gradiente dessa função de perda não foi propagado para o modelo durante o treinamento. Isso significa que os experimentos de ajuste fino que usaram essa perda são equivalentes a treinar o modelo para mais etapas sem a perda de consistência do alto-falante. Este bug foi descoberto por Tomáš Nekvinda e relatado na edição número 2348 do repositório Coqui TTS. Este bug foi corrigido no número de solicitação de tração 2364 no repositório Coqui TTS. Atualmente, ele é corrigido para a versão coqui tts v0.12.0 ou superior. Gostaríamos de agradecer a Tomáš Nekvinda por encontrar o bug e relatá -lo.

Versão de produção

Venha experimentar o nosso mais recente e mais recente Modelo Full Fullband Inglês https://coqui.ai/

Amostras de áudios

Visite nosso site para obter amostras de áudio.

Implementação

Todos os nossos experimentos foram implementados no repositório Coqui TTS.

Demos colab

Demonstração	Url
Zero Shot TTS	link
Zero Shot VC	link
Zero Shot VC - Experiência 1 (treinado com apenas VCTK)	link

Pontos de verificação

Todos os pontos de verificação lançados estão licenciados no CC BY-ND-ND 4.0

Modelo	Url
Codificador de alto -falante	link
Exp 1. Yourtts-en (vctk)	Não disponível
Exp 1. Yourtts-en (vctk) + SCL	link
Exp 2. Yourtts-en (vctk) -pt	Não disponível
Exp 2. Yourtts-en (vctk) -pt + SCL	Não disponível
Exp 3. Yourtts-en (vctk) -pt-fr	Não disponível
Exp 3. Yourtts-en (vctk) -Pt-FR SCL	Não disponível
Exp 4	Não disponível

Modelo Lançado com Coqui TTS

TTS

Para usar o? TTS Versão v0.7.0 Modelo Lançado Yourtts para Text-to-Real Use o seguinte comando:

 tts  --text "This is an example!" --model_name tts_models/multilingual/multi-dataset/your_tts  --speaker_wav target_speaker_wav.wav --language_idx "en"

Considerando o "Target_Speaker_wav.wav" uma amostra de áudio do alto -falante alvo.

Conversão de voz

Para usar o? O modelo TTS lançou o seu modelo para conversão de voz, use o seguinte comando:

 tts --model_name tts_models/multilingual/multi-dataset/your_tts  --speaker_wav target_speaker_wav.wav --reference_wav  target_content_wav.wav --language_idx "en"

Considerando o "Target_content_wav.wav" como o arquivo de onda de referência para converter na voz do alto -falante "Target_Speaker_wav.wav".

Resultados Replicabilidade

Para garantir a replicabilidade, tornamos os áudios usados para gerar os MOS disponíveis aqui. Além disso, fornecemos o MOS para cada áudio aqui.

Para re-gerar os resultados dos nossos MOS, siga as instruções aqui. Para prever as frases de teste e gerar as SECs, use os notebooks Jupyter disponíveis aqui.

Teste de teste:

Libritts (teste limpo): 1188, 1995, 260, 1284, 2300, 237, 908, 1580, 121 e 1089

VCTK: P261, P225, P294, P347, P238, P234, P248, P335, P245, P326 e P302

MLS português: 12710, 5677, 12249, 12287, 9351, 11995, 7925, 3050, 4367 e 1306

Reprodutibilidade

Para replicar completamente o experimento 1, fornecemos uma receita em coqui tts. Esta receita Downloads, reamos, extrai as incorporações do alto -falante e treina o modelo sem a necessidade de quaisquer alterações no código.

O artigo foi feito usando meu garfo coqui tts no ramo multilíngue-torchaudio-se.

Se você deseja usar a versão mais recente do Coqui TTS, poderá obter o Config.json do modelo Lançado com Coqui.

Com o config.json em mãos, primeiro você precisa alterar a configuração "conjuntos de dados" para o seu conjunto de dados. Usando o Config.json com a configuração "conjuntos de dados" ajustada, é necessário extrair as incorporações do falante usando nosso codificador de alto -falante liberado usando o seguinte comando: python3 TTS/bin/compute_embeddings.py --model_path model_se.pth.tar --config_path config_se.json --config_dataset_path config.json --output_path d_vector_file.json

"Model_Se.Pth.tar" e "Config_Se.json" podem ser encontrados no modelo Lançado com Coqui, enquanto Config.json é a configuração para a qual você define os caminhos.

Outros parâmetros que você deve mudar estão no "config.json":

"d_vector_file": agora que você tem o arquivo de incorporação do alto -falante (d_vector_file.json) ajuste o parâmetro "d_vector_file" na configuração de configuração para o caminho do arquivo de incorporação do alto -falante.
"Output_Path": o caminho para salvar o ponto de verificação e os registros de treinamento
"Speaker_encoder_config_path": a configuração do codificador do alto -falante para usar para calcular a perda de consistência do cosseno ao alto -falante (defina -a no caminho config_se.json)
"Speaker_encoder_model_path": o ponto de verificação do codificador do alto -falante usado para calcular a perda de consistência/consistência do alto -falante do alto -falante (defina -o no caminho "config_se.json")

Agora que você tem o config.json configurado para replicar o treinamento, você pode usar o seguinte comando (se você gosta, pode usar o - -reestore_path {checkpoint_path} para transferir o aprendizado de um ponto de verificação e acelerar o treinamento: python3 TTS/bin/train_tts.py --config_path config.json

Citação

Pré -impressão


@ARTICLE{2021arXiv211202418C,
  author = {{Casanova}, Edresson and {Weber}, Julian and {Shulby}, Christopher and {Junior}, Arnaldo Candido and {G{"o}lge}, Eren and {Antonelli Ponti}, Moacir},
  title = "{YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone}",
  journal = {arXiv e-prints},
  keywords = {Computer Science - Sound, Computer Science - Computation and Language, Electrical Engineering and Systems Science - Audio and Speech Processing},
  year = 2021,
  month = dec,
  eid = {arXiv:2112.02418},
  pages = {arXiv:2112.02418},
  archivePrefix = {arXiv},
  eprint = {2112.02418},
  primaryClass = {cs.SD},
  adsurl = {https://ui.adsabs.harvard.edu/abs/2021arXiv211202418C},
  adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}

Artigo publicado no ICML

 @inproceedings{casanova2022yourtts,
  title={Yourtts: Towards zero-shot multi-speaker tts and zero-shot voice conversion for everyone},
  author={Casanova, Edresson and Weber, Julian and Shulby, Christopher D and Junior, Arnaldo Candido and G{"o}lge, Eren and Ponti, Moacir A},
  booktitle={International Conference on Machine Learning},
  pages={2709--2720},
  year={2022},
  organization={PMLR}
}

Expandir

Informações adicionais

Versão MOS Samples
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-14
tamanho 94.83MB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos