App de clonagem de voz
Um aplicativo Python/Pytorch para sintetizar facilmente vozes humanas

Documentação
Discord Server
Guia de vídeo
Hub de compartilhamento de voz
FAQs
Requisitos do sistema
- Windows 10 ou Ubuntu 20.04+ Sistema operacional
- 5 GB+ espaço em disco
- Nvidia GPU com pelo menos 4 GB de memória e driver versão 456.38+ (opcional)
Principais recursos
- Geração automática de conjunto de dados (com suporte para legendas e audiolivros)
- Suporte adicional ao idioma
- Treinamento local e remoto
- Fácil do Start/Stop/Stop
- Importação/exportação de dados
- Suporte multi -GPU
Guias manuais
- Instalação
- Construindo o conjunto de dados
- Treinamento
- Síntese
- Fazendo alterações
Melhorias futuras
- Adicione suporte para TalkNet
- Adicione o alinhamento GTA para Hifi-Gan
- Estimativa de tamanho de lote aprimorada
- Suporte da GPU da AMD
Outros recursos
- Caderno de treinamento remoto
- Experimente vozes existentes em Uberduck.ai e vocodes
- Gerta de dados do YouTube (criado por DiskR33T#5880)
- Sintetize em colab (criado por Mega B#6696)
- Gere a transcrição do YouTube (criada por Mega B#6696)
- Wit.ai Transcrição
Agradecimentos
Este projeto usa uma versão retrabalhada do Tacotron2. Todos os direitos para pertencem à NVIDIA e seguem os requisitos de sua licença BSD-3.
Além disso, o projeto usa DSalign, Silero, DeepSeech e Hifi-Gan.
Obrigado ao Dr. John Bustard na Queen's University Belfast por seu apoio ao longo do projeto.
Apoiado pelo Uberduck.ai, entre em contato com eles para obter a hospedagem de modelos ao vivo.
Também um grande agradecimento aos membros da Subreddit de Vocalsynthesis por seus comentários.
Finalmente, obrigado a todos levantando questões e contribuindo para o projeto.