Aplicación de clonación de voz
Una aplicación Python/Pytorch para sintetizar fácilmente las voces humanas

Documentación
Servidor de discordia
Guía de video
HUB COMPARTIDAD DE VOZ
Preguntas frecuentes
Requisitos del sistema
- Sistema operativo Windows 10 o Ubuntu 20.04+
- Espacio de disco de 5 GB+
- GPU NVIDIA con al menos 4 GB de memoria y versión del controlador 456.38+ (opcional)
Características clave
- Generación automática de conjuntos de datos (con soporte para subtítulos y audiolibros)
- Soporte de idiomas adicional
- Capacitación local y remota
- Fácil de inicio/parada del tren
- Importación/exportación de datos
- Soporte de GPU múltiple
Guías manuales
- Instalación
- Construyendo el conjunto de datos
- Capacitación
- Síntesis
- Haciendo cambios
Mejoras futuras
- Agregar soporte para TalkNet
- Agregue la alineación de GTA para Hifi-Gan
- Estimación mejorada del tamaño del lote
- Soporte de GPU de AMD
Otros recursos
- Cuaderno de entrenamiento remoto
- Pruebe las voces existentes en UberDuck.ai y Vocodes
- Retención de datos de YouTube (creado por Diskr33t#5880)
- Sintetizar en Colab (creado por Mega B#6696)
- Genere la transcripción de YouTube (creada por Mega B#6696)
- Wit.ai Transcripción
Expresiones de gratitud
Este proyecto utiliza una versión reelaborada de Tacotron2. Todos los derechos para pertenecen a NVIDIA y siguen los requisitos de su licencia BSD-3.
Además, el proyecto utiliza Dsalign, Silero, DeepSpeech y Hifi-Gan.
Gracias al Dr. John Bustard en la Universidad de Queen's Belfast por su apoyo durante todo el proyecto.
Con el apoyo de UberDuck.ai, comuníquese con ellos para el alojamiento de modelos en vivo.
También un gran agradecimiento a los miembros del subreddit Vocalsynthesis por sus comentarios.
Finalmente gracias a todos planteando problemas y contribuyendo al proyecto.