Este repositorio es una implementación multilingüe fonémica (ruso-inglés) basada en la clonación de voz en tiempo real. Es un marco de aprendizaje profundo de cuatro etapas que permite crear una representación numérica de una voz desde unos pocos segundos de audio, y para nosotros para acondicionar un modelo de texto a voz. Si necesita la versión en inglés, utilice la implementación original.
Este repositorio es una implementación fonémica multilingüe (rusa-inglés) basada en la clonación de voz en tiempo real. Consiste en cuatro redes neuronales que le permiten crear una representación numérica de la voz desde varios segundos de sonido y usarlo para crear un modelo para convertir el texto en voz
Use la demostración en línea de Colab
Necesitará lo siguiente que planea usar la caja de herramientas solo para volver a entrenar los modelos.
≥Python 3.6 .
Pytorch (> = 1.0.1).
Ejecute pip install -r requirements.txt para instalar los paquetes necesarios.
Una GPU es obligatoria, pero no necesariamente necesita una GPU de alto nivel si desea usar la caja de herramientas.
Descargue el último Geere.
| NOMBRE | Idioma | Enlace | Comentario | Mi enlace | Comentario |
|---|---|---|---|---|---|
| Diccionario fonema | Es, ru | Es, ru | Diccionario fonema | Enlace | Diccionario fonémico ruso e inglés combinado |
| Libriscoech | Interno | Enlace | 300 altavoces, 360h discurso limpio | ||
| Voxceleb | Interno | Enlace | 7000 hablantes, muchas horas mal discurso | ||
| M-ailabs | Freno | Enlace | 3 altavoces, 46h discurso limpio | ||
| Open_tts, Open_STT | Freno | Open_tts, Open_STT | Muchos oradores, muchas horas mal habla | Enlace | Limpio 4 horas de discurso de un orador. Corrigió la anotación, dividida en segmentos de hasta 7 segundos |
| Voxforge+Audiolibro | Freno | Enlace | Muchos altavoces, 25h varias calidad | Enlace | Elegí buenos archivos. Irrumpió en segmentos. Se agregó un audiolibro de Internet. Resultó 200 altavoces un par de minutos para cada |
| Ruslán | Freno | Enlace | Un orador, 40h buen discurso | Enlace | Corregido en 16 kHz |
| Mozilla | Freno | Enlace | 50 orador, 30h buen discurso | Enlace | Acercado en 16 kHz, dispersos diferentes usuarios en carpetas |
| Single ruso | Freno | Enlace | Un orador, 9h buen discurso | Enlace | Corregido en 16 kHz |
Puedes probar la caja de herramientas:
python demo_toolbox.py -d <datasets_root>
o
python demo_toolbox.py
Modelos previos a la aparición
Entrenamiento (y para otros idiomas)
Entrenamiento (y para otros idiomas)
Para cualquier pregunta, por favor envíe un correo electrónico a
| Url | Designación | Título | Fuente de implementación |
|---|---|---|---|
| 1806.04558 | Sv2tts | Transferir el aprendizaje de la verificación del hablante a la síntesis de texto a voz de múltiples | Corentinj |
| 1802.08435 | Wavernn (Vocoder) | Síntesis de audio eficiente | Fatchord/Wavernn |
| 1712.05884 | Tacotron 2 (sintetizador) | Síntesis de TTS natural mediante acondicionamiento de wavenet en predicciones de espectrograma MEL | Rayhane-Mamah/Tacotron-2 |
| 1710.10467 | GE2E (codificador) | Pérdida generalizada de extremo a extremo para la verificación del altavoz | Corentinj |