text_to_speech descargar - text_to_speech Descargar código fuente

text_to_speech

Código Fuente de IA

1.0.0

Descargar

? Texto al habla (TTS)

¡Consulte el archivo ChangeLog para tener una descripción global de las últimas modificaciones! ?

Estructura de proyectos

├── custom_architectures
│   ├── tacotron2_arch.py       : Tacotron-2 synthesizer architecture
│   └── waveglow_arch.py        : WaveGlow vocoder architecture
├── custom_layers
├── custom_train_objects
│   ├── losses
│   │   └── tacotron_loss.py    : custom Tacotron2 loss
├── example_outputs         : some pre-computed audios (cf the ` text_to_speech ` notebook)
├── loggers
├── models
│   ├── encoder             : the ` AudioEncoder ` is used as speaker encoder for the SV2TTS model *
│   ├── tts
│   │   ├── sv2tts_tacotron2.py : SV2TTS main class
│   │   ├── tacotron2.py        : Tacotron2 main class
│   │   ├── vocoder.py          : main functions for complete inference
│   │   └── waveglow.py         : WaveGlow main class (both pytorch and tensorflow)
├── pretrained_models
├── unitests
├── utils
├── example_fine_tuning.ipynb
├── example_sv2tts.ipynb
├── example_tacotron2.ipynb
├── example_waveglow.ipynb
└── text_to_speech.ipynb

Consulte el proyecto principal para obtener más información sobre los módulos / estructura / clases principales sin extensión.

* Consulte el proyecto de codificadores para obtener más información sobre los models/encoder

Características disponibles

Texto a voz ( models.tts módulo.tts):

Característica	Fáctica / clase	Descripción
Texto a voz	`tts`	Realice TTS en el texto que desee con el modelo que desee
arroyo	`tts_stream`	Realice TTS en el texto que ingrese
Logger TTS	`loggers.TTSLogger`	convierte los registros `logging` en voz y reproducirlo

El cuaderno text_to_speech proporciona una demostración concreta de la función tts

Modelos disponibles

Arquitecturas de modelos

Arquitecturas disponibles:

Synthesizer :
- Tacotron2 con extensiones para múltiples altavoces (por ID o SV2TTS )
- Extensión SV2TTS de la arquitectura Tacotron2 para múltiples altavoces basada en los incrustaciones de los altavoces*
Vocoder :
- Resplandor de onda

Los modelos SV2TTS están ajustados a partir de modelos Tacotron2 previos a la aparición, utilizando el procedimiento de aprendizaje de transferencia parcial (ver más abajo para más detalles), lo que acelera mucho la capacitación.

Pesas de modelos

Nombre	Idioma	Conjunto de datos	Sintetizador	Vocero	Codificador	Entrenador	Pesas
Pretrenado_tacotron2	`en`	Ljspeech	`Tacotron2`	`WaveGlow`	/	Nvidia	Google Drive
tacotron2_siwis	`fr`	Siwis	`Tacotron2`	`WaveGlow`	/	a mí	Google Drive
sv2tts_tacotron2_256	`fr`	Siwis, Voxforge, CommonVoice	`SV2TTSTacotron2`	`WaveGlow`	Google Drive	a mí	Google Drive
sv2tts_siwis	`fr`	Siwis, Voxforge, CommonVoice	`SV2TTSTacotron2`	`WaveGlow`	Google Drive	a mí	Google Drive
sv2tts_tacotron2_256_v2	`fr`	Siwis, Voxforge, CommonVoice	`SV2TTSTacotron2`	`WaveGlow`	Google Drive	a mí	Google Drive
sv2tts_siwis_v2	`fr`	Siwis	`SV2TTSTacotron2`	`WaveGlow`	Google Drive	a mí	Google Drive

¡Los modelos deben desactivarse en el pretrained_models/ directorio!

Nota importante : Los modelos NVIDIA disponibles en torch hub requieren una GPU compatible con la configuración correcta para pytorch . ¿Es la razón por la cual los dos modelos se proporcionan en el punto de control keras esperado?

Los modelos sv2tts_siwis son la versión ajustada de sv2tts_tacotron2_256 en el conjunto de datos SIWIS (un solo hablante). El ajuste de un altavoz múltiple en un conjunto de datos de un solo hablante tiende a mejorar la estabilidad y producir una voz con más entonación, en comparación con simplemente entrenar el modelo de un solo hablante.

Uso y demostración

Demostración

¡Una demostración de Google Colab está disponible en este enlace!

También puede encontrar algo de audio generado en example_outputs/ , o directamente en el cuaderno Colab;)

Instalación y uso

¡Consulte esta guía de Installagion para ver las instrucciones paso a paso!

Es posible que deba instalar ffmpeg para la carga / ahorro de audio.

Lista de tareas pendientes:

Texto de múltiples altavoces a voz

Hay múltiples formas de habilitar la síntesis del habla multi-speaker :

Use una speaker ID que esté incrustada por una capa Embedding aprendible. La incrustación del orador se aprende durante el entrenamiento.
Use un Speaker Encoder (SE) para incrustar el audio del altavoz de referencia. Esto a menudo se denomina zero-shot voice cloning , ya que solo requiere una muestra del altavoz (sin entrenamiento).
Recientemente, se ha propuesto una nueva estrategia prompt-based para controlar el discurso con indicaciones.

Clonación de voz automática con la arquitectura `SV2TTS`

Nota: En los próximos párrafos, encoder se refiere a la parte Tacotron Encoder , mientras que SE se refiere a un modelo speaker encoder (detallado a continuación).

La intuición básica

El Speaker Encoder-based Text-To-Speech se inspira desde el papel "De la verificación del altavoz hasta el texto de texto a voz (SV2TTS)". Los autores han propuesto una extensión de la arquitectura Tacotron-2 para incluir información sobre la voz del orador.

Aquí hay una breve descripción del procedimiento propuesto:

Entrena un modelo para identificar altavoces basados en muestras de audio cortas: el modelo speaker verification . Este modelo básicamente toma como entrada una muestra de audio (5-10 segundos) de un altavoz, y lo codifica en un vector d -dimensional, llamado la embedding . Esta incrustación tiene como objetivo capturar información relevante sobre la voz del orador (por ejemplo, frequencies , rythm , pitch , ...).
Este Speaker Encoder (SE) se usa para codificar la voz del altavoz al clon.
La incrustación producida se concatena con la salida de la parte del codificador Tacotron-2 , de modo que el Decoder tiene acceso tanto al texto codificado como al altavoz.

El objetivo es que el Decoder aprenderá a usar el speaker embedding para copiar su prosodia / entonación / ... para leer el texto con la voz de este altavoz.

Limitaciones y soluciones

Hay algunas limitaciones con el enfoque anterior:

Una generalización perfecta para los nuevos altavoces es realmente difícil, ya que requeriría grandes conjuntos de datos con muchos altavoces.
El audio no debe tener ningún ruido / artefacto para evitar audios sintéticos ruidosos.
El Speaker Encoder tiene que separar correctamente los altavoces y codificar su voz de manera significativa para el sintetizador.

Para abordar estas limitaciones, la solución propuesta es realizar un entrenamiento de 2 pasos:

Primero entrena un modelo de múltiples hablantes de baja calidad en la base de datos CommonVoice . Esta es una de las bases de datos multilingües más grandes para audio, a costa de audios de calidad ruidosa / variable. Por lo tanto, esto no es adecuado para entrenar modelos de buena calidad, mientras que el preprocesamiento aún ayuda a obtener audios inteligibles.
Una vez que se capacita un modelo de múltiples altavoces, se puede utilizar una base de datos de un solo reventador con pocos datos de buena calidad para ajustar el modelo en un solo altavoz. ¡Esto permite que el modelo aprenda más rápido, con una cantidad limitada de datos de buena calidad, y producir audios de muy buena calidad!

El codificador del altavoz (SE)

La parte SE debe poder diferenciar los altavoces e incrustarlos (codificarlos en un vector 1-D) de una manera significativa .

El modelo utilizado en el papel es un modelo LSTM de 3 capas con una capa de normalización entrenada con la pérdida GE2E. La principal limitación es que el entrenamiento de este modelo es realmente lento , y tomó 2 semanas en 4 GPU en la tesis de maestría de Corentinj (cf su GitHub)

Este proyecto propone una arquitectura más simple basada en Convolutional Neural Networks (CNN) , que es mucho más rápida de entrenar en comparación con las redes LSTM . Además, la distancia euclidian se ha utilizado en lugar de la métrica cosine , que ha mostrado una convergencia más rápida. Además, se propone un generador basado en caché personalizado para acelerar el procesamiento de audio. ¡Estas modificaciones permiten entrenar un modelo de precisión del 99% en 2-3 horas en una sola GPU RTX 3090 !

El procedimiento de aprendizaje de transferencia parcial

Para evitar entrenar un modelo SV2TTS desde cero, que sería completamente imposible en una sola GPU, se propone un nuevo procedimiento partial transfer learning .

Este procedimiento toma un modelo previamente capacitado con una arquitectura ligeramente diferente y transfiere todos los pesos comunes (como en el aprendizaje de transferencia regular). Para las capas con diferentes pesas, solo se transfiere la parte común, mientras que los pesos restantes se inicializan a ceros. Esto da como resultado un nuevo modelo con diferentes pesos para imitar el comportamiento del modelo original.

En la arquitectura SV2TTS , la incrustación del altavoz se pasa a la capa recurrente del Tacotron2 decoder . Esto da como resultado una forma de entrada diferente, haciendo que la matriz de pesas de la capa sea diferente. ¡El aprendizaje de transferencia parcial permite nitializar el modelo de tal manera que replica el comportamiento del modelo Tacotron2 original de un solo hablante!

Contactos y licencia

Contactos:

Correo : [email protected]
Discord : Yui0732

Condiciones de uso

El objetivo de estos proyectos es apoyar y avanzar en la educación e investigación en tecnología de aprendizaje profundo. Para facilitar esto, todo el código asociado está disponible bajo la GNU Affero General Public License (AGPL) V3, complementado por una cláusula que prohíbe el uso comercial (cf el archivo de licencia).

Estos proyectos se lanzan como "software libre", lo que le permite usar, modificar, implementar y compartir libremente el software, siempre que se adhiera a los términos de la licencia. Si bien el software está disponible gratuitamente, no es un dominio público y conserva la protección de los derechos de autor. Las condiciones de la licencia están diseñadas para garantizar que cada usuario pueda utilizar y modificar cualquier versión del código para sus propios proyectos educativos y de investigación.

Si desea utilizar este proyecto en un esfuerzo comercial propietario, debe obtener una licencia por separado. Para obtener más detalles sobre este proceso, contácteme directamente.

Para mi protección, es importante tener en cuenta que todos los proyectos están disponibles "como es", sin garantías o condiciones de ningún tipo, ya sea explícitos o implícitos. Sin embargo, ¿dude en informar problemas sobre el proyecto del repositorio o hacer una solicitud de extracción para resolverlo?

Citación

Si encuentra que este proyecto es útil en su trabajo, agregue esta cita para darle más visibilidad. ?

 @misc{yui-mhcp
    author  = {yui},
    title   = {A Deep Learning projects centralization},
    year    = {2021},
    publisher   = {GitHub},
    howpublished    = {url{https://github.com/yui-mhcp}}
}

Notas y referencias

El código para este proyecto es una mezcla de múltiples proyectos de GitHub, para tener una implementación Tacotron-2 totalmente modulable

Repositorio de NVIDIA (Tacotron2 / WaveGlow): el modelo de petróleo base está inspirado desde este repositorio.
El proyecto TFTTS: algunas optimizaciones de inferencia se inspiran en su implementación dynamic decoder , que ahora se ha optimizado y actualizado para ser compatibles Keras 3 .
Proyecto de clonación de voz en tiempo real de Corentinj: la arquitectura SV2TTS proporcionada se inspira en este repositorio, con pequeñas diferencias y optimizaciones.

Documentos:

Tacotron 2: el papel original Tacotron2
Glojo de onda: el papel de Glow original
Transferir el aprendizaje de la verificación del altavoz a el texto a la voz): Documento original para la variante SV2TTS
Pérdida generalizada de extremo a extremo para la verificación del altavoz: el documento de pérdida GE2E (utilizado para el codificador de altavoces en la arquitectura SV2TTS)

Expandir

Información adicional