Descargar dc_tts - Descargar el código fuente dc

dc_tts

Código Fuente de IA

1.0.0

Descargar

Una implementación de TensorFlow de DC-TTS: otro modelo de texto a voz

Implemento otro modelo de texto a voz, DC-TTS, introducido en un sistema de texto a voz de eficiencia eficiente basado en redes convolucionales profundas con atención guiada. Mi objetivo, sin embargo, no es solo replicar el papel. Más bien, me gustaría obtener información sobre varios proyectos de sonido.

Requisitos

Numpy> = 1.11.1
Tensorflow> = 1.3 (tenga en cuenta que la API de tf.contrib.layers.layer_norm ha cambiado desde 1.3)
Librosa
TQDM
mate
bisagro

Datos

Entreno modelos ingleses y un modelo coreano en cuatro conjuntos de datos de voz diferentes.

1. LJ de conjunto de datos de discurso
2. Audiolibros de Nick Offerman
3. Audiolibro de Kate Winslet
4. Conjunto de datos KSS

El conjunto de datos de discurso LJ se usa recientemente como un conjunto de datos de referencia en la tarea TTS porque está disponible públicamente, y tiene 24 horas de muestras de calidad razonables. Los audiolibros de Nick y Kate también se usan para ver si el modelo puede aprender incluso con menos datos, muestras de voz variables. Tienen 18 horas y 5 horas, respectivamente. Finalmente, el conjunto de datos KSS es un conjunto de datos de discurso de un solo hablante coreano que dura más de 12 horas.

Capacitación

Paso 0. Descargue el conjunto de datos de discurso LJ o prepare sus propios datos.
Paso 1. Ajuste los parámetros hiper en hyperparams.py . (Si desea realizar el preprocesamiento, configure Prepro True`.
Paso 2. Ejecute python train.py 1 para Text2Mel de entrenamiento. (Si configura Prepro True, ejecute Python Prepro.py primero)
Paso 3. Corre python train.py 2 para entrenamiento SSRN.

Puede hacer el paso 2 y 3 al mismo tiempo, si tiene más de una tarjeta GPU.

Curvas de entrenamiento

Trama de atención

Síntesis de muestra

Generaron muestras de habla basadas en oraciones de Harvard como lo hace el documento original. Ya está incluido en el repositorio.

Ejecute synthesize.py y verifique los archivos en samples .

Muestras generadas

Conjunto de datos	Muestras
Lj	50k 200k 310k 800k
Mella	40K 170K 300K 800K
Kate	40k 160k 300k 800k
KSS	400k

Modelo previo a la aparición para LJ

Descargue esto.

Notas

El documento no mencionó la normalización, pero sin normalización no pude hacer que funcionara. Entonces agregué la normalización de la capa.
El documento fijó la tasa de aprendizaje a 0.001, pero no funcionó para mí. Así que lo decaí.
Traté de entrenar Text2Mel y SSRN simultáneamente, pero no funcionó. Supongo que la separación de esas dos redes mitiga la carga del entrenamiento.
Los autores afirmaron que el modelo puede ser entrenado en un día, pero desafortunadamente la suerte no era mía. Sin embargo, obviamente, esto es mucho Fater que Tacotron, ya que usa solo capas de convolución.
Gracias a la atención guiada, la trama de atención se ve monotónica casi desde el principio. Supongo que esto parece sostener el aligment para que no perderá rastreo.
El periódico no mencionó los abandonos. Los apliqué, ya que creo que ayuda a la regularización.
Verifique también otros modelos TTS como Tacotron y Deep Voice 3.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-23
tamaño 3.08MB
Proviene de Github

Aplicaciones relacionadas

F5 TTS ComfyUI

2024-11-02
Juego DC Legión de la Oscuridad

2024-04-29
Juego móvil DC Legion of Darkness

2024-04-27
Ejército de las Tinieblas de DC

2023-07-17
Ejército de las Tinieblas de DC

2023-07-17
Rey de los luchadores versión 98dc

2023-04-21

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo