Descargar durian pytorch - Descargar el código fuente de durian pytorch

durian pytorch

Código Fuente de IA

1.0.0

Descargar

Durian

Implementación de la "Red de atención informada de duración para la síntesis multimodal" (https://arxiv.org/pdf/1909.01700.pdf) papel.

Estado : liberado

1 información

Durian es una arquitectura de codificador codificador para la tarea de síntesis de texto a voz. A diferencia de las arquitecturas anteriores como Tacotron 2, no aprende el mecanismo de atención, pero tiene en cuenta la información de duraciones de fonemas. Entonces, por supuesto, para usar este modelo, uno debe tener un conjunto de datos fonemizado y alineado por la duración. Sin embargo, puede intentar utilizar el modelo de duración previamente en el conjunto de datos LJSPEECH (CMU DICT utilizado). Los enlaces se proporcionarán a continuación.

2 detalles de la arquitectura

El modelo de durian consta de dos módulos: sintetizador de backbone y predictor de duración. Estas son algunas de las diferencias más notables con respecto a Durian descritas en el papel:

No se usan marcadores de límites prosódicos (no los tienen etiquetado), y por lo tanto no hay la exclusión de los estados ocultos de los límites prosódicos ".
Los códigos de estilo también no se usan (la misma razón)
Eliminado PRENET antes del codificador CBHG (no mejoró la precisión durante los experimentos)
Salidas de celda recurrente del decodificador el marco de espectrograma único a la vez

Tanto el sintetizador y el modelo de duración están entrenados simultáneamente. Para las simplificaciones de implementación, el modelo de duración predice la alineación sobre el número máximo fijo de cuadros. Puede aprender estas salidas como problema de BCE, problema MSE sumando sobre el eje de cuadros o para usar ambas pérdidas (no he probado este), configúrelo en config.json . Los experimentos mostraron que la versión Just-BCE del proceso de optimización mostró inestable con secuencias de texto más largas, por lo que prefiere usar MSE+BCE o Just-MSE (no le importe si obtienes alineaciones malas en Tensorboard).

3 reproducibilidad

Puede verificar la síntesis de demostración Wavfile (se obtuvo mucho antes de la convergencia) en la carpeta demo (Vocoder de Glow Used).

En primer lugar, asegúrese de haber instalado todos los paquetes utilizando pip install --upgrade -r requirements.txt . El código se prueba usando pytorch==1.5.0
Clone the Repository: git clone https://github.com/ivanvovk/DurrIAN
Para comenzar a entrenar a la versión de Durian en papel, ejecute python train.py -c configs/default.json . Puede especificar para entrenar el modelo de línea de base como python train.py -c configs/baseline.json --baseline

Para asegurarse de que todo funcione bien en su entorno local, puede ejecutar pruebas unitarias en la carpeta tests de python <test_you_want_to_run.py> .

4 modelos previos a la aparición

Esta implementación fue capacitada utilizando el conjunto de datos LJSPEech alineado con duración fonemizada con minimización de pérdida de duración de BCE. Puede encontrarlo a través de este enlace.

5 Problema de alineación del conjunto de datos

El principal inconveniente de este modelo requiere un conjunto de datos alineados por la duración. Puede encontrar el filelista LJSPeech analizado utilizado en la capacitación de la implementación actual en la carpeta filelists . Para usar sus datos, asegúrese de haber organizado sus filelistas de la misma manera que se proporcionaron LJSPeech. Sin embargo, para ahorrar tiempo y neuronas de sus cerebros, puede intentar entrenar el modelo en su conjunto de datos sin alinearse con la duración utilizando el modelo de duración de LJSpeech desde mi punto de control de mi modelo (no se probó). Pero si está interesado en alinear el conjunto de datos personales, siga cuidadosamente la siguiente sección.

6 Cómo alinear sus propios datos

En mis experimentos alineé LJSpeech con la herramienta de alineación forzada de Montreal. Si aquí algo no está claro, siga las instrucciones en los documentos de Toolkit. Para empezar, el algoritmo de alineación tiene varios pasos:

Organice su conjunto de datos correctamente. MFA requiere que esté en una sola carpeta de estructura {Utterance_id.lab, Utterance_id.wav}. Asegúrese de que todos sus textos sean de formato .lab .
Descargue las instrucciones de instalación de lanzamiento y siga MFA a través de este enlace.
Una vez hecho con MFA, necesita su diccionario de palabras de conjunto de datos con transcripciones de fonemas. Aquí tienes varias opciones:
1. (Pruebe esto primero) Descargue el diccionario ya hecho de la lista de modelos de mfa previos a la metra (en la parte inferior de la página). En la implementación actual, he utilizado el diccionario de Arpabet en inglés. Aquí puede ser un problema: si su conjunto de datos contiene algunas palabras que faltan en el diccionario, MFA puede no analizarlo en el futuro y omitir dichos archivos de datos. Puede omitirlos o tratar de preprocesar su conjunto de datos con de acuerdo con el diccionario o agregar palabras faltantes a mano (si no demasiado).
2. Puede generar el diccionario con el modelo G2P previsto a partir de la lista de modelos Pretrados de MFA utilizando el comando bin/mfa_generate_dictionary /path/to/model_g2p.zip /path/to/data dict.txt . Observe que la instalación de MFA predeterminada le proporcionará automáticamente el modelo de petróleo en inglés, que puede usar.
3. En otros casos, deberá entrenar su propio modelo G2P en sus datos. Para capacitar a su modelo, siga las instrucciones a través de este enlace.
Una vez que tenga sus datos preparados, el diccionario y el modelo G2P, ahora está listo para alinearse. Ejecute el comando bin/mfa_align /path/to/data dict.txt path/to/model_g2p.zip outdir . Espere hasta que haya terminado. La carpeta outdir contendrá una lista de palabras fuera de vocabulario y una carpeta con archivos especiales de formato .TextGrid , donde se almacenan alineaciones Wavs.
Ahora queremos procesar estos archivos de cuadrícula de texto para obtener el Filelista final. Aquí puede encontrar útil el paquete Python TextGrid . Instálelo con pip install TextGrid . Aquí un ejemplo de cómo usarlo:
```
 import textgrid
tg = textgrid.TextGrid.fromFile('./outdir/data/text0.TextGrid')
```
Ahora tg es el conjunto de dos objetos: el primero contiene palabras alineadas, el segundo contiene fonemas alineados. Necesitas el segundo. Extraer duraciones (en marcos! tg tiene intervalos en segundos, por lo tanto, se convierte) para un conjunto de datos completo iterar sobre archivos .TextGrid obtenidos y preparar una fila filista en el mismo formato que los que proporcioné en la carpeta filelists .

Encontré una descripción general de varios alineadores. Tal vez sea útil. Sin embargo, le recomiendo que use MFA, ya que es uno de los alineadores más precisos, para mi mejor conocimiento.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-14
tamaño 3.65MB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
pytorch image models

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo