Descargar reformer tts - Descargar el código fuente reformer tts

reformer tts

Código Fuente de IA

Initial release - project submission

Descargar

Reformador-TTS

Una adaptación de Reformer: el transformador eficiente para la tarea de texto a voz.

Este proyecto contiene:

Código de preprocesamiento para crear un conjunto de datos de discurso de Trump basado en transcripciones de Rev.com
Implementación de Reformer TTS: Una adaptación de Reformer: el transformador eficiente para la tarea de texto a voz, basada en la síntesis de habla neuronal con la red de transformadores
Implementación de Squeezewave: Vo Vocoders extremadamente livianos para la síntesis del habla en el dispositivo en Pytorch moderno, sin dependencias de Tacotron2, Wavenet o Wavlow
Pytorch lightning envolturas para una fácil capacitación de ambos modelos con gestión de configuración fácil de usar
CLI para ejecutar entrenamiento, inferencia y preprocesamiento de datos

Alcance del proyecto y estado actual

Nuestro objetivo fue crear una versión significativamente más eficiente del modelo de texto a voz de última generación, reemplazando su arquitectura de transformadores con optimizaciones propuestas en el documento reformador más reciente. Lo usaremos para generar un profundo de Donald Trump basado en un conjunto de datos personalizado de sus discursos, creado específicamente para este propósito.

Desafortunadamente, no pudimos producir resultados que coincidieran con los del papel TTS Transformer, después de experimentar con más de 100 combinaciones de hiperparámetros durante 2 meses. Creemos que el tamaño del modelo es un factor significativo aquí, y para entrenar transformadores para TTS, uno realmente necesita reducir el sobreajuste para permitir un proceso de entrenamiento largo y constante (~ 1 semana de entrenamiento en RTX 2080TI).

Además, tener acceso a la implementación original de Transformer TTS ayudaría mucho.

Si bien el reformador no coincidió con nuestras expectativas, la implementación de Squeezewave coincide con el rendimiento del original sin soporte FP16.

También incluimos CLI para el entrenamiento e inferencia (ver sección de uso ), y todos los datos necesarios para la reproducción de experimentos (ver sección de desarrollo ).

El proyecto está bajo un refactor significativo, esta versión se deja aquí para permitir la compatibilidad con nuestras exámenes anteriores y se moverá en el futuro cercano .

Documentos adicionales

Presentación final y diapositivas
diario de proyecto
Doc de investigación

Usando el proyecto

Este proyecto es un paquete normal de Python, y se puede instalar utilizando pip , siempre que tenga Python 3.8 o mayor .

Vaya a la página de lanzamientos para encontrar las instrucciones de instalación para la última versión.

Después de la instalación, puede ver los comandos disponibles ejecutando:

python -m reformer_tts.cli --help

Todos los comandos se ejecutan usando CLI, por ejemplo:

python -m reformer_tts.cli train-vocoder

La mayoría de los parámetros (en particular, todos los hiperparámetros de entrenamiento) se especifican a través del argumento --config a cli (que va antes del comando que desea ejecutar), por ejemplo:

python -m reformer_tts.cli -c /path/to/your/config.yml train-vocoder

Los valores predeterminados se pueden encontrar en reformer_tts.config.Config (y sus campos).

Configuración de desarrollo

1. Instalar dependencias

Uso de condena

Gracias a Conda-Forge Community, podemos instalar todos los paquetes (incluidos los binarios necesarios, como ffmpeg ) usando un comando.

conda env create -f environment.yml

Uso de otros administradores de paquetes

Verifique su entorno y asegúrese de tener Python>=3.8 :

which python
python --version

Instale las dependencias de Python (también instala nuestro paquete en modo editable):

pip install -r requirements.txt

Asegúrese de tener ffmpeg>=3.4,<4.0 instalado (instrucciones de instalación)
Para capacitación, asegúrese de tener instalados controladores CUDA y GPU (para más detalles, consulte Instrucciones en el sitio web de Pytorch)

2. Configurar herramientas

Para que DVC tenga acceso de escritura al control remoto, configure su cuenta GCP (usando las credenciales del archivo JSON generado):

 export GOOGLE_APPLICATION_CREDENTIALS=/path/to/your/service-account-credentials.json

Nota: Si solo necesita accesorios de lectura (para la reproducción), no necesita realizar el paso 1

Obtenga todos los datos: este paso debe repetirse:
- Cada vez que comienzas a trabajar después de un descanso
- Después de cada tirón de Git
- Después de visitar otra rama Git

dvc pull

3. Compruebe si la configuración es correcta

Para hacer esto, puede ejecutar pruebas de proyecto:

python -m pytest --pyargs reformer_tts

Todas las pruebas deben funcionar en CPU y GPU, y pueden tardar hasta un minuto en completarse.

Recuerde aprobar --pyargs reformer_tts a Pytest, de lo contrario buscará directorios de datos para pruebas

Detalles de configuración

Use el administrador de paquetes que desee
Use Python>=3.8
Todas las dependencias de Python estarán en requirements.txt así como en environment.yml
Un punto de entrada central para ejecutar tareas: reformer_tts/cli.py , ejecute python reformer_tts/cli.py --help para una referencia detallada

Configuración

La configuración se organiza en las estructuras de datos:

Cada submódulo del proyecto tiene su propio archivo de configuración, llamado config.py , donde se definen los parámetros y los valores predeterminados , por ejemplo, los parámetros de configuración del conjunto de datos se especifican en reformer_tts.dataset.config
La clase reformer_tts.config.Config contiene la configuración de configuración de todos los submódulos
Los valores reales de los parámetros de configuración se cargan desde los archivos de configuración en formato YAML, la mejor práctica es anular solo los valores predeterminados en los archivos YAML

De esta manera, los valores predeterminados se establecen cerca del lugar donde se usan, cualquier valor de configuración se puede anular donde desee

Para cambiar la configuración de tiempo de ejecución

Genere automáticamente la configuración con los valores predeterminados utilizando el comando python reformer_tts/cli.py save-config -o config/custom.yml o copiar manualmente uno de los archivos de configuración existentes en config/ directorio
Eliminar los valores predeterminados que no desea cambiar desde el archivo de configuración generado
Cambiar valores que desea cambiar en el archivo de configuración generado
Especifique su configuración al ejecutar scripts CLI usando la opción -c , es decir: python reformer_tts/cli.py -c config/custom.yml [COMMAND]

Para agregar configuración para un nuevo módulo

Crea config.py en tu módulo
Defina un DataClass con todos los parámetros de configuración necesarios en el nuevo archivo:
- Asegúrese de que su clase no redefine los valores de parámetros para otros archivos de configuración (es decir, especificamos el número de canales de espectrograma solo una vez, en el mismo lugar para los módulos dataset y squeezewave )
- Asegúrese de que su clase tenga valores predeterminados para todos los parámetros
Agregue el campo para su DatacLass en la clase de configuración principal reformer_tts.config

Dependencia de datos

Utilizamos DVC para definir tuberías de procesamiento de datos. El control remoto está configurado en Google Cloud Storage, para obtener detalles Ejecutar dvc config list .

Configuración para ejecutar trabajos en el clúster de entropía

Nodos preparados para ejecutar:

asusgpu3
asusgpu4
asusgpu1
Arnold
Sylvester

Ejecutar Trainig en el nodo con Homedir

Repo de clones a tu Homedir
Asegúrese de que la ruta del conjunto de datos esté configurada en /scidatalg
Comando de configuración para llamar al archivo desde su Homedir
Comprende tus cambios
Ejecutar script sbatch

Ejecución de entrenamiento en nodo específico sin Homedir

Antes de correr:

Elija el nodo de ya preparado o prepare uno nuevo utilizando las instrucciones a continuación
Copiar repositorio a su directora de hogar
Asegúrese de que Neptuno API Token esté establecido en su entorno

Para ejecutar el entrenamiento:

Prepare la configuración de entrenamiento y presione el repositorio remoto
Iniciar sesión en el nodo elegido usando la sesión interactiva srun --qos=gsn --partition=common --nodelist=<name_of_chosen_node> --pty /bin/bash
GOTO /scidatalg/reformer-tts/reformer-tts/ Asegúrese de que el repositorio esté sacado y en la rama adecuada
Iniciar sesión en el nodo de inicio de sesión
Copiar y modificar jobs/train_entropy.sbatch : complete el nombre del nodo y el comando de capacitación
Ejecute sbatch your/job/script/location.sbatch

Pro watch -n 1 squeue -u your_username para ver si su trabajo ya está ejecutando Pro TIP2 Puede ver las actualizaciones del registro ejecutando tail -f file.log o less --follow-name +F file.log

Tirar de DVC

Para extraer de DVC, use jobs/entropy_dvc_pull.sbatch .

Copiar este archivo
llenar el nombre del nodo
Ajustar el comando DVC
Ejecutar trabajo usando sbatch

Nueva preparación de nodos

Dado que el directorio de /Scidatam no se sincroniza mientras queremos entrenar, tenemos que configurar el entrenamiento en cada nodo por separado a mano. Para configurar Env en nuevo nodo, siga esta instucción:

Nota : Solo los nodos con /Scidatalg son compatibles con estos scripts. Estos nodos son: AsusGPU4, AsusGPU3, ASUSGPU2, ASUSGPU1, Arnold, Sylvester

Iniciar sesión en el nodo utilizando la sesión interactiva srun --qos=gsn --partition=common --nodelist=<name_of_chosen_node> --pty /bin/bash
Copie las credenciales de la API de Google a ${HOME}/gcp-cred.json (usando su editor favorito)
Copie el contenido de scripts/setup_entropy_node.sh a un archivo nuevo en inicio dir (nuevamente usando el editor)
Ejecutar el script copiado

Expandir

Información adicional

Versión Initial release - project submission
Tipo Código Fuente de IA
Fecha de actualización 2025-08-24
tamaño 129.95KB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
F5 TTS ComfyUI

2024-11-02
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Información en inglés sobre desarrollo de voz (Guía del usuario TTS versión Delphi)

2009-05-28

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo