Descarga de GenerSpeech - Descarga del código fuente GenerSpeech

GenerSpeech

Código Fuente de IA

1.0.0

Descargar

GenersPeech: Hacia la transferencia de estilo para texto a falta de dominio generalizable

Rongjie Huang, Yi Ren, Jinglin Liu, Chenye Cui, Zhou Zhao | Universidad de Zhejiang, Sea Ai Lab

Implementación de Pytorch de GenersPeech (Neurips'22): un modelo de texto a voz hacia la transferencia de estilo cero-shot de alta fidelidad de la voz personalizada OOD.

Proporcionamos nuestra implementación y modelos previos al estado previo en este repositorio.

Visite nuestra página de demostración para ver muestras de audio.

Noticias

Diciembre de 2022: Generspeech (Neurips 2022) lanzado en Github.

Características clave

Transferencia de estilo multinivel para texto expresivo a voz.
Generalización del modelo mejorado a referencia de estilo fuera de distribución (OOD).

Comenzó rápido

Proporcionamos un ejemplo de cómo puede generar muestras de alta fidelidad utilizando GenersPeech.

Para probar su propio conjunto de datos, simplemente clone este repositorio en su máquina local proporcionada con NVIDIA GPU + CUDA CUDNN y siga las instrucciones a continuación.

Admitir conjuntos de datos y modelos previos a

Puede usar modelos previos a la aparición que proporcionamos aquí y los datos aquí. Los detalles de cada carpeta son como lo siguiente:

Modelo	Conjunto de datos (16 kHz)	Descripción
Juego de geners	Libritts, ESD	Modelo acousítico (configuración)
Hifi-gan	Libritts, ESD	Vocero neural
Codificador	/	Codificador de emociones

Pronto llegarán más conjuntos de datos compatibles.

Dependencias

Se puede crear y activar un entorno de conda adecuado llamado generspeech con:

 conda env create -f environment.yaml
conda activate generspeech

Múltiple

Por defecto, esta implementación utiliza tantas GPU en paralelo como devuelta por torch.cuda.device_count() . Puede especificar qué GPU usar usar la variable de entorno CUDA_DEVICES_AVAILABLE antes de ejecutar el módulo de entrenamiento.

Inferencia (TTS de disparo cero)

Aquí proporcionamos una tubería de síntesis del habla utilizando GenersPeech.

Prepare GenersPeech (modelo acústico): descargue y coloque el punto de control en checkpoints/GenerSpeech
Prepare Hifi-Gan (Vocoder neural): Descargue y coloque el punto de control en checkpoints/trainset_hifigan
Prepare el codificador de emociones : descargue y coloque el punto de control en checkpoints/Emotion_encoder.pt
Prepare el conjunto de datos : descargue y coloque archivos estadísticos en data/binary/training_set
Prepare la ruta/a/reference_audio (16k) : por defecto, GenersPeech usa ASR + MFA para obtener la alineación del habla de texto de la referencia.

CUDA_VISIBLE_DEVICES= $GPU python inference/GenerSpeech.py --config modules/GenerSpeech/config/generspeech.yaml  --exp_name GenerSpeech --hparams= " text='here we go',ref_audio='assets/0011_001570.wav' "

Los archivos WAV generados se guardan en infer_out de forma predeterminada.

Entrena tu propio modelo

Preparación y configuración de datos

Establezca raw_data_dir , processed_data_dir , binary_data_dir en el archivo de configuración y descargue el conjunto de datos a raw_data_dir .
Verifique preprocess_cls en el archivo de configuración. La estructura del conjunto de datos debe seguir el procesador preprocess_cls , o puede reescribirla de acuerdo con su conjunto de datos. Proporcionamos un procesador de Libritts como ejemplo en modules/GenerSpeech/config/generspeech.yaml
Descargue el codificador de emoción global a emotion_encoder_path . Para más detalles, consulte esta rama.
Conjunto de datos de preprocesos

 # Preprocess step: unify the file structure.
python data_gen/tts/bin/preprocess.py --config $path /to/config
# Align step: MFA alignment.
python data_gen/tts/bin/train_mfa_align.py --config $path /to/config
# Binarization step: Binarize data for fast IO.
CUDA_VISIBLE_DEVICES= $GPU python data_gen/tts/bin/binarize.py --config $path /to/config

También puede construir un conjunto de datos a través de NatsPeech, que comparte un procedimiento común de procesamiento de datos MFA. También proporcionamos nuestro conjunto de datos procesado (Libritts de 16 kHz+ESD).

Entrenamiento de GenersPeech

CUDA_VISIBLE_DEVICES= $GPU python tasks/run.py --config modules/GenerSpeech/config/generspeech.yaml  --exp_name GenerSpeech --reset

Inferencia utilizando GenersPeech

CUDA_VISIBLE_DEVICES= $GPU python tasks/run.py --config modules/GenerSpeech/config/generspeech.yaml  --exp_name GenerSpeech --infer

Expresiones de gratitud

Esta implementación utiliza partes del código de los siguientes Repos de GitHub: FastDiff, NatsPeech, como se describe en nuestro código.

Citas

Si encuentra este código útil en su investigación, cite nuestro trabajo:

 @inproceedings { huanggenerspeech ,
  title = { GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech } ,
  author = { Huang, Rongjie and Ren, Yi and Liu, Jinglin and Cui, Chenye and Zhao, Zhou } ,
  booktitle = { Advances in Neural Information Processing Systems }
}

Descargo de responsabilidad

Cualquier organización o individuo tiene prohibido usar cualquier tecnología mencionada en este documento para generar el discurso de alguien sin su consentimiento, incluidos, entre otros, líderes gubernamentales, figuras políticas y celebridades. Si no cumple con este artículo, podría violar las leyes de derechos de autor.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-22
tamaño 256.8KB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo