Descargar StyleTTS2 - descarga de código fuente de StyleTTS2

StyleTTS2

Código Fuente de IA

1.0.0

Descargar

Styletts 2: Hacia el texto a nivel humano a la expresión a través de la difusión del estilo y el entrenamiento adversario con grandes modelos de lenguaje de voz

Yinghao Aaron Li, Cong Han, Vinay S. Raghavan, Gavin Mischler, Nima Mesgarani

En este artículo, presentamos a Styletts 2, un modelo de texto a voz (TTS) que aprovecha la difusión de estilo y la capacitación adversas con grandes modelos de lenguaje de voz (SLM) para lograr la síntesis de TTS a nivel humano. Styletts 2 difiere de su predecesor modelando estilos como una variable aleatoria latente a través de modelos de difusión para generar el estilo más adecuado para el texto sin requerir un habla de referencia, logrando una difusión latente eficiente y se beneficia de la síntesis de voz diversa ofrecida por los modelos de difusión. Además, empleamos grandes SLM previas al entrenamiento, como WAVLM, como discriminadores con nuestro nuevo modelado de duración diferenciable para la capacitación de extremo a extremo, lo que resulta en una mejor naturalidad del habla. Styletts 2 supera las grabaciones humanas en el conjunto de datos LJSPEECH de un solo hablador y lo coincide en el conjunto de datos VCTK multiespeaker según lo juzgado por los hablantes nativos de inglés. Además, cuando está entrenado en el conjunto de datos de Libritts, nuestro modelo supera a los modelos públicos disponibles para la adaptación de altavoces de disparo cero. Este trabajo logra la primera síntesis de TTS de nivel humano en conjuntos de datos de un solo y multiespeaker, que muestra el potencial de difusión de estilo y entrenamiento adversario con grandes SLM.

Documento: https://arxiv.org/abs/2306.07691

Muestras de audio: https://styletts2.github.io/

Demo en línea: Hugging Face (gracias @FakeryBakery por la maravillosa demostración en línea)

HACER

Código de demostración de entrenamiento e inferencia para modelos de un solo hablante (LJSPEECH)
Código de entrenamiento de prueba para modelos múltiples (VCTK y Libritts)
Finalizar el código de demostración para el modelo multiespeaker y cargar modelos previamente capacitados
Agregue un script de sintonización para nuevos altavoces con modelos de multiespeaker pre-entrenados base
Fix DDP (Acelerator) para train_second.py (he intentado todo lo que pude para solucionar esto pero no tuve éxito, así que si está dispuesto a ayudar, consulte el #7)

Requisitos previos

Python> = 3.7
Clon este repositorio:

git clone https://github.com/yl4579/StyleTTS2.git
cd StyleTTS2

Instalar requisitos de Python:

pip install -r requirements.txt

En Windows Agregar:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 -U

También instale Phonemizer y Espeak si desea ejecutar la demostración:

pip install phonemizer
sudo apt-get install espeak-ng

Descargue y extraiga el conjunto de datos LJSPEECH, descomprima a la carpeta de datos y muestre los datos a 24 kHz. El alineador de texto y el extractor de tono se entrenan previamente en datos de 24 kHz, pero puede cambiar fácilmente el preprocesamiento y volver a entrenarlos utilizando su propio preprocesamiento. Para Libritts, deberá combinar Train-Clean-360 con Train-Clean-100 y cambiar el nombre de la carpeta Train-Clean-460 (ver val_list_libritts.txt como un ejemplo).

Capacitación

Entrenamiento en la primera etapa:

accelerate launch train_first.py --config_path ./Configs/config.yml

Entrenamiento en la segunda etapa (la versión DDP no funciona, por lo que la versión actual usa DP, vea nuevamente el #7 si desea ayudar) :

python train_second.py --config_path ./Configs/config.yml

Puede ejecutar tanto consecutivamente y entrenará las etapas de primera y segunda. El modelo se guardará en el formato "EPOCH_1ST_%05D.PTH" y "EPOCH_2ND_%05D.PTH". Los puntos de control y los registros de Tensorboard se guardarán en log_dir .

El formato de lista de datos debe ser filename.wav|transcription|speaker , consulte val_list.txt como un ejemplo. Las etiquetas de los altavoces son necesarias para modelos de múltiples altavoces porque necesitamos probar audio de referencia para el entrenamiento de modelos de difusión de estilo.

Configuraciones importantes

En config.yml, hay algunas configuraciones importantes para cuidar:

OOD_data : la ruta para textos fuera de distribución para la capacitación adversaria SLM. El formato debe ser text|anything .
min_length : Longitud mínima de los textos OOD para el entrenamiento. Esto es para asegurarse de que el discurso sintetizado tenga una longitud mínima.
max_len : longitud máxima del audio para el entrenamiento. La unidad es marco. Dado que el tamaño de lúpulo predeterminado es de 300, un cuadro es de aproximadamente 300 / 24000 (0.0125) segundo. Bajando esto si encuentra el problema fuera de la memoria.
multispeaker : Establezca en True si desea entrenar un modelo de multiespeaker. Esto es necesario porque la arquitectura del Denoiser es diferente para los modelos individuales y multiespeaker.
batch_percentage : esto es para asegurarse de que durante el entrenamiento congresivo SLM no hay problemas fuera de memoria (OOM). Si encuentra el problema de OOM, establezca un número más bajo para esto.

Módulos previamente capacitados

En la carpeta Utils, hay tres modelos previamente capacitados:

Carpeta ASR : contiene el alineador de texto previamente capacitado, que fue pretrontrado en inglés (Libritts), japonés (JVS) y corpus chino (Aishell). Funciona bien para la mayoría de los otros idiomas sin ajustar, pero siempre puede entrenar su propio alineador de texto con el código aquí: YL4579/Auxiliariarasr.
Carpeta JDC : contiene el extractor de tono previamente entrenado, que fue pretrontrado solo en el corpus inglés (Libritts). Sin embargo, también funciona bien para otros idiomas porque F0 es independiente del lenguaje. Si desea entrenar en Singing Corpus, se recomienda entrenar un nuevo extractor de tono con el código aquí: YL4579/PitchExtractor.
Carpeta PLBERT : contiene el modelo PL-Bert pre-entrenado, que fue pre-entrenado solo en el corpus inglés (Wikipedia). Probablemente no funcione muy bien en otros idiomas, por lo que deberá entrenar un PL-Bert diferente para diferentes idiomas usando el repositorio aquí: YL4579/PL-Bert. También puede usar el PL-Bert multilingüe que admite 14 idiomas.

Problemas comunes

La pérdida se convierte en nan : si es la primera etapa, asegúrese de no usar precisión mixta, ya que puede hacer que la pérdida se convierta en nan para algunos conjuntos de datos particulares cuando el tamaño del lote no se establece correctamente (debe tener más de 16 para funcionar bien). Para la segunda etapa, también experimente con diferentes tamaños de lotes, con más probabilidades de tamaños de lotes más altos que causen valores de pérdida de NAN. Recomendamos que el tamaño del lote sea 16. Puede consultar los temas #10 y #11 para obtener más detalles.
Fuera de la memoria : use Lower batch_size o max_len . Puede consultar el problema #10 para obtener más información.
Conjunto de datos no inglés : puede entrenar en cualquier idioma que desee, pero deberá utilizar un modelo PL-Bert previamente capacitado para ese idioma. Tenemos un PL-Bert multilingüe previamente capacitado que admite 14 idiomas. Puede consultar YL4579/Styletts #10 y #70 para obtener algunos ejemplos para entrenar en conjuntos de datos chinos.

Sintonia FINA

El script se modifica en train_second.py que usa DP, ya que DDP no funciona para train_second.py . Consulte la sección en negrita anterior si está dispuesto a ayudar con este problema.

python train_finetune.py --config_path ./Configs/config_ft.yml

Asegúrese de que tenga el punto de control de Libritts descargado y desabrochado en la carpeta. La configuración predeterminada config_ft.yml finetunes en ljspeech con 1 hora de datos del habla (alrededor de 1k muestras) para 50 épocas. Esto tardó aproximadamente 4 horas en terminar en cuatro Nvidia A100. La calidad es ligeramente peor (similar a NaturalsPeech en LJSpeech) que el modelo LJSPEECch entrenado desde cero con 24 horas de datos del habla, que tardaron alrededor de 2.5 días en terminar en cuatro A100. Las muestras se pueden encontrar en el #65 (comentario).

Si está utilizando una sola GPU (porque el script no funciona con DDP) y desea guardar la velocidad de entrenamiento y VRAM, puede hacerlo (gracias a @Korakoe por hacer el script en #100):

accelerate launch --mixed_precision=fp16 --num_processes=1 train_finetune_accelerate.py --config_path ./Configs/config_ft.yml

Problemas comunes

@KreeVoz ha hecho notas detalladas sobre problemas comunes en Finetuning, con sugerencias para maximizar la calidad del audio: #81. Algunos de estos también se aplican al entrenamiento desde cero. @Iieleven11 también ha hecho una guía para el ajuste: #128.

Fuera de la memoria después de joint_epoch : Esto es probable porque su RAM GPU no es lo suficientemente grande para la ejecución de entrenamiento adversario de SLM. Puede omitir eso, pero la calidad podría ser peor. Configuración de joint_epoch un número mayor que epochs podría omitir el entrenamiento advésariral SLM.

Inferencia

Consulte Inference_ljspeech.ipynb (un solo-speaker) e inferencia_libritts.ipynb (multi-speaker) para obtener más detalles. Para Libritts, también deberá descargar reference_audio.zip y descomponerlo bajo la demo antes de ejecutar la demostración.

Los Styletts 2 previos al cuerpo en LJSpeech Corpus en 24 kHz se pueden descargar en https://huggingface.co/yl4579/styletts2-ljspeech/tree/main.
El modelo de styletts 2 previamente en libritts se puede descargar en https://huggingface.co/yl4579/styletts2-libritts/tree/main.

Puede importar Styletts 2 y ejecutarlo en su propio código. Sin embargo, la inferencia depende de un paquete con licencia de GPL, por lo que no se incluye directamente en este repositorio. Una bifurcación con licencia de GPL tiene un script importable, así como una API de transmisión experimental, etc., también está disponible un paquete totalmente con licencia de MIT que utiliza Gruut (aunque de menor calidad debido a la falta de coincidencia entre el fonemizador y Gruut).

Antes de usar estos modelos previamente capacitados, usted acepta informar a los oyentes que las muestras del habla son sintetizadas por los modelos previamente capacitados, a menos que tenga el permiso para usar la voz que sintetiza. Es decir, usted acepta solo usar voces cuyos oradores otorgan el permiso para que su voz se clone, ya sea directamente o por licencia antes de hacer públicas voces sintetizadas, o debe anunciar públicamente que estas voces se sintetizan si no tiene el permiso para usar estas voces.

Problemas comunes

Ruido de fondo agudo : esto es causado por diferencias numéricas de flotación en GPU más antiguas. Para obtener más detalles, consulte el número 13. Básicamente, necesitará usar GPU más modernas o hacer inferencia en las CPU.
Licencia de modelo previamente capacitado : solo debe cumplir con las reglas anteriores si usa los modelos previamente capacitados y las voces no están en el conjunto de capacitación, es decir, sus altavoces de referencia no son de ningún conjunto de datos de acceso abierto. Para obtener más detalles de las reglas para usar los modelos previamente capacitados, consulte #37.

Referencias

Archinetai/Audio-Diffusion-Pytorch
jik876/hifi-gan
rishikksh20/istftnet-pytorch
NII-YAMAGISHILAB/Project-NN-Pytorch-Scripts/Project/01-NSF

Licencia

Código: Licencia MIT

Modelos previamente capacitados: antes de usar estos modelos previamente capacitados, usted acepta informar a los oyentes que las muestras del habla son sintetizadas por los modelos previamente capacitados, a menos que tenga el permiso para usar la voz que sintetiza. Es decir, usted acepta solo usar voces cuyos oradores otorgan el permiso para que su voz se clone, ya sea directamente o por licencia antes de hacer públicas voces sintetizadas, o debe anunciar públicamente que estas voces se sintetizan si no tiene el permiso para usar estas voces.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-21
tamaño 133.9MB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo