Descarga de StyleTTS - Descarga del código fuente StyleTTS

StyleTTS

Código Fuente de IA

1.0.0

Descargar

Styletts: un modelo generativo basado en estilo para la síntesis de texto a voz natural y diversa

Yinghao Aaron Li, Cong Han, Nima Mesgarani

El texto a la voz (TTS) ha visto recientemente un gran progreso en la sintetización del habla de alta calidad debido al rápido desarrollo de los sistemas TTS paralelos, pero producir discurso con variaciones prosódicas naturalistas, estilos de habla y tonos emocionales sigue siendo desafiante. Además, dado que la duración y el discurso se generan por separado, los modelos TTS paralelos todavía tienen problemas para encontrar las mejores alineaciones monotónicas que son cruciales para la síntesis naturalista del habla. Aquí, proponemos a Styletts, un modelo generativo basado en estilo para TTS paralelos que pueden sintetizar diversos discursos con prosodia natural a partir de una expresión del habla de referencia. Con un nuevo alineador monotónico transferible (TMA) y esquemas de aumento de datos invariantes de duración, nuestro método supera significativamente a los modelos de vanguardia en conjuntos de datos de un solo y múltiple en los conjuntos de datos subjetivos de naturalidad del habla y similitud de altavoces. A través del aprendizaje auto-supervisado de los estilos de habla, nuestro modelo puede sintetizar el habla con el mismo tono prosódico y emocional que cualquier discurso de referencia dado sin la necesidad de etiquetar explícitamente estas categorías.

Documento: https://arxiv.org/abs/2107.10394

Muestras de audio: https://styletts.github.io/

Requisitos previos

Python> = 3.7
Clon este repositorio:

git clone https://github.com/yl4579/StyleTTS.git
cd StyleTTS

Instalar requisitos de Python:

pip install SoundFile torchaudio munch torch pydub pyyaml librosa git+https://github.com/resemble-ai/monotonic_align.git

Descargue y extraiga el conjunto de datos LJSPEECH, descomprima a la carpeta de datos y muestre los datos a 24 kHz. El Vocoder, el alineador de texto y el extractor de tono están previamente entrenados en datos de 24 kHz, pero puede cambiar fácilmente el preprocesamiento y volver a entrenarlos utilizando su propio preprocesamiento. Proporcionaré más recursos receptores y modelos previamente capacitados si tengo tiempo. Si está dispuesto a ayudar, no dude en trabajar en otros métodos de preprocesamiento. Para Libritts, deberá combinar Train-Clean-360 con Train-Clean-100 y cambiar el nombre de la carpeta Train-Clean-460 (ver val_list_libritts.txt como un ejemplo).

Capacitación

Entrenamiento en la primera etapa:

python train_first.py --config_path ./Configs/config.yml

Entrenamiento en la segunda etapa:

python train_second.py --config_path ./Configs/config.yml

Puede correr tanto consecutivamente y entrenará tanto la primera como la segunda etapa. El modelo se guardará en el formato "EPOCH_1ST_%05D.PTH" y "EPOCH_2ND_%05D.PTH". Los puntos de control y los registros de Tensorboard se guardarán en log_dir .

El formato de lista de datos debe ser filename.wav|transcription , consulte val_list_libritts.txt como un ejemplo.

Inferencia

Consulte la inferencia.ipynb para obtener más detalles.

Los Styletts y Hifi-Gan en LJSpeech Corpus en 24 kHz se pueden descargar en el enlace de Styletts y Hifi-Gan Link.

Los Styletts y Hifi-Gan en Libritts Corpus se pueden descargar en el enlace Styletts y el enlace Hifi-Gan. También debe descargar Test-Clean desde Libritts si desea ejecutar la demostración de cero-shot.

Descomprima los Models y Vocoder respectivo y ejecute cada celda en el cuaderno. También deberá instalar Phonemizer para ejecutar esta demostración de inferencia.

Preprocesamiento

Los modelos de alineador de texto y extractores de tono previos a la aparición se proporcionan en la carpeta Utils . Tanto el alineador de texto como los modelos extractores de tono están entrenados con melspectrograms preprocesados usando meldataset.py.

Puede editar el Meldataset.py con su propio preprocesamiento de melspectrogram, pero los modelos previos a los practicados ya no funcionarán. Deberá entrenar su propio alineador de texto y extractor de tono con el nuevo preprocesamiento.

El código para capacitar al nuevo modelo de alineador de texto está disponible aquí y para entrenar nuevos modelos de extractores de tono está disponible aquí.

Proporcionaré más recepias con el preprocesamiento existente como los de Hifigan y ESPNet oficial en el futuro si tengo tiempo extra. Si está dispuesto a ayudar, no dude en hacer recepciones con ESPNet.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-21
tamaño 111.28MB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo