Descargar StyleSpeech - Descargar el código fuente de StyleSpeech

StyleSpeech

Código Fuente de IA

v1.0.2

Descargar

Stylespeech - Implementación de Pytorch

Implementación de Pytorch de Meta-Stylespeech: generación de texto a voz adaptativa de múltiples altavoces.

Rama

Estylespeech (rama naive )
Meta-Stylespeech (rama main )

Inicio rápido

Dependencias

Puede instalar las dependencias de Python con

 pip3 install -r requirements.txt

Inferencia

Debe descargar modelos previos a la aparición y ponerlos en output/ckpt/LibriTTS_meta_learner/ .

Para TTS en inglés múltiple, ejecutar

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --ref_audio path/to/reference_audio.wav --restore_step 200000 --mode single -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml

Las expresiones generadas se colocarán en output/result/ . Su discurso sintetizado tendrá el estilo de ref_audio .

Inferencia por lotes

También es compatible con la inferencia por lotes, intente

 python3 synthesize.py --source preprocessed_data/LibriTTS/val.txt --restore_step 200000 --mode batch -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml

Para sintetizar todas las expresiones en preprocessed_data/LibriTTS/val.txt . Esto se puede ver como una reconstrucción de conjuntos de datos de validación que se refieren a sí mismos para el estilo de referencia.

Controlabilidad

La tasa de tono/volumen/habla de las expresiones sintetizadas se puede controlar especificando las relaciones de tono/energía/duración deseadas. Por ejemplo, uno puede aumentar la tasa de habla en un 20 % y disminuir el volumen en un 20 % en

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step 200000 --mode single -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml --duration_control 0.8 --energy_control 0.8

Tenga en cuenta que la capacidad de control se origina en FastSpeech2 y no es un interés vital de StylesSpeech. Consulte Styler [demo, código] para obtener la capacidad de control de cada factor de estilo.

Capacitación

Conjuntos de datos

Los conjuntos de datos compatibles son

Libritts: un conjunto de datos en inglés de múltiples altavoces que contiene 585 horas de discurso por 2456 altavoces.
(se agregará más)

Preprocesamiento

Correr

 python3 prepare_align.py config/LibriTTS/preprocess.yaml

para algunos preparativos.

Para la alineación forzada, el alineador forzado de Montreal (MFA) se usa para obtener las alineaciones entre las expresiones y las secuencias de fonema. Aquí se proporcionan alineaciones preextracidas para los conjuntos de datos. Debe descomprimir los archivos en preprocessed_data/LibriTTS/TextGrid/ . Alternativamente, puede ejecutar el alineador usted mismo.

Después de eso, ejecute el script de preprocesamiento por

 python3 preprocess.py config/LibriTTS/preprocess.yaml

Capacitación

Entrena tu modelo con

 python3 train.py -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml

Como se describe en el documento, el script comenzará desde la capacitación previa del modelo ingenuo hasta los pasos meta_learning_warmup y luego el meta-entrenado el modelo para pasos adicionales a través de capacitación episódica.

Tabla tensor

Usar

 tensorboard --logdir output/log/LibriTTS

para servir tensorboard en su localhost. Se muestran las curvas de pérdida, los espectrogramas MEL sintetizados y los audios.

Problemas de implementación

Use la tasa de muestreo 22050Hz en lugar de 16kHz .
Agregue una capa totalmente conectada al comienzo del codificador de estilo MEL al espectrograma MEL de entrada UPSample de 80 a 128 .
El tamaño del modelo, incluido el meta-aprendizaje, es 28.197M .
Use un tamaño máximo 16 lotes en el entrenamiento en lugar de 48 o 20 principalmente debido a la falta de capacidad de memoria con un solo 24GIB Titan-RTX . Esto se puede lograr mediante el siguiente script para filtrar datos más tiempo que max_seq_len :
```
 python3 filelist_filtering.py -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml
```
Esto generará train_filtered.txt en la misma ubicación de train.txt .
Dado que el tamaño total del lote disminuye, el número de pasos de entrenamiento se duplica en comparación con el documento original.
Use Hifi-Gan en lugar de Melgan para vocodar.

Citación

 @misc{lee2021stylespeech,
  author = {Lee, Keon},
  title = {StyleSpeech},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/StyleSpeech}}
}

Referencias

Meta-StylesPeech: generación de texto a voz adaptativa de múltiples altavoces
Una arquitectura generadora basada en estilo para redes adversas generativas
Redes coincidentes para el aprendizaje de un tiro
Redes prototípicas para el aprendizaje de pocos disparos
Tadam: métrica adaptativa dependiente de la tarea para un aprendizaje mejorado de pocos disparos
FastSpeech2 de Ming024

Expandir

Información adicional

Versión v1.0.2
Tipo Código Fuente de IA
Fecha de actualización 2025-08-20
tamaño 111.54MB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo