Descarga de deepvoice3_pytorch - Código fuente de deepvoice3

deepvoice3_pytorch

Código Fuente de IA

v0.1.0 release

Descargar

texto alternativo

Profundo3_pytorch

Implementación de Pytorch de modelos de síntesis de texto a voz basados en redes convolucionales:

ARXIV: 1710.07654: Voz profunda 3: Escala de texto a voz con aprendizaje de secuencia convolucional.
ARXIV: 1710.08969: sistema de texto a voz eficiente basado en redes convolucionales profundas con atención guiada.

Las muestras de audio están disponibles en https://r9y9.github.io/deepvoice3_pytorch/.

Amigos

https://github.com/hash2430/dv3_world: profundo3 con soporte mundial de vocoder. #166

Demostración de TTS en línea

Los cuadernos que se supone que deben ejecutarse en https://colab.research.google.com están disponibles:

DeepVoice3: demostración de texto a voz múltiple
DeepVoice3: demostración de texto a voz de un solo plato

Reflejos

Modelo de secuencia a secuencia convolucional con atención para la síntesis de texto a voz
Versiones de altavoces múltiples y altavoces de DeepVoice3
Muestras de audio y modelos previamente capacitados
Preprocesador para conjuntos de datos LJSPECH (EN), JSUT (JP) y VCTK, así como CarpedM20/Multi-Speaker-Tacotron-TensorFlow Customet Customet Customet (en formato JSON)
Procesador de texto frontend del idioma dependiente del idioma para inglés y japonés

Muestras

JA Step000380000 predicho
JA Step000370000 predicho
KO_SINGLE Step000410000 predicho
KO_SINGLE Step000400000 predicho
KO_MULTI Paso001680000 predicho
KO_MULTI Paso 001700000 predicho

Modelos previos a la aparición

NOTA : Los modelos previos a la aparición no son compatibles con el maestro. Para actualizarse pronto.

Url	Modelo	Datos	Parámetros hiper	Git Commit	Pasos
enlace	DeepVoice3	Ljspeech	enlace	ABF0A21	640k
enlace	Nyanko	Ljspeech	`builder=nyanko,preset=nyanko_ljspeech`	BA59DC7	585k
enlace	Deepoice3 de múltiples altavoces	VCTK	`builder=deepvoice3_multispeaker,preset=deepvoice3_vctk`	0421749	300k + 300k

Para usar modelos previamente capacitados, se recomienda encarecidamente que esté en la confirmación específica de GIT mencionada anteriormente. es decir,

 git checkout ${commit_hash}

Luego siga la sección "Sintetizar desde un punto de control" en el ReadMe de la confirmación de GIT específica. Tenga en cuenta que la última versión de desarrollo del repositorio puede no funcionar.

Podrías intentarlo por ejemplo:

 # pretrained model (20180505_deepvoice3_checkpoint_step000640000.pth)
# hparams (20180505_deepvoice3_ljspeech.json)
git checkout 4357976
python synthesis.py --preset=20180505_deepvoice3_ljspeech.json 
  20180505_deepvoice3_checkpoint_step000640000.pth 
  sentences.txt 
  output_dir

Notas sobre los parámetros hiper

Los hiper parámetros predeterminados, utilizados durante las etapas de preprocesamiento/entrenamiento/síntesis, se convierten en TTS en inglés utilizando el conjunto de datos LJSPEECH. Tendrá que cambiar algunos de los parámetros si desea probar otros conjuntos de datos. Ver hparams.py para más detalles.
builder especifica qué modelo desea usar. deepvoice3 , deepvoice3_multispeaker [1] y nyanko [2] se superponen.
Los parámetros hiper descritos en el papel DeepVoice3 para altavoz único no funcionaron para el conjunto de datos LJSPEECH, por lo que cambié algunas cosas. Agregue la convolución dilatada, más canales, más capas y agregue la pérdida de atención guiada, etc. Consulte el código para más detalles. Los cambios también se aplican para el modelo de múltiples altavoces.
Múltiples capas de atención son difíciles de aprender. Empíricamente, una o dos (primera y última) capas de atención parecen suficientes.
Con atención guiada (ver https://arxiv.org/abs/1710.08969), las alineaciones se vuelven monotónicas de manera más rápida y confiable si usamos múltiples capas de atención. Con la atención guiada, puedo confirmar que cinco capas de atención obtienen monotónicas, aunque no puedo obtener mejoras en la calidad del habla.
La divergencia binaria (descrita en https://arxiv.org/abs/1710.08969) parece estabilizar el entrenamiento particularmente para las redes profundas (> 10 capas).
Adam con paso LR Decay funciona. Sin embargo, para las redes más profundas, encuentro que el programador LR de Adam + Noam es más estable.

Requisitos

Python> = 3.5
CUDA> = 8.0
Pytorch> = v1.0.0
nnmnkwii> = v0.0.11
Mecab (solo japonés)

Instalación

Instale los paquetes enumerados anteriormente primero y luego

 git clone https://github.com/r9y9/deepvoice3_pytorch && cd deepvoice3_pytorch
pip install -e ".[bin]"

Empezando

Parámetros preestablecidos

Hay muchos parámetros hiper que se pueden girar depende del modelo y los datos en los que esté trabajando. Para conjuntos de datos y modelos típicos, se proporcionan parámetros que se sabe que funcionan bien ( preestablecidos ) en el repositorio. Consulte el directorio presets para obtener más detalles. Notar que

preprocess.py
train.py
synthesis.py

Acepta --preset=<json> Parámetro opcional, que especifica dónde cargar parámetros preestablecidos. Si va a utilizar parámetros preestablecidos, debe usar el mismo --preset=<json> en todo el preprocesamiento, entrenamiento y evaluación. p.ej,

 python preprocess.py --preset=presets/deepvoice3_ljspeech.json ljspeech ~/data/LJSpeech-1.0
python train.py --preset=presets/deepvoice3_ljspeech.json --data-root=./data/ljspeech

en lugar de

 python preprocess.py ljspeech ~/data/LJSpeech-1.0
# warning! this may use different hyper parameters used at preprocessing stage
python train.py --preset=presets/deepvoice3_ljspeech.json --data-root=./data/ljspeech

0. Descarga el conjunto de datos

Ljspeech (es): https://keithito.com/lj-speech-dataset/
VCTK (E): http://homepages.inf.ed.ac.uk/jyamagis/page3/page58/page58.html
JSUT (JP): https://sites.google.com/site/shinnosuketakamichi/publication/jsut
NIKL (KO) ( Necesita el número de teléfono celular coreano para acceder a él ): http://www.korean.go.kr/front/board/boardstandardview.do?board_id=4&mn_id=17&b_seq=464

1. Preprocesamiento

Uso:

 python preprocess.py ${dataset_name} ${dataset_path} ${out_dir} --preset=<json>

${dataset_name} s son:

ljspeech (EN, altavoz único)
vctk (EN, múltiple vapor)
jsut (JP, altavoz único)
nikl_m (KO, múltiple altavoz)
nikl_s (ko, altavoz único)

Suponiendo que utilice parámetros preestablecidos que se sabe que funcionan bien para el conjunto de datos LJSPEECH/DeepVoice3 y tiene datos en ~/data/LJSpeech-1.0 , entonces puede preprocesar datos por:

 python preprocess.py --preset=presets/deepvoice3_ljspeech.json ljspeech ~/data/LJSpeech-1.0/ ./data/ljspeech

Cuando esto se haga, verá características extraídas (espectrogramas MEL y espectrogramas lineales) en ./data/ljspeech .

1-1. Construir un conjunto de datos personalizado. (Usando json_meta)

La construcción de su propio conjunto de datos, con metadatos en formato JSON (compatible con CarpedM20/múltiple-speaker-tacotron-tensorflow) es actualmente compatible. Uso:

 python preprocess.py json_meta ${list-of-JSON-metadata-paths} ${out_dir} --preset=<json>

Es posible que deba modificar el archivo JSON preestablecido preexistente, especialmente n_speakers . Para Multispeaker inglés, comience con presets/deepvoice3_vctk.json .

Suponiendo que tenga el conjunto de datos A (altavoz A) y el conjunto de datos B (altavoz B), cada uno descrito en el archivo de metadatos JSON ./datasets/datasetA/alignment.json y ./datasets/datasetB/alignment.json , entonces puede preprocesar datos por:

 python preprocess.py json_meta "./datasets/datasetA/alignment.json,./datasets/datasetB/alignment.json" "./datasets/processed_A+B" --preset=(path to preset json file)

1-2. Preprocesamiento de conjuntos de datos de inglés personalizados con largo silencio. (Basado en VCTK_PROPROCESS)

Algunos conjuntos de datos, especialmente el conjunto de datos generado automáticamente, puede incluir un largo silencio y ruidos iniciales indeseables, socavando el modelo SEQ2SEQ de nivel CHAR. (por ejemplo, VCTK, aunque esto está cubierto en VCTK_PROPROCESS)

Para lidiar con el problema, gentle_web_align.py

Prepare alineaciones de fonemas para todas las expresiones
Cortar silencios durante el preprocesamiento

gentle_web_align.py usa Gentle, una herramienta de alineación de texto de voz basada en Kaldi. Esto accede a una aplicación suave para la web, se alinea segmentos de sonido dados con transcripciones y convierte el resultado en archivos de etiquetas de estilo HTK, que se procesarán en preprocess.py . Gentle se puede ejecutar en Linux/Mac/Windows (a través de Docker).

Los resultados preliminares muestran que si bien HTK/Festival/Method basado en Merlin en vctk_preprocess/prepare_vctk_labels.py funciona mejor en VCTK, Gentle es más estable con clips de audio con ruido ambiental. (por ejemplo, extractos de película)

Uso: (suponiendo que Gentle se ejecute en localhost:8567 (predeterminado cuando no se especifica)))

Cuando el archivo de sonido y los archivos de transcripción se guardan en carpetas separadas. (Por ejemplo, los archivos de sonido están en datasetA/wavs y las transcripciones están en datasetA/txts )

 python gentle_web_align.py -w "datasetA/wavs/*.wav" -t "datasetA/txts/*.txt" --server_addr=localhost --port=8567

Cuando los archivos de transcripción y los archivos de transcripción se guardan en estructura anidada. (por ejemplo, datasetB/speakerN/blahblah.wav y datasetB/speakerN/blahblah.txt )

 python gentle_web_align.py --nested-directories="datasetB" --server_addr=localhost --port=8567

Una vez que tenga alineación de fonemas para cada enunciado, puede extraer características ejecutando preprocess.py

2. Entrenamiento

Uso:

 python train.py --data-root=${data-root} --preset=<json> --hparams="parameters you may want to override"

Supongamos que construye un modelo de estilo DeepVoice3 utilizando el conjunto de datos LJSPEECH, luego puede capacitar a su modelo por:

 python train.py --preset=presets/deepvoice3_ljspeech.json --data-root=./data/ljspeech/

Los puntos de control del modelo (.pth) y las alineaciones (.png) se guardan en el directorio ./checkpoints por 10000 pasos de forma predeterminada.

Nikl

Pleae Verifique esto por adelantado y siga los comandos a continuación.

 python preprocess.py nikl_s ${your_nikl_root_path} data/nikl_s --preset=presets/deepvoice3_nikls.json

python train.py --data-root=./data/nikl_s --checkpoint-dir checkpoint_nikl_s --preset=presets/deepvoice3_nikls.json

4. Monitorear con TensorBoard

Los registros se arrojan en el directorio ./log de forma predeterminada. Puede monitorear registros por TensorBoard:

 tensorboard --logdir=log

5. Sintetizar desde un punto de control

Dada una lista de texto, synthesis.py sintetiza señales de audio del modelo capacitado. El uso es:

 python synthesis.py ${checkpoint_path} ${text_list.txt} ${output_dir} --preset=<json>

Ejemplo test_list.txt:

 Generative adversarial network or variational auto-encoder.
Once upon a time there was a dear little girl who was loved by every one who looked at her, but most of all by her grandmother, and there was nothing that she would not have given to the child.
A text-to-speech synthesis system typically consists of multiple stages, such as a text analysis frontend, an acoustic model and an audio synthesis module.

Uso avanzado

Modelo múltiple

VCTK y NIKL son un conjunto de datos compatible para construir un modelo de múltiples altavoces.

VCTK

Dado que algunas muestras de audio en VCTK tienen largos silencios que afectan el rendimiento, se recomienda hacer una alineación de fonemas y eliminar silencios de acuerdo con VCTK_Process.

Una vez que tenga alineación de fonemas para cada enunciado, puede extraer funciones por:

 python preprocess.py vctk ${your_vctk_root_path} ./data/vctk

Ahora que tiene datos preparados, puede entrenar una versión múltiple de DeepVoice3 por:

 python train.py --data-root=./data/vctk --checkpoint-dir=checkpoints_vctk 
   --preset=presets/deepvoice3_vctk.json 
   --log-event-path=log/deepvoice3_multispeaker_vctk_preset

Si desea reutilizar la incrustación aprendida de otro conjunto de datos, entonces puede hacerlo en su lugar:

 python train.py --data-root=./data/vctk --checkpoint-dir=checkpoints_vctk 
   --preset=presets/deepvoice3_vctk.json 
   --log-event-path=log/deepvoice3_multispeaker_vctk_preset 
   --load-embedding=20171213_deepvoice3_checkpoint_step000210000.pth

Esto puede mejorar un poco la velocidad de entrenamiento.

Nikl

Podrá obtener muestras de audio limpias en ../nikl_precoSs. Los detalles se encuentran aquí.

Una vez que Nikl Corpus está listo para usar desde el preprocesamiento, puede extraer características por:

 python preprocess.py nikl_m ${your_nikl_root_path} data/nikl_m

Ahora que tiene datos preparados, puede entrenar una versión múltiple de DeepVoice3 por:

 python train.py --data-root=./data/nikl_m  --checkpoint-dir checkpoint_nikl_m 
   --preset=presets/deepvoice3_niklm.json

Adaptación del altavoz

Si tiene datos muy limitados, puede considerar probar el modelo previamente capacitado. Por ejemplo, utilizando el modelo previamente capacitado en LJSpeech, puede adaptarlo a los datos del hablante VCTK p225 (30 minutos) mediante el siguiente comando:

 python train.py --data-root=./data/vctk --checkpoint-dir=checkpoints_vctk_adaptation 
    --preset=presets/deepvoice3_ljspeech.json 
    --log-event-path=log/deepvoice3_vctk_adaptation 
    --restore-parts="20171213_deepvoice3_checkpoint_step000210000.pth"
    --speaker-id=0

Desde mi experiencia, puede obtener una calidad de habla razonable muy rápidamente en lugar de entrenar al modelo desde cero.

Hay dos opciones importantes utilizadas anteriormente:

--restore-parts=<N> : especifica dónde cargar los parámetros del modelo. Las diferencias de la opción --checkpoint=<N> son 1) --restore-parts=<N> ignora todos los parámetros no válidos, mientras que --checkpoint=<N> no. 2) --restore-parts=<N> Dígale al entrenador que comience desde 0 pasos, mientras que --checkpoint=<N> dígale al entrenador que continúe desde el último paso. --checkpoint=<N> debería estar bien si está utilizando exactamente el mismo modelo y continúa entrenando, pero sería útil si desea personalizar su arquitectura de modelos y tomar ventajas del modelo previamente capacitado.
--speaker-id=<N> : especifica qué altavoz de datos se usa para el entrenamiento. Esto solo debe especificarse si está utilizando un conjunto de datos de múltiples altavoces. En cuanto a VCTK, la ID del altavoz se asigna automáticamente de forma incremental (0, 1, ..., 107) de acuerdo con el speaker_info.txt en el conjunto de datos.

Si está entrenando al modelo de múltiples altavoces, la adaptación de los altavoces solo funcionará cuando n_speakers sea idéntica .

Solución de problemas

#5 RuntimeError: el hilo principal no está en el bucle principal

Esto puede suceder dependiendo de los backends que tenga para matplotlib. Intente cambiar el backend para matplotlib y vea si funciona de la siguiente manera:

 MPLBACKEND=Qt5Agg python train.py ${args...}

En el #78, Engiecat informó que cambiar el backend de Matplotlib de Tkinter (TKAGG) a PYQT5 (QT5AGG) solucionó el problema.

Patrocinadores

https://github.com/echelon

Expresiones de gratitud

Parte del código se adaptó de los siguientes proyectos:

https://github.com/Keithito/tacotron
https://github.com/facebookresearch/fairseq-py

Banner y logotipo creado por @jraulhernandezi (#76)

Expandir

Información adicional

Versión v0.1.0 release
Tipo Código Fuente de IA
Fecha de actualización 2025-08-21
tamaño 6.71MB
Proviene de Github

Aplicaciones relacionadas

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
pytorch image models

2024-11-03
nextcloud_share_url_downloader

2024-11-01
Motor de análisis de datos Lihua versión gratuita 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo