tf_multispeakerTTS_fc DESCARGAR - tf_multispeakerTTS

tf_multispeakerTTS_fc

Código Fuente de IA

1.0.0

Descargar

Síntesis del habla multiespeaker con restricción de retroalimentación del hablante VerificAiton

Esta es una implementación de TensorFlow de la red TTS multiespeaker introducida en papel desde la verificación de los altavoces hasta la síntesis del habla multiespeaker, transferencia profunda con restricción de retroalimentación. Este repositorio también contiene un modelo de verificación de altavoz profundo que se utiliza en el modelo TTS de múltiples altavoces como la red de retroalimentación. Las muestras sintetizadas se proporcionan en línea.

Citación

 @inproceedings{Cai2020,
  author={Zexin Cai and Chuxiong Zhang and Ming Li},
  title={{From Speaker Verification to Multispeaker Speech Synthesis, Deep Transfer with Feedback Constraint}},
  year=2020,
  booktitle={Proc. Interspeech 2020}
}

Arquitectura modelo

Donde la red de incrustación del altavoz es una red basada en resnet:

Capacitación

Modelo de verificación de altavoces

El modelo de verificación del altavoz se encuentra en el directorio profundo_speaker. De forma predeterminada, el modelo de verificación del altavoz está entrenado con datos VoxCeleb 1 y VoxCeleb 2. Puede encontrar la lista de archivos en el directorio. Los hiperparámetros se establecen en VOX12_HPARAMS.PY.

Para capacitar al modelo VerificAiton del altavoz desde cero, prepare los datos como se enumeran en la lista de archivos y ejecuten:

CUDA_VISIBLE_DEVICES=0 python train.py

TTS Synthesizer (sin control de retroalimentación)

De forma predeterminada, el sintetizador está capacitado utilizando DataSet VCTK.

Extraer función de audio usando process_audio.ipynb
Extraer incrustaciones de altavoces utilizando iPython Notebook profundo_speaker/get_gvector.ipynb

Capacitar un sistema de basura multiespeaker TTS

CUDA_VISIBLE_DEVICES=0 python synthesizer_train.py vctk datasets/vctk/synthesizer

Siéntase libre de evaluar y sintetizar muestras usando syn.ipynb durante el entrenamiento

Vocoder neural (Wavernn)

De forma predeterminada, el Vocoder también está capacitado utilizando DataSet VCTK. Sería fácil después de que se extraiga la característica acústica de la sección anterior ( sintetizador TTS ). Para un mejor rendimiento, utilice el espectrograma GTA MEL obtenido por VOCODER_PREPROCESS.PY después de que termine el entrenamiento del sintetizador.

CUDA_VISIBLE_DEVICES=0 python vocoder_train.py -g --syn_dir datasets/vctk/synthesizer vctk datasets/vctk

TTS Synthesizer con restricción de retroalimentación

Establezca la ruta en el modelo de dos petróleo (el modelo de verificación del altavoz y el sintetizador multiespeaker) cambiando las teclas correspondientes en hparams.py.
Capacite al modelo y evalúe en cualquier momento con Townleg_syn.ipynb
```
CUDA_VISIBLE_DEVICES=0 python fc_synthesizer_train.py
```

Modelos provocados

Red de incrustación de altavoces
Synthesizador de línea de base 1 (utilizado como el modelo previo al estado de entrenamiento para el entrenamiento de retroalimentación)
Sintetizador de línea de base 2
TTS Synthesizer con restricción de retroalimentación
Vocoder de Wavernn

Referencias y recursos

Rayhane-Mamah/ Tacotron-2
Corentinj/ clonación de voces en tiempo real
Cargador de datos sobre la marcha y agregación a nivel de expresión para el reconocimiento de altavoces y idiomas
Síntesis de TTS natural mediante acondicionamiento de wavenet en predicciones de espectrograma MEL
Síntesis de audio neuronal eficiente

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-24
tamaño 70.08MB
Proviene de Github

Aplicaciones relacionadas

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Motor de análisis de datos Lihua versión gratuita 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo