Descargar CDFSE_FastSpeech2 - Descargar el código fuente CDFSE

CDFSE_FastSpeech2

Código Fuente de IA

1.0.0

Descargar

CDFSE_FASTSPEECH2

Este repositorio contiene el código que acompaña al documento "Incrustación de altavoces de grano fino dependiente del contenido para la adaptación del altavoz de disparo cero en la síntesis de texto a voz", que se implementa en base a Ming024/FastSpeech2 (¡muchas gracias!).

Actualización 2022-06-15: Este trabajo ha sido aceptado para interponerse 2022.

Muestras | Papel

Uso

0. conjunto de datos

Mandarín: Aishell3
Inglés: Libritts

1. Configuración del medio ambiente

pip3 install -r requirements.txt

2. Preprocesamiento de datos

Consulte Ming024/FastSpeech2 para obtener más detalles.

Por ejemplo,

primera carrera

python3 prepare_align.py config/AISHELL3/preprocess.yaml

Luego descargue los archivos TextGrid o use MFA para alinear el Corpus, y coloque los archivos TextGrid en su [Preproced_Data_Path] como Preprocessed_Data/Aishell3/TextGrid/.
Finalmente, ejecute el script de preprocesamiento

python3 preprocess.py config/AISHELL3/preprocess.yaml

Además:

Hemos dividido los conjuntos de tren, val y prueba en preprocessed_data/[DataSet]/*. Por lo tanto, puede colocarlos directamente en su [Preproced_Data_Path] después de la representación de datos, o volver a verlos usted mismo.
Hemos proporcionado "SpeakFile_Dict.json" en Preprocessed_Data/[DataSet]/* (utilizado en DataSet.py para cargar aleatoriamente el discurso de referencia), y puede generarlo con Generate_SpeakerFiledict.py.
Hemos proporcionado algunos parámetros de hifigan previos a hifigan/pretranal/ *, simplemente puede cargarlos (recuerde descifrar el archivo *.zip) o usar su propio vocoder bien entrenado en Utils/Model.py.

3. Entrenamiento

Entrenar el modelo

python3 train.py -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml

Observado: si encuentra que la pérdida de PHNCLS no parece estar en tendencia hacia abajo o no es notable, intente ajustar manualmente el símbolo dicts en texto/símbolos.py (solo contiene fonemas relevantes) para que la clasificación de fonemas funcione mejor, y esto puede resolver el problema.

(Opcional) Use TensorBoard

tensorboard --logdir output/log/AISHELL3

4. Inferencia

Para un lote

python3 synthesize.py --source synbatch_chinese.txt --restore_step 250000 --mode batch -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml

Para soltero

 # For Mandarin
python3 synthesize.py --text "清华大学人机语音交互实验室，聚焦人工智能场景下的智能语音交互技术研究。 " --ref [REF_SPEECH_PATH.wav] --restore_step 250000 --mode single -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml 
# For English
python3 synthesize.py --text " Human Computer Speech Interaction Lab at Tsinghua University, targets artificial intelligence technologies for smart voice user interface. " --ref [REF_SPEECH_PATH.wav] --restore_step 250000 --mode single -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml

Actualizaciones de implementación

(2022-06-20) La normalización de la instancia se adopta en el codificador de contenido MEL para un mejor rendimiento.
(2022-06-01) Soporte de la configuración del inglés: conjunto de datos de múltiples altavoces Libritts (Train-Clean-100 + Dev-Clean + Test-Clean).
(2022-04-27) Soporte directamente usando WavFile (*.WAV) como discurso de referencia en lugar del archivo Numpy de espectrograma MEL en modo único.

Referencias

Ming024/FastSpeech2
jik876/hifi-gan

Citación

 @misc{zhou2022content,
  title={Content-Dependent Fine-Grained Speaker Embedding for Zero-Shot Speaker Adaptation in Text-to-Speech Synthesis}, 
  author={Zhou, Yixuan and Song, Changhe and Li, Xiang and Zhang, Luwen and Wu, Zhiyong and Bian, Yanyao and Su, Dan and Meng, Helen},
  year={2022},
  eprint={2204.00990},
  archivePrefix={arXiv},
  primaryClass={eess.AS}
}

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-21
tamaño 112.78MB
Proviene de Github

Aplicaciones relacionadas

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Motor de análisis de datos Lihua versión gratuita 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo