CDFSE_FastSpeech2 Télécharger - CDFSE_FastSpeech2 Code source Télécharger

CDFSE_FastSpeech2

Code Source AI

1.0.0

Télécharger

Cdfse_fastSpeech2

Ce repo contient du code accompagnant l'article "Intégration de haut-parleurs à grain fin dépendant du contenu pour l'adaptation de haut-parleurs à tirs zéro dans la synthèse de texte vocale", qui est implémentée sur la base de Ming024 / FastSpeech2 (beaucoup merci!).

Mise à jour 2022-06-15: Ce travail a été accepté pour IntereSpeech 2022.

Échantillons | Papier

Usage

0. ensemble de données

Mandarin: Aishell3
Anglais: Libritts

1. Configuration de l'environnement

pip3 install -r requirements.txt

2. Pré-traitement des données

Veuillez vous référer à Ming024 / FastSpeech2 pour plus de détails.

Par exemple,

première manche

python3 prepare_align.py config/AISHELL3/preprocess.yaml

Téléchargez ensuite les fichiers TextGrid ou utilisez MFA pour aligner le corpus, et mettez des fichiers TextGrid dans votre [prerocessed_data_path] comme prestrocessed_data / Aishell3 / TextGrid /.
Enfin, exécutez le script de prétraitement

python3 preprocess.py config/AISHELL3/preprocess.yaml

En outre:

Nous avons divisé les ensembles de train, Val et de test dans prestrocessed_data / [ensemble de données] / *. Ainsi, vous pouvez les mettre directement dans votre [prérocessed_data_path] après procédure de données, ou les ré-les ré-les ré-rallumer vous-même.
Nous avons fourni "SpeakerFile_Dict.json" dans Preprocessed_Data / [DataSet] / * (utilisé dans DataSet.py pour le chargement de référence de chargement aléatoire), et vous pouvez le générer avec generate_speakerfileddict.py.
Nous avons fourni des paramètres HIFIGAN Pretraind dans HIFIGAN / Pretraind / *, vous pouvez simplement les charger (n'oubliez pas de décompresser le fichier * .zip) ou d'utiliser votre propre vocoder bien formé dans utils / model.py.

3. Formation

Former le modèle

python3 train.py -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml

Remarquée: Si vous trouvez que la perte de PHNCL ne semble pas avoir tendance ou n'est pas perceptible, essayez d'ajuster manuellement le symbole des dicts dans le texte / symbole.py (contient uniquement des phonèmes pertinents) pour améliorer le fonctionnement de la classification des phonèmes, ce qui peut résoudre le problème.

(Facultatif) Utiliser Tensorboard

tensorboard --logdir output/log/AISHELL3

4. Inférence

Pour lot

python3 synthesize.py --source synbatch_chinese.txt --restore_step 250000 --mode batch -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml

Pour célibataire

 # For Mandarin
python3 synthesize.py --text "清华大学人机语音交互实验室，聚焦人工智能场景下的智能语音交互技术研究。 " --ref [REF_SPEECH_PATH.wav] --restore_step 250000 --mode single -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml 
# For English
python3 synthesize.py --text " Human Computer Speech Interaction Lab at Tsinghua University, targets artificial intelligence technologies for smart voice user interface. " --ref [REF_SPEECH_PATH.wav] --restore_step 250000 --mode single -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml

Mises à jour de l'implémentation

(2022-06-20) La normalisation des instances est adoptée dans le codeur de contenu MEL pour de meilleures performances.
(2022-06-01) Prise en charge du paramètre anglais: Libritts Multi-Speaker DataSet (Train-Clean-100 + Dev-Clean + Test-Clean).
(2022-04-27) Prise en charge directement en utilisant WAVFILE (* .WAV) comme discours de référence au lieu du fichier Numpy de spectrogramme MEL en mode unique.

Références

Ming024 / FastSpeech2
Jik876 / Hifi-gan

Citation

 @misc{zhou2022content,
  title={Content-Dependent Fine-Grained Speaker Embedding for Zero-Shot Speaker Adaptation in Text-to-Speech Synthesis}, 
  author={Zhou, Yixuan and Song, Changhe and Li, Xiang and Zhang, Luwen and Wu, Zhiyong and Bian, Yanyao and Su, Dan and Meng, Helen},
  year={2022},
  eprint={2204.00990},
  archivePrefix={arXiv},
  primaryClass={eess.AS}
}

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-08-21
taille 112.78MB
Provenant de Github

Applications connexes

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Moteur d'analyse de données Lihua version gratuite 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout