Téléchargement AdaSpeech - Téléchargement du code source AdaSpeech

AdaSpeech

Code Source AI

1.0.0

Télécharger

Adaspeech: texte adaptatif à la parole pour la voix personnalisée [WIP]

Implémentation non officielle pytorch d'Adaspeech.

Note:

Je n'envisage pas le cas d'utilisation multi-haut-parleurs, je me concentre beaucoup plus sur le haut-parleur unique.
J'utiliserai uniquement Utterance level encoder et Phoneme level encoder et non la norme de la couche de condition (qui est l'âme du papier adaspiche), il restreint définitivement la nature adaptative de l'adaseeche mais mon objectif est d'améliorer la généralisation acoustique de FastSpeech 2 plutôt que d'adaptation.

Citations

 @misc { chen2021adaspeech ,
      title = { AdaSpeech: Adaptive Text to Speech for Custom Voice } , 
      author = { Mingjian Chen and Xu Tan and Bohan Li and Yanqing Liu and Tao Qin and Sheng Zhao and Tie-Yan Liu } ,
      year = { 2021 } ,
      eprint = { 2103.00993 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { eess.AS }
}

Exigences :

Tout le code écrit en Python 3.6.2 .

Installer Pytorch

Avant d'installer Pytorch, veuillez vérifier votre version CUDA en exécutant la commande suivante: nvcc --version

 pip install torch torchvision

Dans ce dépôt, j'ai utilisé Pytorch 1.6.0 pour la fonction torch.bucketize qui n'est pas présente dans les versions précédentes de Pytorch.

Installation d'autres exigences:

 pip install -r requirements.txt

Pour utiliser Tensorboard Installer tensorboard version 1.14.0 séparément avec tensorflow (1.14.0)

Pour le prétraitement:

Le dossier filelists contient des fichiers de données LJSpeech traités MFA (MotReal Force Aligner), vous n'avez donc pas besoin d'aligner le texte avec l'audio (pour la durée d'extrait) pour l'ensemble de données LJSpeech. Pour un autre ensemble de données, suivez l'instruction ici. Pour d'autres prétraitements Exécuter la commande suivante:

 python nvidia_preprocessing.py -d path_of_wavs

Pour trouver le min et le max de F0 et de l'énergie

 python compute_statistics.py

Mettez à jour ce qui suit dans hparams.py par min et max de F0 et de l'énergie

 p_min = Min F0/pitch
p_max = Max F0
e_min = Min energy
e_max = Max energy

Pour la formation

 python train_fastspeech.py --outdir etc -c configs/default.yaml -n "name"

Note

Pour plus complet et plus complet de clonage vocal ou de Text To Speech (TTS), veuillez visiter DeepSync Technologies.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-08-21
taille 4.13MB
Provenant de Github

Applications connexes

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout