Téléchargement emospeech - Téléchargement du code source emospeech

emospeech

Code Source AI

1.0.0

Télécharger

Emospeech: guider FastSpeech2 vers le texte émotionnel vers la parole

Comment courir

Construire Env

Vous pouvez construire un environnement avec Docker ou Conda .

Pour configurer l'environnement avec Docker

Si Docker n'est pas installé, veuillez suivre les liens pour trouver des instructions d'installation pour Ubuntu, Mac ou Windows.

Construire l'image Docker:

 docker build -t emospeech .

Exécutez l'image Docker:

 bash run_docker.sh

Pour configurer l'environnement avec conda

Si vous n'avez pas installé Conda, veuillez trouver les instructions d'installation de votre système d'exploitation ici.

  conda create -n etts python=3.10
  conda activate etts
  pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
  pip install -r requirements.txt

Si vous avez une version différente de CUDA sur votre machine, vous pouvez trouver un lien applicable pour l'installation de Pytorch ici.

Données de téléchargement et de prétraitement

Nous avons utilisé des données de 10 anglophones de l'ensemble de données ESD. Pour télécharger tous les fichiers .wav , .txt ainsi que les fichiers .TextGrid créés à l'aide de MFA:

  bash download_data.sh

Pour entraîner un modèle, nous avons besoin de durations précomputées, d'énergie, de hauteur et de caractéristiques EGEMAP. De l'exécution du répertoire src :

  python -m src.preprocess.preprocess

C'est à quoi devrait ressembler votre dossier de données:

  .
  ├── data
  │   ├── ssw_esd
  │   ├── test_ids.txt
  │   ├── val_ids.txt
  └── └── preprocessed
          ├── duration
          ├── egemap
          ├── energy
          ├── mel
          ├── phones.json
          ├── pitch
          ├── stats.json
          ├── test.txt
          ├── train.txt
          ├── trimmed_wav
          └── val.txt

Entraînement

Configurez les arguments dans config/config.py .
Exécutez python -m src.scripts.train .

Essai

Les tests sont implémentés sur le sous-ensemble de tests de données ESD. Pour synthétiser l'audio et calculer les MOS neuronaux (NISQA TTS):

Configurez les arguments dans config/config.py dans la section Inference .
Exécutez python -m src.scripts.test .

Vous pouvez trouver Nisqa TTS pour l'audio original, reconstruit et généré dans test.log .

Inférence

Emospeech est formé sur les séquences de phonèmes. Les téléphones pris en charge peuvent être trouvés dans data/preprocessed/phones.json . Ce référentiel est créé pour la recherche académique et ne prend pas en charge la conversion automatique de graphème au phonème. Cependant, si vous souhaitez synthétiser une phrase arbitraire avec un conditionnement émotionnel, vous pouvez:

Générez la séquence de phonèmes à partir de graphiques avec du MFA.
1.1 Suivez le guide d'installation
1.2 Télécharger l'anglais G2P Modèle: mfa model download g2p english_us_arpa
1.3 Générer Phoneme.txt à partir de graphemes.txt: mfa g2p graphemes.txt english_us_arpa phoneme.txt
Exécutez python -m src.scripts.inference , spécifiant les arguments:

Rythme	Signification	Valeurs possibles	Valeur par défaut
`-sq`	Séquence phonème à synthesisze	Trouver dans `data/phones.json` .	Non défini, argument requis.
`-emo`	ID de l'émotion de la voix désirée	0: Neutre, 1: en colère, 2: Happy, 3: triste, 4: surprise.	1
`-sp`	ID de la voix du haut-parleur	De 1 à 10, correspond à 0011 ... 0020 en notation ESD d'origine.	5
`-p`	Chemin où sauver l'audio synthétisé	Tout avec extension `.wav` .	génération_from_phoneme_sequence.wav

Par exemple

 python -m src.scripts.inference --sq "S P IY2 K ER1 F AY1 V  T AO1 K IH0 NG W IH0 TH AE1 NG G R IY0 IH0 M OW0 SH AH0 N"

Si le fichier de résultat n'est pas synthétisé, vérifiez inference.log pour les téléphones OOV.

Références

FastSpeech 2 - Implémentation de Pytorch
istftnet: vocodeur de spectrogramme MEL rapide et léger incorporant une transformée de Fourier à court terme inverse
Ensemble de données de discours émotionnel accessible au public (ESD) pour la synthèse de la parole et la conversion vocale
NISQA: Évaluation de la qualité de la parole et du naturel
Modèles d'aligneur forcé de Montréal
Vocgan modifié
Adaspiède

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-08-25
taille 1.15MB
Provenant de Github

Applications connexes

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout