Téléchargement GenerSpeech - Téléchargement du code source GenerSpeech

GenerSpeech

Code Source AI

1.0.0

Télécharger

Generspeech: Vers le transfert de style pour le texte à l'emploi hors du domaine généralisable

Rongjie Huang, Yi Ren, Jinglin Liu, Chenye Cui, Zhou Zhao | Université Zhejiang, Sea AI Lab

Implémentation de Pytorch de Generspeech (Neirips'22): un modèle de texte vocal vers le transfert de style de style zéro à haute fidélité de la voix personnalisée OOD.

Nous fournissons notre implémentation et nos modèles pré-entraînés dans ce référentiel.

Visitez notre page de démonstration pour des échantillons audio.

Nouvelles

Décembre 2022: Generspeech (Neirips 2022) libéré à GitHub.

Caractéristiques clés

Transfert de style à plusieurs niveaux pour le texte vocable expressif.
Généralisation améliorée du modèle à la référence de style hors distribution (OOD).

Démarré rapide

Nous fournissons un exemple de la façon dont vous pouvez générer des échantillons de haute fidélité à l'aide de Generspeech.

Pour essayer votre propre ensemble de données, clonez simplement ce dépôt dans votre machine locale fournie avec Nvidia GPU + CUDA CUDNN et suivez les instructions ci-dessous.

Prise en charge des ensembles de données et des modèles pré-entraînés

Vous pouvez utiliser des modèles pré-entraînés que nous fournissons ici et des données ici. Les détails de chaque dossier sont comme suit:

Modèle	Ensemble de données (16 kHz)	Condamnation
Generspeech	Libritts, ESD	Modèle acousite (config)
Hifi-gan	Libritts, ESD	Vocodeur neural
Encodeur	/ /	Encodeur d'émotion

Des ensembles de données plus pris en charge arrivent bientôt.

Dépendances

Un environnement conda approprié nommé generspeech peut être créé et activé avec:

 conda env create -f environment.yaml
conda activate generspeech

Multi-GPU

Par défaut, cette implémentation utilise autant de GPU en parallèle que retourné par torch.cuda.device_count() . Vous pouvez spécifier les GPU à utiliser en définissant la variable d'environnement CUDA_DEVICES_AVAILABLE avant d'exécuter le module de formation.

Inférence (TTS à tirs zéro)

Ici, nous fournissons un pipeline de synthèse de la parole en utilisant Generspeech.

Préparer GenerspeEch (modèle acoustique): Télécharger et mettre un point de contrôle à checkpoints/GenerSpeech
Préparez Hifi-Gan (Neural Vocoder): Téléchargez et mettez le point de contrôle aux checkpoints/trainset_hifigan
Préparez l'émotion Encodeur : Téléchargez et mettez le point de contrôle à checkpoints/Emotion_encoder.pt
Préparer un ensemble de données : télécharger et mettre des fichiers statistiques sur data/binary/training_set
Préparez Path / To / Reference_Audio (16K) : Par défaut, Generspeech utilise ASR + MFA pour obtenir l'alignement de discours de texte à partir de la référence.

CUDA_VISIBLE_DEVICES= $GPU python inference/GenerSpeech.py --config modules/GenerSpeech/config/generspeech.yaml  --exp_name GenerSpeech --hparams= " text='here we go',ref_audio='assets/0011_001570.wav' "

Les fichiers WAV générés sont enregistrés dans infer_out par défaut.

Formez votre propre modèle

Préparation et configuration des données

Définissez raw_data_dir , processed_data_dir , binary_data_dir dans le fichier de configuration et téléchargez un ensemble de données sur raw_data_dir .
Vérifiez preprocess_cls dans le fichier de configuration. La structure de l'ensemble de données doit suivre le processeur preprocess_cls , ou vous pouvez le réécrire en fonction de votre ensemble de données. Nous fournissons un processeur Libritts comme exemple dans modules/GenerSpeech/config/generspeech.yaml
Téléchargez Global Emotion Encodeur sur emotion_encoder_path . Pour plus de détails, veuillez vous référer à cette branche.
Ensemble de données de prétraitement

 # Preprocess step: unify the file structure.
python data_gen/tts/bin/preprocess.py --config $path /to/config
# Align step: MFA alignment.
python data_gen/tts/bin/train_mfa_align.py --config $path /to/config
# Binarization step: Binarize data for fast IO.
CUDA_VISIBLE_DEVICES= $GPU python data_gen/tts/bin/binarize.py --config $path /to/config

Vous pouvez également créer un ensemble de données via NATSPEECH, qui partage une procédure de traitement des données MFA commune. Nous fournissons également notre ensemble de données traité (16KHz Libritts + ESD).

Formation Generspeech

CUDA_VISIBLE_DEVICES= $GPU python tasks/run.py --config modules/GenerSpeech/config/generspeech.yaml  --exp_name GenerSpeech --reset

Inférence en utilisant Generspeech

CUDA_VISIBLE_DEVICES= $GPU python tasks/run.py --config modules/GenerSpeech/config/generspeech.yaml  --exp_name GenerSpeech --infer

Remerciements

Cette implémentation utilise des parties du code à partir des REPOS GitHub suivants: FastDiff, NATSPEECH, comme décrit dans notre code.

Citations

Si vous trouvez ce code utile dans vos recherches, veuillez citer notre travail:

 @inproceedings { huanggenerspeech ,
  title = { GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech } ,
  author = { Huang, Rongjie and Ren, Yi and Liu, Jinglin and Cui, Chenye and Zhao, Zhou } ,
  booktitle = { Advances in Neural Information Processing Systems }
}

Clause de non-responsabilité

Toute organisation ou individu est interdit d'utiliser toute technologie mentionnée dans ce document pour générer le discours de quelqu'un sans son consentement, y compris, mais sans s'y limiter, les dirigeants du gouvernement, les personnalités politiques et les célébrités. Si vous ne respectez pas cet élément, vous pourriez violer les lois sur le droit d'auteur.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-08-22
taille 256.8KB
Provenant de Github

Applications connexes

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout