TensorFlowTTS Téléchargement - TensorFlowTTS Source Code Download

TensorFlowTTS

Code Source AI

v1.8

Télécharger

? Tensorflowtts

Synthèse de la parole de pointe en temps réel pour TensorFlow 2

? Tensorflowtts fournit des architectures de synthèse de la parole de pointe telles que Tacotron-2, Melgan, Multiband-Melgan, FastSpeech, FastSpeech2 Basé sur Tensorflow 2. Avec TensorFlow 2, nous pouvons accélérer la formation / inférences, Optimizer en utilisant davantage de fausses et de tristesse, de faire des modèles TTS peut être exécuté Faster qu'en temps réel et être en train de faire des mobiles ou des modèles TTS peut être exécuté Faster que le temps réel et être en train de faire des mobiles ou des modèles TTS peut être exécuté Faster que le temps réel et être en train de faire des mobiles ou des modèles TTS peuvent être exécutés Faster qu'en temps réel et être en train de faire des mobiles ou des modèles TTS peuvent être exécutés Ferter Systèmes.

Quoi de neuf

2021/08/18 ( NOUVEAU! ) Intégré aux espaces étreintes avec Gradio. Voir la démonstration du Web Gradio.
2021/08/12 ( NOUVEAU! ) Soutenir les TTS français (Tacotron2, Multiband Melgan). Pls voir le colab. Merci beaucoup Samuel Delalez
2021/06/01 intégré à HuggingFace Hub. Voir le PR. Merci Patrickvonplaten et Osanseviero
2021/03/18 Soutien iOS pour FastSpeech2 et MB Melgan. Merci Kewlbear. Voir ici
2021/01/18 Prise en charge de l'inférence Tflite C ++. Merci Luan78zaoha. Voir ici
2020/12/02 Soutenez les TT allemands avec un ensemble de données Thorsten. Voir le colab. Merci Thorstenmueller et Monatis
2020/11/24 Ajouter Hifi-Agan Vocoder. Voir ici
2020/11/19 Ajouter un accumulateur de gradient multi-GPU. Voir ici
2020/08/23 Ajouter une implémentation parallèle de TensorFlow Wavegan Tensorflow. Voir ici
2020/08/20 Ajouter le code d'inférence C ++. Merci @zdisket. Voir ici
2020/08/18 Mettre à jour le nouveau processeur de base. Ajouter le fichier JSON autoprocesseur et processeur pré-entraîné
2020/08/14 Soutenir les TT chinois. Pls voir le colab. Merci @azraelkuan
2020/08/05 Soutenir les TT coréens. Pls voir le colab. Merci @ crux153
2020/07/17 Prise en charge Multigpu pour tous les entraîneurs
2020/07/05 Prise en charge de Convert Tacotron-2, FastSpeech en tflite. Pls voir le colab. Merci @jaeyoo de l'équipe Tflite pour son soutien
2020/06/20 L'implémentation FastSpeech2 avec TensorFlow est prise en charge.
2020/06/07 La mise en œuvre de Multi-Band Melgan (MB Melgan) avec Tensorflow est prise en charge

Caractéristiques

Haute performance sur la synthèse de la parole.
Être capable de s'adapter sur d'autres langues.
Rapide, évolutif et fiable.
Convient pour le déploiement.
Facile à implémenter un nouveau modèle, une classe abstraite basée sur la base.
Précision mixte pour accélérer l'entraînement si possible.
Prise en charge du gradient unique / multi-GPU accumulé.
Prise en charge à la fois un seul GPU dans la classe d'entraîneur de base.
Conversion Tflite pour tous les modèles pris en charge.
Exemple Android.
Soutenir de nombreuses langues (actuellement, nous soutenons le chinois, les coréens, l'anglais, le français et l'allemand)
Soutenez l'inférence C ++.
Soutenez le poids converti pour certains modèles de Pytorch à TensorFlow pour accélérer la vitesse.

Exigences

Ce référentiel est testé sur Ubuntu 18.04 avec:

Python 3.7+
CUDA 10.1
Cudnn 7.6.5
TensorFlow 2.2 / 2.3 / 2.4 / 2.5 / 2.6
TensorFlow Addons> = 0.10.0

Différentes version TensorFlow devraient fonctionner mais pas encore testées. Ce dépôt essaiera de fonctionner avec la dernière version stable TensorFlow. Nous vous recommandons d'installer TensorFlow 2.6.0 à la formation au cas où vous souhaitez utiliser MultiGPU.

Installation

Avec pip

$ pip install TensorFlowTTS

De la source

Des exemples sont inclus dans le référentiel mais ne sont pas expédiés avec le cadre. Par conséquent, pour exécuter la dernière version des exemples, vous devez installer la source ci-dessous.

$ git clone https://github.com/TensorSpeech/TensorFlowTTS.git
$ cd TensorFlowTTS
$ pip install .

Si vous souhaitez mettre à niveau le référentiel et ses dépendances:

$ git pull
$ pip install --upgrade .

Architectures de modèle pris en charge

Tensorflowtts fournit actuellement les architectures suivantes:

MELGAN a sorti avec le papier MELGAN: réseaux adversariaux génératifs pour la synthèse de la forme d'onde conditionnelle de Kundan Kumar, Rithesh Kumar, Thibault de Boissiere, Lucas Gestin, Wei Zhen Teoh, Jose Sotelo, Alexandre De Brebisson, Yoshua Bengio, Aaron Courville.
Tacotron-2 libéré avec la synthèse TTS naturelle en papier en conditionnant les prédictions du wavenet sur le spectrogramme de MEL par Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, RJ Skiry-Sryan, Rif A. Yonghui Wu.
FastSpeech libéré avec le papier FastSpeech: rapide, robuste et contrôlable, discours par Yi Ren, Yangjun Ruan, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu.
Multi-Band Melgan sorti avec le papier Multi-Band Melgan: Génération de forme d'onde plus rapide pour le texte to-to-to-to-to-to-speech de haute qualité par Geng Yang, Shan Yang, Kai Liu, Peng Fang, Wei Chen, Lei Xie.
FastSpeech2 libéré avec le papier FastSpeech 2: texte de bout en bout rapide et de haute qualité à la parole de Yi Ren, Chenxu Hu, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu.
Parallel Wavegan libéré avec le papier parallèle parallèle: un modèle de génération de forme d'onde rapide basé sur des réseaux adversariaux génératifs avec le spectrogramme multi-résolution par Ryuichi Yamamoto, Eunwoo Song, Jae-Min Kim.
Hifi-gan libéré avec l'article Hifi-gan: réseaux adversaires génératifs pour la synthèse de la parole efficace et haute fidélité par Jungil Kong, Jaehyeon Kim, Jaekyoung Bae.

Nous mettons également en œuvre certaines techniques pour améliorer la qualité et la vitesse de convergence des articles suivants:

Perte d'attention guidée libérée avec le système de texte à dispection efficace sur le papier basé sur des réseaux convolutionnels profonds avec l'attention guidée par Hideyuki Tachibana, Katsuya Uenoyama, Shunsuke Aihara.

Échantillons audio

Ici dans un échantillon audio sur un ensemble valide. Tacotron-2, FastSpeech, Melgan, Melgan.stft, FastSpeech2, Multiband_melgan

Tutoriel de bout en bout

Préparer un ensemble de données

Préparez un ensemble de données dans le format suivant:

 |- [NAME_DATASET]/
|   |- metadata.csv
|   |- wavs/
|       |- file1.wav
|       |- ...

Où metadata.csv a le format suivant: id|transcription . Il s'agit d'un format de type LJSpeech; Vous pouvez ignorer les étapes de prétraitement si vous avez d'autres ensembles de données de format.

Notez que NAME_DATASET doit être [ljspeech/kss/baker/libritts/synpaflex] par exemple.

Prétraitement

Le prétraitement a deux étapes:

Fonctionnalités audio prétraitées
- Convertir les caractères en IDS
- Calculer les spectrogrammes MEL
- Normaliser les spectrogrammes MEL à [-1, 1] plage
- Divisez l'ensemble de données en train et validation
- Calculez la moyenne et l'écart type de plusieurs fonctionnalités de la division d'entraînement
Standardiser le spectrogramme MEL basé sur des statistiques calculées

Pour reproduire les étapes ci-dessus:

 tensorflow-tts-preprocess --rootdir ./[ljspeech/kss/baker/libritts/thorsten/synpaflex] --outdir ./dump_[ljspeech/kss/baker/libritts/thorsten/synpaflex] --config preprocess/[ljspeech/kss/baker/thorsten/synpaflex]_preprocess.yaml --dataset [ljspeech/kss/baker/libritts/thorsten/synpaflex]
tensorflow-tts-normalize --rootdir ./dump_[ljspeech/kss/baker/libritts/thorsten/synpaflex] --outdir ./dump_[ljspeech/kss/baker/libritts/thorsten/synpaflex] --config preprocess/[ljspeech/kss/baker/libritts/thorsten/synpaflex]_preprocess.yaml --dataset [ljspeech/kss/baker/libritts/thorsten/synpaflex]

À l'heure actuelle, nous prenons uniquement ljspeech , kss , baker , libritts , thorsten et synpaflex pour l'argument de l'ensemble de données. À l'avenir, nous avons l'intention de prendre en charge plus de jeux de données.

Remarque : Pour exécuter le prétraitement libritts , veuillez d'abord lire les instructions dans des exemples / fastSpeech2_libritts. Nous devons le reformater avant de faire du prétraitement.

Remarque : Pour exécuter le prétraitement synpaflex , veuillez d'abord exécuter les ordinateurs portables / Préparer_synpaflex.ipynb. Nous devons le reformater avant de faire du prétraitement.

Après le prétraitement, la structure du dossier du projet devrait être:

 |- [NAME_DATASET]/
|   |- metadata.csv
|   |- wav/
|       |- file1.wav
|       |- ...
|- dump_[ljspeech/kss/baker/libritts/thorsten]/
|   |- train/
|       |- ids/
|           |- LJ001-0001-ids.npy
|           |- ...
|       |- raw-feats/
|           |- LJ001-0001-raw-feats.npy
|           |- ...
|       |- raw-f0/
|           |- LJ001-0001-raw-f0.npy
|           |- ...
|       |- raw-energies/
|           |- LJ001-0001-raw-energy.npy
|           |- ...
|       |- norm-feats/
|           |- LJ001-0001-norm-feats.npy
|           |- ...
|       |- wavs/
|           |- LJ001-0001-wave.npy
|           |- ...
|   |- valid/
|       |- ids/
|           |- LJ001-0009-ids.npy
|           |- ...
|       |- raw-feats/
|           |- LJ001-0009-raw-feats.npy
|           |- ...
|       |- raw-f0/
|           |- LJ001-0001-raw-f0.npy
|           |- ...
|       |- raw-energies/
|           |- LJ001-0001-raw-energy.npy
|           |- ...
|       |- norm-feats/
|           |- LJ001-0009-norm-feats.npy
|           |- ...
|       |- wavs/
|           |- LJ001-0009-wave.npy
|           |- ...
|   |- stats.npy
|   |- stats_f0.npy
|   |- stats_energy.npy
|   |- train_utt_ids.npy
|   |- valid_utt_ids.npy
|- examples/
|   |- melgan/
|   |- fastspeech/
|   |- tacotron2/
|   ...

stats.npy contient la moyenne et les std des spectrogrammes de MEL divisés de formation
stats_energy.npy contient la moyenne et la MST des valeurs d'énergie de la division d'entraînement
stats_f0.npy contient la moyenne et les valeurs de F0 dans la division de formation
train_utt_ids.npy / valid_utt_ids.npy contient des énoncés de formation et de validation IDS respectivement

Nous utilisons le suffixe ( ids , raw-feats , raw-energy , raw-f0 , norm-feats et wave ) pour chaque type d'entrée.

Remarques importantes :

Cette étape de prétraitement est basée sur ESPNET afin que vous puissiez combiner tous les modèles ici avec d'autres modèles du référentiel ESPNET.
Quelle que soit la façon dont votre ensemble de données est formaté, la structure finale du dossier dump doit suivre la structure ci-dessus pour pouvoir utiliser le script de formation, ou vous pouvez le modifier par vous-même ?.

Modèles de formation

Pour savoir comment former le modèle à partir de zéro ou affiner avec d'autres ensembles de données / langues, veuillez consulter les détails à l'exemple du répertoire.

Pour le tutoriel Tacotron-2, pls, voir des exemples / tacotron2
Pour le tutoriel FastSpeech, pls Voir des exemples / FastSpeech
Pour le tutoriel FastSpeech2, pls Voir des exemples / FastSpeech2
Pour le tutoriel FastSpeech2 + MFA, pls Voir des exemples / FastSpeech2_libritts
Pour le tutoriel MELGAN, PLS Voir des exemples / Melgan
Pour le didacticiel MELGAN + STFT Loss, pls Voir des exemples / MELGAN.STFT
Pour le didacticiel multiband-Melgan, pls, voir des exemples / multiband_melgan
Pour le tutoriel parallèle Wavegan, pls, voir des exemples / parallèle_wavegan
Pour le générateur Multiband-Melgan + tutoriel HIFI-GAN, PLS VOIR EXEMPLES / MULTIBAND_MELGAN_HF
Pour le tutoriel Hifi-Gan, pls, voir des exemples / Hifigan

Explication de classe abstraite

Abstrait Dataloder TensorFlow Tendat Tason

Une implémentation détaillée de la classe de jeu de données abstraite de Tensorflow_TTS / DataSet / Abstract_Dataset. Il existe certaines fonctions dont vous avez besoin et comprenez:

get_args : cette fonction renvoie l'argumentation pour la classe de générateur , est normalement UTT_IDS.
Générateur : cette fonction a une entrée de la fonction get_args et renvoie des entrées pour les modèles. Notez que nous renvoyons un dictionnaire pour toutes les fonctions de générateur avec les touches qui correspondent exactement aux paramètres du modèle car Base_Trainer utilisera le modèle (** lot) pour faire l'étape transmise.
get_output_dtypes : cette fonction nécessite un retour dtypes pour chaque élément de la fonction du générateur .
get_len_dataset : return len des ensembles de données, Normaly est Len (UTT_IDS).

Remarques importantes :

Un pipeline de création de données doit être: cache -> shuffle -> map_fn -> get_batch -> prefetch.
Si vous effectuez un mélange avant le cache, l'ensemble de données ne se mélangera pas lorsqu'il réitérera sur des ensembles de données.
Vous devez appliquer MAP_FN pour faire en sorte que chaque élément revienne de la fonction du générateur a la même longueur avant d'obtenir un lot et de le nourrir dans un modèle.

Certains exemples pour utiliser cet abstract_dataset sont tacotron_dataset.py, fastspeech_dataset.py, melgan_dataset.py, fastspeech2_dataset.py

Classe d'entraîneurs abstraite

Une implémentation détaillée de Base_Trainer à partir de Tensorflow_TTS / Trainer / Base_Trainer.py. Il inclut SEQ2SEQBasedTrainer et GanBasedTrainer hérité de BasedTrainer. Tous les entraîneurs prennent en charge à la fois un seul GPU. Il y a quelques fonctions que vous devez exciter lorsque vous implémentez New_Trainer:

Compiler : cette fonction vise à définir un modèle et des pertes.
générer_and_save_intermediate_result : cette fonction enregistrera le résultat intermédiaire tel que: l'alignement de tracé, enregistrera audio généré, tracer le spectrogramme de Mel ...
calcul_per_example_losses : Cette fonction calculera per_example_loss pour le modèle, notez que tous les éléments de la perte doivent avoir une forme [batch_size].

Tous les modèles de ce dépôt sont basés sur le ganbasedTrainer basés sur un forage (voir Train_melgan.py, Train_melgan_stft.py, Train_Multiband_melgan.py) et seq2seqbasedTrainer (voir Train_tacotron2.py, Train_fastSpeech.py).

Exemples de bout en bout

Vous pouvez savoir comment inférer chaque modèle chez Notebooks ou voir un colab (pour l'anglais), Colab (pour coréen), Colab (pour chinois), Colab (pour le français), Colab (pour l'allemand). Voici un exemple de code pour l'inférence END2end avec FastSpeech2 et Multi-Band Melgan. Nous avons téléchargé tous nos Hub Pre-Trained dans Hugging Face.

 import numpy as np
import soundfile as sf
import yaml

import tensorflow as tf

from tensorflow_tts . inference import TFAutoModel
from tensorflow_tts . inference import AutoProcessor

# initialize fastspeech2 model.
fastspeech2 = TFAutoModel . from_pretrained ( "tensorspeech/tts-fastspeech2-ljspeech-en" )


# initialize mb_melgan model
mb_melgan = TFAutoModel . from_pretrained ( "tensorspeech/tts-mb_melgan-ljspeech-en" )


# inference
processor = AutoProcessor . from_pretrained ( "tensorspeech/tts-fastspeech2-ljspeech-en" )

input_ids = processor . text_to_sequence ( "Recent research at Harvard has shown meditating for as little as 8 weeks, can actually increase the grey matter in the parts of the brain responsible for emotional regulation, and learning." )
# fastspeech inference

mel_before , mel_after , duration_outputs , _ , _ = fastspeech2 . inference (
    input_ids = tf . expand_dims ( tf . convert_to_tensor ( input_ids , dtype = tf . int32 ), 0 ),
    speaker_ids = tf . convert_to_tensor ([ 0 ], dtype = tf . int32 ),
    speed_ratios = tf . convert_to_tensor ([ 1.0 ], dtype = tf . float32 ),
    f0_ratios = tf . convert_to_tensor ([ 1.0 ], dtype = tf . float32 ),
    energy_ratios = tf . convert_to_tensor ([ 1.0 ], dtype = tf . float32 ),
)

# melgan inference
audio_before = mb_melgan . inference ( mel_before )[ 0 , :, 0 ]
audio_after = mb_melgan . inference ( mel_after )[ 0 , :, 0 ]

# save to file
sf . write ( './audio_before.wav' , audio_before , 22050 , "PCM_16" )
sf . write ( './audio_after.wav' , audio_after , 22050 , "PCM_16" )

Contact

Minh Nguyen Quan Anh: [email protected]
Erogol: [email protected]
Kuan Chen: [email protected]
Dawid Kobus: [email protected]
Takuya Ebata: [email protected]
Trinh le Quang: [email protected]
Yunchao he: [email protected]
Alejandro Miguel Velasquez: [email protected]

Licence

Tous les modèles ici sont sous licence sous l'Apache 2.0

Reconnaissance

Nous tenons à remercier Tomoki Hayashi, qui a beaucoup discuté avec nous sur Melgan, Multi-Band Melgan, FastSpeech et Tacotron. Ce cadre basé sur son excellent projet parallèle Open-source.

Développer

Informations supplémentaires

Version v1.8
Type Code Source AI
Date de mise à jour 2025-08-21
taille 41.84MB
Provenant de Github

Applications connexes

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout