Multilingual_Text_to_Speech Téléchargement - Multilingual_Text_to

Multilingual_Text_to_Speech

Code Source AI

1.0.0

Télécharger

Synthèse de la parole multilingue

Démo de synthèse interactive
Site Web avec des échantillons
Papier et description

Ce référentiel fournit des échantillons synthétisés, des données de formation et d'évaluation, le code source et les paramètres du modèle Paper One, de nombreuses langues: méta-apprentissage pour le texte-parole multilingue .

Il contient une implémentation de Tacotron 2 qui prend en charge des expériences multilingues et qui met en œuvre différentes approches du partage des paramètres d'encodeur . Il présente un modèle combinant des idées de l'apprentissage à parler couramment dans une langue étrangère: synthèse de la parole multilingue et clonage vocal transversal, TTS à commutation de code de bout en bout avec mélange d'enregistrements monolinguaux et génération de paramètres contextuels pour la traduction machine neurale universelle.

Nous fournissons des données pour la comparaison de trois modèles multilingues de texte vocale . Le premier partage l'ensemble de l'encodeur et utilise un classificateur contradictoire pour supprimer les informations dépendantes de l'enceinte de l'encodeur. Le second a des encodeurs distincts pour chaque langue. Enfin, le troisième est notre tentative de combinaison du meilleur des deux approches précédentes, c'est-à-dire un partage de paramètres efficace de la première méthode et de la flexibilité de la seconde. Il a un codeur entièrement convolutionnel avec des paramètres spécifiques au langage générés par un générateur de paramètres . Il utilise également un classificateur de conférences contradictoires qui suit les principes de la formation contradictoire du domaine. Voir l'illustration ci-dessus.

Les démos interactives introduisant les capacités de commutation de code et la formation multilingue conjointe du modèle généré (formé sur un ensemble de données CSS10 amélioré) sont disponibles ici et ici, respectivement.

De nombreux échantillons synthétisés à l'aide des trois modèles comparés sont sur ce site Web. Il contient également quelques échantillons synthétisés par un tacotron à vanille monolingue formé sur la parole LJ avec le Griffin-LIM Vocoder (une vérification de la santé mentale de notre implémentation).

Notre meilleur modèle de prise en charge de code ou de clonage vocal peut être téléchargé ici et le meilleur modèle formé sur l'ensemble de l'ensemble de données CSS10 sans l'ambition de faire un clonage vocal est disponible ici.

En cours d'exécution

Nous allons maintenant montrer comment suivre l'entraînement de notre tacotron multilingue. Nous avons utilisé un vocodeur basé sur le modèle Wavernn, voir ce référentiel pour plus de détails ou utiliser notre modèle pré-formé.

Référentiel de clones

 git clone https://github.com/Tomiinek/Multilingual_Text_to_Speech.git
cd Multilingual_Text_to_Speech

? Installez les exigences Python

 pip3 install -r requirements.txt

⌛ Télécharger des ensembles de données

Téléchargez l'ensemble de données CSS10 (Licence Apache 2.0) et nos données vocales communes nettoyées (Creative Commons CC0).

 cd /project_root/data/css10

Visitez le référentiel CSS10 et téléchargez des données pour toutes les langues. Extraire les archives téléchargées. Par exemple, dans le cas du français, vous devriez voir la structure du dossier suivant:

 data/css10/french/lesmis/
data/css10/french/lupincontresholme/
data/css10/french/transcript.txt

Ensuite, téléchargez notre ensemble de données vocales commune nettoyés:

 cd /project_root/data/comvoi_clean

 wget https://github.com/Tomiinek/Multilingual_Text_to_Speech/releases/download/v1.0/comvoi.zip
unzip -q comvoi.zip -d clean_comvoi
rm comvoi.zip

Préparer les spectrogrammes

Ce référentiel fournit des transcriptions et des méta-fichiers nettoyés et vous avez déjà téléchargé des fichiers .wav correspondants. Cependant, il est pratique de précomputer les spectrogrammes (il accélère l'entraînement). Compte tenu de cela, vous pouvez exécuter un script ad hoc qui créera des spectrogrammes MEL et linéaires pour vous:

 cd /project_root/data/
python3 prepare_css_spectrograms.py

Vous pouvez créer les méta-fichiers, les spectrogrammes et les transcrits phonémifiés pour d'autres ensembles de données en appliquant la méthode TextToSpeechDataset.create_meta_file sur les données téléchargées et extraites d'origine (comme LJ Speech, M-uabs, etc., voir dataset/loaders.py pour les données de données supportées). Notez qu'il est alors nécessaire de diviser le méta-fichier en fichiers train.txt et val.txt .

? Former

Maintenant, nous pouvons suivre une formation. Voir le fichier params/params.py avec une description exhaustive des paramètres. Le dossier params contient également des configurations de paramètres préparés (tels que generated_switching.json ) pour une formation multilingue sur l'ensemble de l'ensemble de données CSS10 et pour la formation de modèles de commutation de code sur l'ensemble de données qui consiste en voix commune nettoyée et cinq langues de CSS10.

Train avec des configurations prédéfinies (recommandées pour un démarrage rapide), par exemple:

 PYTHONIOENCODING=utf-8 python3 train.py --hyper_parameters generated_switching

Veuillez noter l'extension manquante ( .json ).

Ou avec les paramètres par défaut (l'ensemble de données par défaut est un discours LJ):

 PYTHONIOENCODING=utf-8 python3 train.py

Par défaut, les journaux de formation sont enregistrés dans le répertoire logs . Utilisez Tensorboard pour surveiller la formation:

 tensorboard --logdir logs --port 6666 &

? Point de contrôle

Les points de contrôle sont enregistrés dans le répertoire checkpoints par défaut. Ils contiennent des poids du modèle, des paramètres, l'état d'optimiseur et l'état du planificateur. Pour restaurer la formation à partir d'un point de contrôle, disons nommé checkpoints/CHECKPOINT-1 , exécutez:

 PYTHONIOENCODING=utf-8 python3 train.py --checkpoint CHECKPOINT-1

Inférence

Pour générer des spectrogrammes, voir synthesize.py ou interactifs Colab Notebooks (ici et ici). Un exemple d'appel qui utilise un checkpoints/CHECKPOINT-1 et qui enregistre à la fois le spectrogramme synthétisé et la forme d'onde correspondante vocale à l'aide de l'algorithme Griffin-LIM:

 echo "01|Dies ist ein Beispieltext.|00-fr|de" | python3 synthesize.py --checkpoint checkpoints/CHECKPOINT-1 --save_spec

Vocolage

Nous avons utilisé le modèle Wavernn pour vocoding. Vous pouvez télécharger les poids Wavernn pré-formés sur l'ensemble de l'ensemble de données CSS10. Pour des exemples d'utilisation, visitez nos démos interactives (ici et ici) ou ce référentiel.

Structure de code

Veuillez consulter ce fichier pour plus de détails sur le code source contenu et sa structure.

? Citation

 @inproceedings{Nekvinda2020,
  author={Tomáš Nekvinda and Ondřej Dušek},
  title={{One Model, Many Languages: Meta-Learning for Multilingual Text-to-Speech}},
  year=2020,
  booktitle={Proc. Interspeech 2020},
  pages={2972--2976},
  doi={10.21437/Interspeech.2020-2679},
  url={http://dx.doi.org/10.21437/Interspeech.2020-2679}
}

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-08-23
taille 7.91MB
Provenant de Github

Applications connexes

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Moteur d'analyse de données Lihua version gratuite 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout