reformer tts Download - reformer tts Source Téléchargement

reformer tts

Code Source AI

Initial release - project submission

Télécharger

Réformateur-TTS

Une adaptation du réformateur: le transformateur efficace pour la tâche de texte vocale.

Ce projet contient:

Code de prétraitement pour créer un ensemble de données de discours Trump basé sur les transcriptions de Rev.com
Mise en œuvre du réformateur TTS: Une adaptation du réformateur: le transformateur efficace pour la tâche de texte vocale, basé sur la synthèse de la parole neuronale avec le réseau de transformateur
Mise en œuvre de Squeezewave: des vocodeurs extrêmement légers pour la synthèse de la parole sur les appareils dans le pytorch moderne, sans dépendances sur le tacotron2, le wavenet ou les coups d'onde
Emballages de foudre Pytorch pour une formation facile des deux modèles avec une gestion de configuration facile à utiliser
CLI pour la gestion de la formation, de l'inférence et du prétraitement des données

Portée du projet et statut actuel

Nous avons visé à créer une version beaucoup plus efficace du modèle de texte vocale de pointe, en remplaçant son architecture de transformateur par des optimisations proposées dans le document de réformateur plus récent. Nous allons l'utiliser pour générer une profondeur crédible de Donald Trump sur la base d'un ensemble de données personnalisé de ses discours, créé spécifiquement à cet effet.

Malheureusement, nous n'avons pas pu produire de résultats correspondant à ceux du papier TTS Transformer, après avoir expérimenté plus de 100 combinaisons d'hyperparamètre sur 2 mois. Nous pensons que la taille du modèle est un facteur important ici, et pour former des transformateurs pour TTS, il faut vraiment réduire le sur-ajustement pour permettre un processus de formation régulier et régulier (~ 1 semaine de formation sur RTX 2080TI).

De plus, avoir accès à la mise en œuvre originale de Transformer TTS aiderait grandement.

Bien que le réformateur ne correspondait pas à nos attentes, la mise en œuvre de Squeezewave correspond aux performances de l'original sans support FP16.

Nous incluons également la CLI pour l'exécution de la formation et de l'inférence (voir la section d'utilisation ) et toutes les données nécessaires à la reproduction des expériences (voir section de développement ).

Le projet est sous un refacteur important, cette version est laissée ici pour permettre la compatilité avec nos expeirments précédents et sera déplacée dans un avenir proche .

Documents supplémentaires

Présentation et diapositives finales
journal de projet
Doc de recherche

En utilisant le projet

Ce projet est un package Python normal et peut être installé à l'aide de pip , tant que vous avez Python 3.8 ou plus .

Accédez à la page des versions pour trouver l'instruction d'installation pour la dernière version.

Après l'installation, vous pouvez voir les commandes disponibles en exécutant:

python -m reformer_tts.cli --help

Toutes les commandes sont exécutées à l'aide de CLI, par exemple:

python -m reformer_tts.cli train-vocoder

La plupart des paramètres (en particulier, tous les hyperparamètres de formation) sont spécifiés via un argument --config à cli (qui passe avant la commande que vous souhaitez exécuter), par exemple:

python -m reformer_tts.cli -c /path/to/your/config.yml train-vocoder

Les valeurs par défaut peuvent être trouvées dans reformer_tts.config.Config (et ses champs).

Configuration du développement

1. Installez les dépendances

Utilisation de conda

Grâce à la communauté de Conda-Forge, nous pouvons installer tous les packages (y compris les binaires nécessaires, comme ffmpeg ) en utilisant une commande.

conda env create -f environment.yml

Utilisation d'autres gestionnaires de packages

Vérifiez votre environnement et assurez-vous d'avoir Python>=3.8 :

which python
python --version

Installez les dépendances Python (installe également notre package en mode modifiable):

pip install -r requirements.txt

Assurez-vous que vous avez ffmpeg>=3.4,<4.0 installé (instructions d'installation)
Pour la formation, assurez-vous que les pilotes CUDA et GPU sont installés (pour plus de détails, consultez les instructions sur le site Web de Pytorch)

2. Configurer les outils

Pour que DVC ait un accès en écriture à la télécommande, configurez votre compte GCP (en utilisant des informations d'identification à partir du fichier JSON généré):

 export GOOGLE_APPLICATION_CREDENTIALS=/path/to/your/service-account-credentials.json

Remarque: si vous n'avez besoin que de lire les acces (pour la reproduction), vous n'avez pas besoin d'effectuer l'étape 1

Obtenez toutes les données - cette étape doit être répétée:
- Chaque fois que vous commencez à travailler après une pause
- Après chaque traction Git
- Après avoir vérifié une autre branche Git

dvc pull

3. Vérifiez si la configuration est correcte

Pour ce faire, vous pouvez exécuter des tests de projet:

python -m pytest --pyargs reformer_tts

Tous les tests doivent fonctionner sur le processeur et le GPU, et peuvent prendre jusqu'à une minute pour terminer.

N'oubliez pas de passer --pyargs reformer_tts à pytest, sinon il recherchera les répertoires de données pour les tests

Détails de la configuration

Utilisez le gestionnaire de packages que vous souhaitez
Utilisez Python>=3.8
Toutes les dépendances Python seront dans requirements.txt ainsi que dans environment.yml
Un point d'entrée central pour l'exécution des tâches: reformer_tts/cli.py , exécutez python reformer_tts/cli.py --help pour référence détaillée

Configuration

La configuration est organisée en structures de classe de données:

Chaque sous-module de projet a son propre fichier de configuration, appelé config.py , où les paramètres et les valeurs par défaut sont définis - par exemple, les paramètres de configuration de données sont spécifiés dans reformer_tts.dataset.config
La classe reformer_tts.config.Config contient tous les paramètres de configuration de tous les sous-modules
Les valeurs réelles des paramètres de configuration sont chargées à partir des fichiers de configuration au format YAML, la meilleure pratique consiste à remplacer les défaillances uniquement dans les fichiers YAML

De cette façon, les valeurs par défaut sont définies près de l'endroit où elles sont utilisées, toute valeur de configuration peut être remplacée où vous le souhaitez

Pour modifier la configuration d'exécution

Générez automatiquement la configuration avec des valeurs par défaut à l'aide de la commande python reformer_tts/cli.py save-config -o config/custom.yml ou copiez manuellement l'un des fichiers de configuration existants dans config/ répertoire
supprimer les paramètres que vous ne souhaitez pas changer à partir du fichier de configuration généré
Modifier les valeurs que vous souhaitez modifier dans le fichier de configuration généré
Spécifiez votre configuration lors de l'exécution de scripts CLI à l'aide de l'option -c , c'est-à-dire: python reformer_tts/cli.py -c config/custom.yml [COMMAND]

Pour ajouter la configuration pour un nouveau module

créer config.py dans votre module
Définissez une classe de données avec tous les paramètres de configuration nécessaires dans le nouveau fichier:
- Assurez-vous que votre classe ne redéfinit pas les valeurs de paramètres pour d'autres fichiers de configuration (c.-à-d. Nous avons spécifié le nombre de canaux de spectrogramme uniquement une fois - au même endroit pour les modules de jeu dataset et squeezewave )
- Assurez-vous que votre classe a des valeurs par défaut pour tous les paramètres
Ajoutez un champ pour votre classe de données dans la classe de configuration principale reformer_tts.config

Dépendances des données

Nous utilisons DVC pour définir des pipelines de traitement des données. Remote est configuré sur Google Cloud Storage, pour plus de détails, exécutez dvc config list .

Configuration de l'exécution de travaux sur le cluster d'entropie

Nœuds préparés à la course:

asusgpu3
asusgpu4
asusgpu1
arnold
Sylvester

Running Trainig sur le nœud avec Homedir

Clone Repo à votre Homedir
Assurez-vous que le chemin du jeu de données est configuré dans /scidatalg
Configuration de la commande pour appeler le fichier de votre homedir
Engager vos modifications
Exécuter le script sbatch

Running Training sur un nœud spécifique sans Homedir

Avant de courir:

Choisissez le nœud à partir de déjà préparé ou en préparez-vous en utilisant des instructions ci-dessous
Copier le référentiel dans votre Dir à domicile
Assurez-vous que le jeton API Neptune est défini dans votre environnement

Pour exécuter la formation:

Préparer la configuration de la formation et le pousser sur le référentiel distant
Connectez-vous au nœud choisi en utilisant la session interactive srun --qos=gsn --partition=common --nodelist=<name_of_chosen_node> --pty /bin/bash
goto /scidatalg/reformer-tts/reformer-tts/ assurez-vous que le référentiel est tiré et sur une branche appropriée
Connectez-vous au nœud de connexion
Copier et modifier jobs/train_entropy.sbatch - Remplissez le nom du nœud et la commande de formation
Exécutez sbatch your/job/script/location.sbatch

Pro-pointer watch -n 1 squeue -u your_username to watch si votre travail exécute déjà pro tip2, vous pouvez regarder les mises à jour du journal en exécutant tail -f file.log ou less --follow-name +F file.log

Tirez de DVC

Pour tirer de DVC, utilisez jobs/entropy_dvc_pull.sbatch .

Copiez ce fichier
Remplissez le nom du nœud
Ajuster la commande DVC
Exécuter le travail à l'aide de SBatch

NOUVELLE PRÉPARATION DE NODE

Puisque le répertoire / Scidatasm ne se synchronise pas pendant que nous voulons nous entraîner, nous devons configurer la formation sur chaque nœud séparément à la main. Pour configurer Env sur un nouveau nœud, suivez ces instuces:

Remarque : Seuls les nœuds avec / Scidatalg sont pris en charge par ces scripts. Ces nœuds sont: ASUSGPU4, ASUSGPU3, ASUSGPU2, ASUSGPU1, ARNOLD, SYLVESTER

Connectez-vous au nœud en utilisant la session interactive srun --qos=gsn --partition=common --nodelist=<name_of_chosen_node> --pty /bin/bash
Copiez les informations d'identification Google de l'API à ${HOME}/gcp-cred.json (en utilisant votre éditeur préféré)
Copiez le contenu de scripts/setup_entropy_node.sh dans un nouveau fichier dans le Dir à domicile (à nouveau en utilisant l'éditeur)
Exécuter le script copié

Développer

Informations supplémentaires

Version Initial release - project submission
Type Code Source AI
Date de mise à jour 2025-08-24
taille 129.95KB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
F5 TTS ComfyUI

2024-11-02
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Informations en anglais sur le développement vocal (TTS User Guide Delphi version)

2009-05-28

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout