dc_tts Téléchargement - dc_tts Code source Télécharger

dc_tts

Code Source AI

1.0.0

Télécharger

Une implémentation TensorFlow de DC-TTS: encore un autre modèle de texte vocal

J'implémente un autre modèle de texte vocal, DC-TTS, introduit dans un système de texte vocal à dispection efficace basé sur des réseaux de convolution profonde avec une attention guidée. Mon objectif, cependant, n'est pas seulement de reproduire le papier. J'aimerais plutôt obtenir des informations sur divers projets sonores.

Exigences

Numpy> = 1.11.1
Tensorflow> = 1.3 (notez que l'API de tf.contrib.layers.layer_norm a changé depuis 1.3)
bibliothèque
tqdm
matplotlib
cavalier

Données

Je forme des modèles en anglais et un modèle coréen sur quatre ensembles de données vocaux différents.

1. Ensemble de données de discours LJ
2. Les livres audio de Nick Offerman
3. Look audio de Kate Winslet
4. ensemble de données KSS

L'ensemble de données de la parole LJ est récemment largement utilisé comme ensemble de données de référence dans la tâche TTS car il est accessible au public, et il a 24 heures d'échantillons de qualité raisonnable. Les livres audio de Nick et Kate sont également utilisés pour voir si le modèle peut apprendre même avec moins de données, des échantillons de parole variables. Ils durent respectivement 18 heures et 5 heures. Enfin, l'ensemble de données KSS est un ensemble de données de discours de haut-parleur unique coréen qui dure plus de 12 heures.

Entraînement

Étape 0. Téléchargez un ensemble de données LJ Speech ou préparez vos propres données.
Étape 1. Ajustez les paramètres hyper dans hyperparams.py . (Si vous voulez faire du prétraitement, définissez Prepro True`.
Étape 2. Exécutez python train.py 1 pour la formation Text2Mel. (Si vous définissez Prepro True, exécutez Python Prepro.py d'abord)
Étape 3. Exécutez python train.py 2 pour la formation SSRN.

Vous pouvez faire les étapes 2 et 3 en même temps, si vous avez plus d'une carte GPU.

Courbes de formation

L'attention

Exemple de synthèse

Je génère des échantillons de discours basés sur les phrases de Harvard comme le fait le papier d'origine. Il est déjà inclus dans le dépôt.

Exécutez synthesize.py et vérifiez les fichiers dans samples .

Échantillons générés

Ensemble de données	Échantillons
LJ	50K 200K 310K 800K
Entaille	40K 170K 300K 800K
Kate	40K 160K 300K 800K
KSS	400k

Modèle pré-entraîné pour LJ

Téléchargez ce.

Notes

Le document n'a pas mentionné la normalisation, mais sans normalisation, je n'ai pas pu le faire fonctionner. J'ai donc ajouté la normalisation des calques.
Le papier a fixé le taux d'apprentissage à 0,001, mais cela n'a pas fonctionné pour moi. Alors je l'ai décomposé.
J'ai essayé de former Sext2Mel et SSRN simultanément, mais cela n'a pas fonctionné. Je suppose que la séparation de ces deux réseaux atténue le fardeau de la formation.
Les auteurs ont affirmé que le modèle pouvait être formé en une journée, mais malheureusement, la chance n'était pas la mienne. Cependant, c'est évidemment beaucoup de toile de toilette que le tacotron car il n'utilise que des couches de convolution.
Grâce à l'attention guidée, l'intrigue d'attention semble monotone presque depuis le début. Je suppose que cela semble garder l'aligment serré pour qu'il ne perde pas de trace.
Le journal n'a pas mentionné les décrocheurs. Je les ai appliqués car je crois que cela aide à la régularisation.
Vérifiez également d'autres modèles TTS tels que Tacotron et Deep Voice 3.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-08-23
taille 3.08MB
Provenant de Github

Applications connexes

F5 TTS ComfyUI

2024-11-02
Jeu DC Légion des Ténèbres

2024-04-29
Jeu mobile DC Légion des Ténèbres

2024-04-27
Armée des Ténèbres DC

2023-07-17
Armée des Ténèbres DC

2023-07-17
Version Roi des Combattants 98dc

2023-04-21

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout