vits mandarin biaobei Téléchargement

vits mandarin biaobei

Code Source AI

1.0.0

Télécharger

VITS: Autoencodeur variationnel conditionnel avec apprentissage contradictoire pour le texte à la fin à la fin à la fin

Jaehyeon Kim, Jungil Kong et Juhee fils

Dans notre article récent, nous proposons des VITS: Autoencoder variationnel conditionnel avec apprentissage contradictoire pour le texte à la vitesse à la disposition de bout en bout.

Plusieurs modèles récents de texte à dispection de bout en bout (TTS) permettant une formation à un étage et un échantillonnage parallèle ont été proposés, mais leur qualité d'échantillon ne correspond pas à celle des systèmes TTS à deux étapes. Dans ce travail, nous présentons une méthode TTS de bout en bout parallèle qui génère un audio de sondage plus naturel que les modèles actuels en deux étapes. Notre méthode adopte l'inférence variationnelle augmentée avec des flux de normalisation et un processus de formation contradictoire, ce qui améliore la puissance expressive de la modélisation générative. Nous proposons également un prédicteur de durée stochastique pour synthétiser la parole avec divers rythmes à partir du texte d'entrée. Avec la modélisation de l'incertitude sur les variables latentes et le prédicteur de la durée stochastique, notre méthode exprime la relation naturelle un à plusieurs dans laquelle une entrée de texte peut être parlée de plusieurs manières avec différentes hauteurs et rythmes. Une évaluation humaine subjective (score d'opinion moyen, ou MOS) sur le discours LJ, un ensemble de données de haut-parleur, montre que notre méthode surpasse les meilleurs systèmes TTS accessibles au public et atteint un MOS comparable à la vérité au sol.

Visitez notre démo pour des échantillons audio.

Nous fournissons également les modèles pré-entraînés.

** Mise à jour Remarque: Grâce à Rishikesh (ऋषिकेश), notre démo TTS interactive est maintenant disponible sur Colab Notebook.

VITS À LA FORMATION	Vit à l'inférence

Pré-requis

Python> = 3,6
Cloner ce référentiel
Installez les exigences Python. Veuillez référer les exigences.txt
1. Vous devrez peut-être installer Espeak d'abord: apt-get install espeak
Télécharger des ensembles de données
1. Télécharger et extraire l'ensemble de données LJ Speech, puis renommer ou créer un lien vers le dossier de l'ensemble de données: ln -s /path/to/LJSpeech-1.1/wavs DUMMY1
2. Pour les réglages multiples, téléchargez et extraire l'ensemble de données VCTK et réduisez les fichiers WAV à 22050 Hz. Puis renommer ou créer un lien vers le dossier de jeu de données: ln -s /path/to/VCTK-Corpus/downsampled_wavs DUMMY2
Créez la recherche d'alignement monotonique et exécutez le prétraitement si vous utilisez vos propres ensembles de données.

 # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace

# Preprocessing (g2p) for your own datasets. Preprocessed phonemes for LJ Speech and VCTK have been already provided.
# python preprocess.py --text_index 1 --filelists filelists/ljs_audio_text_train_filelist.txt filelists/ljs_audio_text_val_filelist.txt filelists/ljs_audio_text_test_filelist.txt 
# python preprocess.py --text_index 2 --filelists filelists/vctk_audio_sid_text_train_filelist.txt filelists/vctk_audio_sid_text_val_filelist.txt filelists/vctk_audio_sid_text_test_filelist.txt

Formation exmaple

 # LJ Speech
python train.py -c configs/ljs_base.json -m ljs_base

# VCTK
python train_ms.py -c configs/vctk_base.json -m vctk_base

Exemple d'inférence

Voir inférence.Ipynb

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-08-24
taille 963.36KB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
BLAGUE

2024-02-26

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout