vits2_pytorch Télécharger - vits2_pytorch CODE SOURCE Téléchargement

vits2_pytorch

Code Source AI

1.0.0

Télécharger

VITS2: Amélioration de la qualité et de l'efficacité du texte à dispection à un étage avec apprentissage contradictoire et conception d'architecture

Jungil Kong, Jihoon Park, Beomjeong Kim, Jeongmin Kim, Dohee Kong, Sangjin Kim

Mise en œuvre non officielle du papier VITS2, suite du papier VITS. (Merci aux auteurs pour leur travail!)

Texte alt

Les modèles de texte à dissolution à un étage ont été activement étudiés récemment et leurs résultats ont surpassé les systèmes de pipelines à deux étapes. Bien que le modèle précédent à un stade ait fait de grands progrès, il y a une place à l'amélioration en termes de sa nature intermittente, de son efficacité de calcul et de sa forte dépendance à la conversion des phonèmes. Dans ce travail, nous introduisons VITS2, un modèle de texte à dispection à un étage qui synthétise efficacement un discours plus naturel en améliorant plusieurs aspects des travaux précédents. Nous proposons des structures et des mécanismes d'entraînement améliorés et présentons que les méthodes proposées sont efficaces pour améliorer le naturel, la similitude des caractéristiques de la parole dans un modèle multi-haut-parleurs et l'efficacité de l'entraînement et de l'inférence. En outre, nous démontrons que la forte dépendance à la conversion des phonèmes dans les travaux précédents peut être considérablement réduite avec notre méthode, ce qui permet une approche en un seul étage de bout en bout.

Crédits

Nous allons construire ce référentiel en fonction du repo VITS. L'objectif est de rendre ce modèle plus facile à transférer l'apprentissage à partir du modèle pré-entraîné!
(08-17-2023) - Les auteurs ont été vraiment gentils pour me guider à travers l'article et répondre à mes questions. Je suis ouvert à discuter de tout changement ou de répondre aux questions concernant la mise en œuvre. N'hésitez pas à ouvrir un problème ou à me contacter directement.

Points de contrôle pré-entraînés

LjSpeech-no-sdp (reportez-vous à config.yaml dans ce dossier CheckPPoint) | 64K étapes | Preuve que la formation fonctionne! Je recommanderais des experts à renommer les CKPT à * _0.pth et à démarrer la formation en utilisant l'apprentissage du transfert. (J'ajouterai un ordinateur portable pour cela bientôt pour aider les débutants).
Vérifiez la page «Discussion» pour les journaux de formation et les liens de tensorboard et autres contributions communautaires.

Échantillon

Échantillons de modèles formés russes # 32. Merci à @shigabeev pour avoir partagé les échantillons.
Quelques échantillons sur la page de discussion de l'ensemble de données non indigènes. Merci à @athenasaurav pour avoir utilisé ses ressources GPU privées et ses ensembles de données!
Ajout d'échantillons audio @ 104k étapes. ljSpeech-nosdp; tensorboard
Échantillons vietnamiens grâce à @ Ductho9799 pour le partage!

Condition préalable

Python> = 3.10
Testé sur Pytorch version 1.13.1 avec Google Colab et Lambdalabs Cloud.
Cloner ce référentiel
Installez les exigences Python. Veuillez référer les exigences.txt
1. Vous devrez peut-être installer Espeak d'abord: apt-get install espeak
Télécharger des ensembles de données
1. Télécharger et extraire l'ensemble de données LJ Speech, puis renommer ou créer un lien vers le dossier de l'ensemble de données: ln -s /path/to/LJSpeech-1.1/wavs DUMMY1
2. Pour les réglages multiples, téléchargez et extraire l'ensemble de données VCTK et réduisez les fichiers WAV à 22050 Hz. Puis renommer ou créer un lien vers le dossier de jeu de données: ln -s /path/to/VCTK-Corpus/downsampled_wavs DUMMY2
Créez la recherche d'alignement monotonique et exécutez le prétraitement si vous utilisez vos propres ensembles de données.

 # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace

# Preprocessing (g2p) for your own datasets. Preprocessed phonemes for LJ Speech and VCTK have been already provided.
# python preprocess.py --text_index 1 --filelists filelists/ljs_audio_text_train_filelist.txt filelists/ljs_audio_text_val_filelist.txt filelists/ljs_audio_text_test_filelist.txt 
# python preprocess.py --text_index 2 --filelists filelists/vctk_audio_sid_text_train_filelist.txt filelists/vctk_audio_sid_text_val_filelist.txt filelists/vctk_audio_sid_text_test_filelist.txt

Comment courir (run à sec)

Modèle de passe avant (run à sec)

 import torch
from models import SynthesizerTrn

net_g = SynthesizerTrn (
    n_vocab = 256 ,
    spec_channels = 80 , # <--- vits2 parameter (changed from 513 to 80)
    segment_size = 8192 ,
    inter_channels = 192 ,
    hidden_channels = 192 ,
    filter_channels = 768 ,
    n_heads = 2 ,
    n_layers = 6 ,
    kernel_size = 3 ,
    p_dropout = 0.1 ,
    resblock = "1" , 
    resblock_kernel_sizes = [ 3 , 7 , 11 ],
    resblock_dilation_sizes = [[ 1 , 3 , 5 ], [ 1 , 3 , 5 ], [ 1 , 3 , 5 ]],
    upsample_rates = [ 8 , 8 , 2 , 2 ],
    upsample_initial_channel = 512 ,
    upsample_kernel_sizes = [ 16 , 16 , 4 , 4 ],
    n_speakers = 0 ,
    gin_channels = 0 ,
    use_sdp = True , 
    use_transformer_flows = True , # <--- vits2 parameter
    # (choose from "pre_conv", "fft", "mono_layer_inter_residual", "mono_layer_post_residual")
    transformer_flow_type = "fft" , # <--- vits2 parameter 
    use_spk_conditioned_encoder = True , # <--- vits2 parameter
    use_noise_scaled_mas = True , # <--- vits2 parameter
    use_duration_discriminator = True , # <--- vits2 parameter
)

x = torch . LongTensor ([[ 1 , 2 , 3 ],[ 4 , 5 , 6 ]]) # token ids
x_lengths = torch . LongTensor ([ 3 , 2 ]) # token lengths
y = torch . randn ( 2 , 80 , 100 ) # mel spectrograms
y_lengths = torch . Tensor ([ 100 , 80 ]) # mel spectrogram lengths

net_g (
    x = x ,
    x_lengths = x_lengths ,
    y = y ,
    y_lengths = y_lengths ,
)

# calculate loss and backpropagate

Exemple de formation

 # LJ Speech
python train.py -c configs/vits2_ljs_nosdp.json -m ljs_base # no-sdp; (recommended)
python train.py -c configs/vits2_ljs_base.json -m ljs_base # with sdp;

# VCTK
python train_ms.py -c configs/vits2_vctk_base.json -m vctk_base

# for onnx export of trained models
python export_onnx.py --model-path= " G_64000.pth " --config-path= " config.json " --output= " vits2.onnx "
python infer_onnx.py --model= " vits2.onnx " --config-path= " config.json " --output-wav-path= " output.wav " --text= " hello world, how are you? "

Todos, fonctionnalités et notes

Prédicteur de durée (figure 1A)

Ajout du discriminateur LSTM au prédicteur de durée.
Ajout d'une perte adversaire au prédicteur de durée. ("use_duration_discriminator" Indicateur dans le fichier config; par défaut est "vrai")
Recherche d'alignement monotonique avec le bruit gaussien ajouté; peut nécessiter une vérification d'experts (section 2.2)
Ajout de l'indicateur "use_noise_scaled_mas" dans le fichier config. Choisissez parmi True ou False; met à jour le bruit pendant la formation en fonction du nombre d'étapes et ne dépasse jamais 0,0
Mettre à jour les modèles.py/train.py/train_ms.py
Mettre à jour les fichiers de configuration (vits2_vctk_base.json; vits2_ljs_base.json)
Mettre à jour les pertes dans Train.py et Train_ms.py

Bloc de transformateur dans le flux de normalisation (figure 1b)

Ajout d'un bloc de transformateur au flux de normalisation. Il existe trois types de blocs de transformateurs: la pré-convolution (mon implémentation), la FFT (à partir du repo SO-Vits-Svc) et le mono-couche.
Ajout de l'indicateur "transformateur_flow_type" dans le fichier de configuration. Choisissez parmi "pre_conv", "fft", "mono_layer_inter_residual", "mono_layer_post_residual".
Des couches et des blocs ajoutés dans Models.py (résiduelCouplingTransForgersLayer, résiduelCouplingTransformrsBlock, fftransformerCouplinglayer, monotransformèreflowlayer)
Ajouter un fichier de configuration (vits2_ljs_base.json; peut être activé à l'aide de "use_transformer_flows"

Encodeur de texte conditionné par le haut-parleur (figure 1C)

Ajout de haut-parleur incorporant au codeur de texte dans Models.py (TextEncoder; en arrière compatible avec les vites)
Ajouter un fichier de configuration (vits2_ljs_base.json; peut être activé en utilisant "use_spk_conditioned_encoder"

Encodeur postérieur du spectrogramme de MEL (section 3)

Encodeur postérieur du spectrogramme Mel ajouté dans Train.py
Ajouter un nouveau fichier de configuration (vits2_ljs_base.json; peut être activé en utilisant "use_mel_poterior_encoder"
«Data_utils.py 'mis à jour pour utiliser l'indicateur" use_mel_poterior_encoder "pour VITS2

Scripts de formation

Ajout de drapeaux VITS2 à Train.py (modèle unique)
Ajout de drapeaux VITS2 à Train_ms.py (modèle multi-haut-parleurs)

Exportation ONNX

Ajoutez une prise en charge d'exportation ONNX.

Demo Gradio

Ajoutez un support de démonstration Gradio.

Mentions spéciales

@erogol pour des commentaires et des conseils rapides. (S'il vous plaît, vérifiez son impressionnant Coquitts Repo).
@lexkoro pour les discussions et aider à la formation du prototype.
@ Manmay-Nakhashi pour les discussions et aide avec le code.
@athenasaurav pour offrir un soutien au GPU à la formation.
@ w11wo pour le support ONNX.
@Subarasheese pour Gradio UI.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-08-20
taille 5.59MB
Provenant de Github

Applications connexes

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
pytorch image models

2024-11-03
nextcloud_share_url_downloader

2024-11-01
Moteur d'analyse de données Lihua version gratuite 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout