pflowtts_pytorch Download - pflowtts_pytorch Code source téléchargement

Implémentation non officielle du papier P-Flow: un TTS zéro-shot rapide et économe en données par le biais de la parole par NVIDIA.

Bien que les récents modèles de langage de codec neural à grande échelle aient montré une amélioration significative des TTS zéro en s'entraînant sur des milliers de données, ils souffrent d'inconvénients tels que le manque de robustesse, la vitesse d'échantillonnage lente similaire aux méthodes TTS autorégressives précédentes et la dépendance à l'égard des représentations de codec neural pré-entraînées. Notre travail propose P-Flow, un modèle TTS zéro-shot rapide et économe en données qui utilise des invites de parole pour l'adaptation des haut-parleurs. P-Flow comprend un encodeur de texte composé de parole pour l'adaptation des locuteurs et un décodeur génératif correspondant à l'écoulement pour la synthèse de la parole de haute qualité et rapide. Notre encodeur de texte compliqué par la parole utilise des invites de parole et une entrée de texte pour générer une représentation de texte conditionnelle en haut-parleur. Le décodeur génératif correspondant à l'écoulement utilise la sortie conditionnelle du haut-parleur pour synthétiser la parole personnalisée de haute qualité nettement plus rapide qu'en temps réel. Contrairement aux modèles de langage de codec neural, nous formons spécifiquement le flux P sur les libritts en utilisant une représentation MEL continue. Grâce à notre méthode d'entraînement en utilisant des invites de parole continues, P-Flow correspond aux performances de similitude des haut-parleurs des modèles TTS à grande échelle avec deux ordres de données de magnitude et a plus de 20 × vitesse d'échantillonnage plus rapide. Nos résultats montrent que P-Flow a une meilleure prononciation et est préféré dans la ressemblance humaine et la similitude des orateurs avec ses récents homologues de pointe, définissant ainsi le P-Flow comme une alternative attrayante et souhaitable.

 cd pflowtts_pytorch/notebooks

 import sys
sys . path . append ( '..' )

from pflow . models . pflow_tts import pflowTTS
import torch
from dataclasses import dataclass

@ dataclass
class DurationPredictorParams :
    filter_channels_dp : int
    kernel_size : int
    p_dropout : float

@ dataclass
class EncoderParams :
    n_feats : int
    n_channels : int
    filter_channels : int
    filter_channels_dp : int
    n_heads : int
    n_layers : int
    kernel_size : int
    p_dropout : float
    spk_emb_dim : int
    n_spks : int
    prenet : bool

@ dataclass
class CFMParams :
    name : str
    solver : str
    sigma_min : float

# Example usage
duration_predictor_params = DurationPredictorParams (
    filter_channels_dp = 256 ,
    kernel_size = 3 ,
    p_dropout = 0.1
)

encoder_params = EncoderParams (
    n_feats = 80 ,
    n_channels = 192 ,
    filter_channels = 768 ,
    filter_channels_dp = 256 ,
    n_heads = 2 ,
    n_layers = 6 ,
    kernel_size = 3 ,
    p_dropout = 0.1 ,
    spk_emb_dim = 64 ,
    n_spks = 1 ,
    prenet = True
)

cfm_params = CFMParams (
    name = 'CFM' ,
    solver = 'euler' ,
    sigma_min = 1e-4
)

@ dataclass
class EncoderOverallParams :
    encoder_type : str
    encoder_params : EncoderParams
    duration_predictor_params : DurationPredictorParams

encoder_overall_params = EncoderOverallParams (
    encoder_type = 'RoPE Encoder' ,
    encoder_params = encoder_params ,
    duration_predictor_params = duration_predictor_params
)

@ dataclass
class DecoderParams :
    channels : tuple
    dropout : float
    attention_head_dim : int
    n_blocks : int
    num_mid_blocks : int
    num_heads : int
    act_fn : str

decoder_params = DecoderParams (
    channels = ( 256 , 256 ),
    dropout = 0.05 ,
    attention_head_dim = 64 ,
    n_blocks = 1 ,
    num_mid_blocks = 2 ,
    num_heads = 2 ,
    act_fn = 'snakebeta' ,
)
    
model = pflowTTS (
    n_vocab = 100 ,
    n_feats = 80 ,
    encoder = encoder_overall_params ,
    decoder = decoder_params . __dict__ ,
    cfm = cfm_params ,
    data_statistics = None ,
)

x = torch . randint ( 0 , 100 , ( 4 , 20 ))
x_lengths = torch . randint ( 10 , 20 , ( 4 ,))
y = torch . randn ( 4 , 80 , 500 )
y_lengths = torch . randint ( 300 , 500 , ( 4 ,))

dur_loss , prior_loss , diff_loss , attn = model ( x , x_lengths , y , y_lengths )
# backpropagate the loss 

# now synthesises
x = torch . randint ( 0 , 100 , ( 1 , 20 ))
x_lengths = torch . randint ( 10 , 20 , ( 1 ,))
y_slice = torch . randn ( 1 , 80 , 264 )

model . synthesise ( x , x_lengths , y_slice , n_timesteps = 10 )

conda create -n pflowtts python=3.10 -y
conda activate pflowtts

 cd pflowtts_pytorch
pip install -r requirements.txt

 # Cython-version Monotonoic Alignment Search
python setup.py build_ext --inplace

 train_filelist_path : data/filelists/ljs_audio_text_train_filelist.txt
valid_filelist_path : data/filelists/ljs_audio_text_val_filelist.txt

 ! mkdir -p /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists
! wget -O /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists/ljs_audio_text_test_filelist.txt https://raw.githubusercontent.com/NVIDIA/tacotron2/master/filelists/ljs_audio_text_test_filelist.txt
! wget -O /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists/ljs_audio_text_train_filelist.txt https://raw.githubusercontent.com/NVIDIA/tacotron2/master/filelists/ljs_audio_text_train_filelist.txt
! wget -O /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists/ljs_audio_text_val_filelist.txt https://raw.githubusercontent.com/NVIDIA/tacotron2/master/filelists/ljs_audio_text_val_filelist.txt

! sed -i -- ' s,DUMMY,/home/ubuntu/LJSpeech/LJSpeech-1.1/wavs,g ' /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists/ * .txt

! sed -i -- ' s,train_filelist_path: data/filelists/ljs_audio_text_train_filelist.txt,train_filelist_path: /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists/ljs_audio_text_train_filelist.txt,g ' /home/ubuntu/LJSpeech/pflowtts_pytorch/configs/data/ljspeech.yaml
! sed -i -- ' s,valid_filelist_path: data/filelists/ljs_audio_text_val_filelist.txt,valid_filelist_path: /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists/ljs_audio_text_val_filelist.txt,g ' /home/ubuntu/LJSpeech/pflowtts_pytorch/configs/data/ljspeech.yaml

 cd pflowtts_pytorch/pflow/utils
python generate_data_statistics.py -i ljspeech.yaml
# Output:
#{ ' mel_mean ' : -5.53662231756592, ' mel_std ' : 2.1161014277038574}

Mettez à jour ces valeurs dans configs/data/ljspeech.yaml sous la clé data_statistics .

pflowtts_pytorch

P-Flow: un TTS zéro-shot rapide et économe en données grâce à la parole invitant

Auteurs: Sungwon Kim, Kevin J Shih, Rohan Badlani, Joao Felipe Santos, Evelina Bhakturina, Mikyas desta, Rafael Valle, Sungroh Yoon, Bryan Catanzaro

Affiliations: nvidia

Statut: Ajout d'échantillons plus récents avec une meilleure prosodie et une meilleure prononciation. Consultez le dossier `samples` . LJSPEECH CKPT Pretraind - GDrive Link Multippeaker VCTK CKPT prétrainé (1100 Epoch sur VCTK) - HuggingFace

Crédits

Course à sec

Exécution rapide dans Google Colab

Instructions pour fonctionner

Détails de l'architecture

Todos, fonctionnalités et notes de mise à jour

OpenCore_NO_ACPI_Build

nspanel_pro_tools_apk

zkwork_aleo_gpu_worker

pytorch image models

nextcloud_share_url_downloader

Moteur d'analyse de données Lihua version gratuite 3.0_search_navigation_collection_public opinion_ranking_api

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express