Descargar pflowtts_pytorch - Código fuente de pflowtts

Implementación no oficial del documento P-Flow: un TTS de disparo cero rápido y eficiente en datos a través de la solicitud de habla por NVIDIA.

Si bien los recientes modelos de lenguaje de códec de códecs neural a gran escala han mostrado una mejora significativa en TTS de disparo cero mediante el entrenamiento en miles de horas de datos, sufren inconvenientes como la falta de robustez, la velocidad de muestreo lenta similar a los métodos TTS autorregresivos previos y la dependencia de las representaciones de códigos neurales previamente capacitados. Nuestro trabajo propone P-Flow, un modelo TTS de disparo cero rápido y eficiente en datos que utiliza indicaciones del habla para la adaptación del altavoz. P-Flow comprende un codificador de texto controlado por el habla para la adaptación de los hablantes y un decodificador generativo de flujo para la síntesis de voz rápida y de alta calidad. Nuestro codificador de texto prometido por el habla utiliza indicaciones del habla y la entrada de texto para generar una representación de texto condicional de los altavoces. El decodificador generativo que coincide con el flujo utiliza la salida condicional del altavoz para sintetizar el habla personalizada de alta calidad significativamente más rápido que en tiempo real. A diferencia de los modelos de lenguaje de códec neural, capacitamos específicamente a P-Flow en el conjunto de datos de Libritts utilizando una representación continua de MEL. A través de nuestro método de entrenamiento utilizando indicaciones continuas del habla, P-Flow coincide con el rendimiento de similitud del altavoz de los modelos TTS de disparo cero a gran escala con dos órdenes de magnitud menos datos de entrenamiento y tiene una velocidad de muestreo más rápida de 20 ×. Nuestros resultados muestran que P-Flow tiene una mejor pronunciación y se prefiere a la semejanza humana y la similitud de los oradores con sus recientes homólogos de última generación, definiendo así P-Flow como una alternativa atractiva y deseable.

 cd pflowtts_pytorch/notebooks

 import sys
sys . path . append ( '..' )

from pflow . models . pflow_tts import pflowTTS
import torch
from dataclasses import dataclass

@ dataclass
class DurationPredictorParams :
    filter_channels_dp : int
    kernel_size : int
    p_dropout : float

@ dataclass
class EncoderParams :
    n_feats : int
    n_channels : int
    filter_channels : int
    filter_channels_dp : int
    n_heads : int
    n_layers : int
    kernel_size : int
    p_dropout : float
    spk_emb_dim : int
    n_spks : int
    prenet : bool

@ dataclass
class CFMParams :
    name : str
    solver : str
    sigma_min : float

# Example usage
duration_predictor_params = DurationPredictorParams (
    filter_channels_dp = 256 ,
    kernel_size = 3 ,
    p_dropout = 0.1
)

encoder_params = EncoderParams (
    n_feats = 80 ,
    n_channels = 192 ,
    filter_channels = 768 ,
    filter_channels_dp = 256 ,
    n_heads = 2 ,
    n_layers = 6 ,
    kernel_size = 3 ,
    p_dropout = 0.1 ,
    spk_emb_dim = 64 ,
    n_spks = 1 ,
    prenet = True
)

cfm_params = CFMParams (
    name = 'CFM' ,
    solver = 'euler' ,
    sigma_min = 1e-4
)

@ dataclass
class EncoderOverallParams :
    encoder_type : str
    encoder_params : EncoderParams
    duration_predictor_params : DurationPredictorParams

encoder_overall_params = EncoderOverallParams (
    encoder_type = 'RoPE Encoder' ,
    encoder_params = encoder_params ,
    duration_predictor_params = duration_predictor_params
)

@ dataclass
class DecoderParams :
    channels : tuple
    dropout : float
    attention_head_dim : int
    n_blocks : int
    num_mid_blocks : int
    num_heads : int
    act_fn : str

decoder_params = DecoderParams (
    channels = ( 256 , 256 ),
    dropout = 0.05 ,
    attention_head_dim = 64 ,
    n_blocks = 1 ,
    num_mid_blocks = 2 ,
    num_heads = 2 ,
    act_fn = 'snakebeta' ,
)
    
model = pflowTTS (
    n_vocab = 100 ,
    n_feats = 80 ,
    encoder = encoder_overall_params ,
    decoder = decoder_params . __dict__ ,
    cfm = cfm_params ,
    data_statistics = None ,
)

x = torch . randint ( 0 , 100 , ( 4 , 20 ))
x_lengths = torch . randint ( 10 , 20 , ( 4 ,))
y = torch . randn ( 4 , 80 , 500 )
y_lengths = torch . randint ( 300 , 500 , ( 4 ,))

dur_loss , prior_loss , diff_loss , attn = model ( x , x_lengths , y , y_lengths )
# backpropagate the loss 

# now synthesises
x = torch . randint ( 0 , 100 , ( 1 , 20 ))
x_lengths = torch . randint ( 10 , 20 , ( 1 ,))
y_slice = torch . randn ( 1 , 80 , 264 )

model . synthesise ( x , x_lengths , y_slice , n_timesteps = 10 )

conda create -n pflowtts python=3.10 -y
conda activate pflowtts

Permanezca en el directorio de la raíz (¡por supuesto, clona el repositorio primero!)

 cd pflowtts_pytorch
pip install -r requirements.txt

 # Cython-version Monotonoic Alignment Search
python setup.py build_ext --inplace

 train_filelist_path : data/filelists/ljs_audio_text_train_filelist.txt
valid_filelist_path : data/filelists/ljs_audio_text_val_filelist.txt

 ! mkdir -p /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists
! wget -O /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists/ljs_audio_text_test_filelist.txt https://raw.githubusercontent.com/NVIDIA/tacotron2/master/filelists/ljs_audio_text_test_filelist.txt
! wget -O /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists/ljs_audio_text_train_filelist.txt https://raw.githubusercontent.com/NVIDIA/tacotron2/master/filelists/ljs_audio_text_train_filelist.txt
! wget -O /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists/ljs_audio_text_val_filelist.txt https://raw.githubusercontent.com/NVIDIA/tacotron2/master/filelists/ljs_audio_text_val_filelist.txt

! sed -i -- ' s,DUMMY,/home/ubuntu/LJSpeech/LJSpeech-1.1/wavs,g ' /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists/ * .txt

! sed -i -- ' s,train_filelist_path: data/filelists/ljs_audio_text_train_filelist.txt,train_filelist_path: /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists/ljs_audio_text_train_filelist.txt,g ' /home/ubuntu/LJSpeech/pflowtts_pytorch/configs/data/ljspeech.yaml
! sed -i -- ' s,valid_filelist_path: data/filelists/ljs_audio_text_val_filelist.txt,valid_filelist_path: /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists/ljs_audio_text_val_filelist.txt,g ' /home/ubuntu/LJSpeech/pflowtts_pytorch/configs/data/ljspeech.yaml

 cd pflowtts_pytorch/pflow/utils
python generate_data_statistics.py -i ljspeech.yaml
# Output:
#{ ' mel_mean ' : -5.53662231756592, ' mel_std ' : 2.1161014277038574}

Actualice estos valores en configs/data/ljspeech.yaml en la tecla data_statistics .

pflowtts_pytorch

P-Flow: un TTS de disparo cero rápido y eficiente en datos a través de la solicitud del habla

Autores: Sungwon Kim, Kevin J Shih, Rohan Badlani, Joao Felipe Santos, Evelina Bhakturina, Mikyas Desta, Rafael Valle, Sungroh Yoon, Bryan Catanzaro

Afiliaciones: Nvidia

Estado: agregó muestras más nuevas con mejor prosodia y pronunciación. Echa un vistazo a la carpeta `samples` . LJSPEECH Pretraned CKPT - GDRive Link Multispeaker VCTK Pretrados

Créditos

Carrera seca

Corriente rápida en Google Colab

Instrucciones para ejecutar

Detalles de la arquitectura

TODOS, características y notas de actualización

OpenCore_NO_ACPI_Build

nspanel_pro_tools_apk

zkwork_aleo_gpu_worker

pytorch image models

nextcloud_share_url_downloader

Motor de análisis de datos Lihua versión gratuita 3.0_search_navigation_collection_public opinion_ranking_api

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express