pflowtts_pytorchダウンロードpflowtts_pytorchソースコードダウンロード

P-flow：音声プロンプトを介した高速でデータ効率の高いゼロショットTTS

著者：Sungwon Kim、Kevin J Shih、Rohan Badlani、Joao Felipe Santos、Evelina Bhakturina、Mikyas Desta、Rafael Valle、Sungroh Yoon、Bryan Catanzaro

提携：nvidia

ステータス：より良い韻律と発音を備えた新しいサンプルを追加しました。 `samples`フォルダーをご覧ください。 ljspeech事前に処理されたckpt -gdriveリンクマルチスピーカーvctk事前に処理されたckpt（vctk上の1100エポック）-huggingface

Paper P-flowの非公式の実装：Nvidiaによる音声促進による高速でデータ効率の高いゼロショットTTS。

P-flow

最近の大規模なニューラルコーデック言語モデルは、数千時間のデータをトレーニングすることでゼロショットTTSの大幅な改善を示していますが、堅牢性の欠如、以前の自己回帰TTS方法と同様の遅いサンプリング速度、および訓練されたニューラルコーデック表現への依存などの欠点に苦しんでいます。私たちの仕事は、スピーカーの適応に音声プロンプトを使用する高速でデータ効率の高いゼロショットTTSモデルであるP-Flowを提案しています。 P-flowは、スピーカーの適応のためのSpeechprompted Text Encoderと、高品質で高速の音声合成のためのフローに合う生成デコーダーを含む。スピーチがプロンプトしたテキストエンコーダーは、音声プロンプトとテキスト入力を使用して、スピーカーの条件付きテキスト表現を生成します。フローマッチング生成デコーダーは、スピーカーの条件付き出力を使用して、高品質のパーソナライズされた音声をリアルタイムよりも大幅に速く合成します。ニューラルコーデック言語モデルとは異なり、連続的なMEL表現を使用して、LibrittsデータセットでP-Flowを特にトレーニングします。連続音声プロンプトを使用したトレーニング方法を通じて、P-Flowは、2桁低いトレーニングデータを持つ大規模なゼロショットTTSモデルのスピーカーの類似性パフォーマンスと一致し、20倍以上のサンプリング速度を備えています。我々の結果は、P-flowがより良い発音を持ち、最近の最新のカウンターパートと人間の肖像とスピーカーの類似性で好まれていることを示しており、P-flowを魅力的で望ましい代替手段として定義しています。

クレジット

もちろん、私が最初に理解していなかった論文のいくつかの詳細を説明するために時間をかけて紙の親切な著者。
Vits2 Repo、Matcha-TTS Repo、VoiceFlow-TTSリポジトリに基づいてこのレポを構築します
LMNT-COMの人々。 LMNT-COMで超高速でリアルなTTSモデルを試してください。私たちがここに構築しているものが好きなら、LMNTにご参加ください。

ドライラン

 cd pflowtts_pytorch/notebooks

 import sys
sys . path . append ( '..' )

from pflow . models . pflow_tts import pflowTTS
import torch
from dataclasses import dataclass

@ dataclass
class DurationPredictorParams :
    filter_channels_dp : int
    kernel_size : int
    p_dropout : float

@ dataclass
class EncoderParams :
    n_feats : int
    n_channels : int
    filter_channels : int
    filter_channels_dp : int
    n_heads : int
    n_layers : int
    kernel_size : int
    p_dropout : float
    spk_emb_dim : int
    n_spks : int
    prenet : bool

@ dataclass
class CFMParams :
    name : str
    solver : str
    sigma_min : float

# Example usage
duration_predictor_params = DurationPredictorParams (
    filter_channels_dp = 256 ,
    kernel_size = 3 ,
    p_dropout = 0.1
)

encoder_params = EncoderParams (
    n_feats = 80 ,
    n_channels = 192 ,
    filter_channels = 768 ,
    filter_channels_dp = 256 ,
    n_heads = 2 ,
    n_layers = 6 ,
    kernel_size = 3 ,
    p_dropout = 0.1 ,
    spk_emb_dim = 64 ,
    n_spks = 1 ,
    prenet = True
)

cfm_params = CFMParams (
    name = 'CFM' ,
    solver = 'euler' ,
    sigma_min = 1e-4
)

@ dataclass
class EncoderOverallParams :
    encoder_type : str
    encoder_params : EncoderParams
    duration_predictor_params : DurationPredictorParams

encoder_overall_params = EncoderOverallParams (
    encoder_type = 'RoPE Encoder' ,
    encoder_params = encoder_params ,
    duration_predictor_params = duration_predictor_params
)

@ dataclass
class DecoderParams :
    channels : tuple
    dropout : float
    attention_head_dim : int
    n_blocks : int
    num_mid_blocks : int
    num_heads : int
    act_fn : str

decoder_params = DecoderParams (
    channels = ( 256 , 256 ),
    dropout = 0.05 ,
    attention_head_dim = 64 ,
    n_blocks = 1 ,
    num_mid_blocks = 2 ,
    num_heads = 2 ,
    act_fn = 'snakebeta' ,
)
    
model = pflowTTS (
    n_vocab = 100 ,
    n_feats = 80 ,
    encoder = encoder_overall_params ,
    decoder = decoder_params . __dict__ ,
    cfm = cfm_params ,
    data_statistics = None ,
)

x = torch . randint ( 0 , 100 , ( 4 , 20 ))
x_lengths = torch . randint ( 10 , 20 , ( 4 ,))
y = torch . randn ( 4 , 80 , 500 )
y_lengths = torch . randint ( 300 , 500 , ( 4 ,))

dur_loss , prior_loss , diff_loss , attn = model ( x , x_lengths , y , y_lengths )
# backpropagate the loss 

# now synthesises
x = torch . randint ( 0 , 100 , ( 1 , 20 ))
x_lengths = torch . randint ( 10 , 20 , ( 1 ,))
y_slice = torch . randn ( 1 , 80 , 264 )

model . synthesise ( x , x_lengths , y_slice , n_timesteps = 10 )

Google Colabでクイックラン

実行する指示

環境を作成する（提案されたがオプション）

conda create -n pflowtts python=3.10 -y
conda activate pflowtts

ルートディレクトリにとどまります（もちろん、最初にレポをクローンします！）

 cd pflowtts_pytorch
pip install -r requirements.txt

単調アライメント検索を構築します

 # Cython-version Monotonoic Alignment Search
python setup.py build_ext --inplace

LJスピーチでトレーニングをしていると仮定しましょう

ここからデータセットをダウンロードし、 data/LJSpeech-1.1に抽出し、ファイルリストを準備して、nvidiaタコトロン2リポジトリのセットアップで項目5のような抽出されたデータを指すように準備します。

3a。 configs/data/ljspeech.yamlと変更に移動します

 train_filelist_path : data/filelists/ljs_audio_text_train_filelist.txt
valid_filelist_path : data/filelists/ljs_audio_text_val_filelist.txt

3b。ヘルパーコマンドは怠zyです

 ! mkdir -p /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists
! wget -O /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists/ljs_audio_text_test_filelist.txt https://raw.githubusercontent.com/NVIDIA/tacotron2/master/filelists/ljs_audio_text_test_filelist.txt
! wget -O /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists/ljs_audio_text_train_filelist.txt https://raw.githubusercontent.com/NVIDIA/tacotron2/master/filelists/ljs_audio_text_train_filelist.txt
! wget -O /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists/ljs_audio_text_val_filelist.txt https://raw.githubusercontent.com/NVIDIA/tacotron2/master/filelists/ljs_audio_text_val_filelist.txt

! sed -i -- ' s,DUMMY,/home/ubuntu/LJSpeech/LJSpeech-1.1/wavs,g ' /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists/ * .txt

! sed -i -- ' s,train_filelist_path: data/filelists/ljs_audio_text_train_filelist.txt,train_filelist_path: /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists/ljs_audio_text_train_filelist.txt,g ' /home/ubuntu/LJSpeech/pflowtts_pytorch/configs/data/ljspeech.yaml
! sed -i -- ' s,valid_filelist_path: data/filelists/ljs_audio_text_val_filelist.txt,valid_filelist_path: /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists/ljs_audio_text_val_filelist.txt,g ' /home/ubuntu/LJSpeech/pflowtts_pytorch/configs/data/ljspeech.yaml

データセット構成のYAMLファイルを使用して正規化統計を生成します

 cd pflowtts_pytorch/pflow/utils
python generate_data_statistics.py -i ljspeech.yaml
# Output:
#{ ' mel_mean ' : -5.53662231756592, ' mel_std ' : 2.1161014277038574}

これらの値をconfigs/data/ljspeech.yaml data_statisticsキーで更新します。

data_statistics:  # Computed for ljspeech dataset
  mel_mean: -5.536622
  mel_std: 2.116101

電車の道と検証フィルリストに。

トレーニングスクリプトを実行します

python pflow/train.py experiment=ljspeech

マルチGPUトレーニングについては、実行します

python pflow/train.py experiment=ljspeech trainer.devices=[0,1]

アーキテクチャの詳細

スピーチは、PrenetとRope Transformerを使用したテキストエンコーダーを促しました
MASを使用した期間予測因子
CFMを備えたフローマッチング生成デコーダー（PaperはWavenet Decoderを使用します。修正されたWavenetを使用し、オプションのU-NETデコーダーを使用して実験します）
現在、音声プロンプトの入力は、入力スペクトログラムをスライスし、テキストの埋め込みと連結しています。外部音声プロンプトの入力をサポートできます（トレーニング中）
トレーニングのためのPFLOWプロンプトマスキング損失
ボコーダーのヒフィガン
サンプリングのガイダンス