PortaSpeechのダウンロードPortaSpeechソースコードのダウンロード

PortaSpeech

AI ソースコード

v0.2.0

ダウンロード

Partaspeech -Pytorchの実装

PortaspeechのPytorch実装：ポータブルで高品質の生成テキストからスピーチ。

オーディオサンプル

オーディオサンプルは /デモで利用できます。

モデルサイズ

モジュール	普通	小さい	通常（紙）	小（紙）
合計	24m	7.6m	21.8m	6.7m
言語エンコーダー	3.7m	1.4m	-	-
VariationGenerator	11m	2.8m	-	-
FlowPostNet	9.3m	3.4m	-	-

クイックスタート

データセットとは、次のドキュメントでLJSpeechなどのデータセットの名前を指します。

依存関係

Python依存関係をインストールできます

 pip3 install -r requirements.txt

また、 DockerfileはDockerユーザーに提供されています。

推論

事前に保護されたモデルをダウンロードして、それらをoutput/ckpt/DATASET/に配置する必要があります。

単一スピーカーのTTSの場合、実行します

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET

生成された発話はoutput/result/に配置されます。

バッチ推論

バッチ推論もサポートされています

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

preprocessed_data/DATASET/val.txtのすべての発話を合成します。

制御可能性

合成された発話の発話レートは、目的の持続時間比を指定することで制御できます。たとえば、発話レートを20で増やすことができます

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8

制御可能性はfastspeech2に由来し、Partaspeechの重要な関心ではないことに注意してください。

トレーニング

データセット

サポートされているデータセットは次のとおりです

ljspeech：単一スピーカーの英語データセットは、7つのノンフィクションの本からパッセージを読む女性スピーカーの13100の短いオーディオクリップで構成されています。合計約24時間です。

前処理

走る

 python3 prepare_align.py --dataset DATASET

いくつかの準備のために。

強制アライメントのために、モントリオールの強制アライナー（MFA）を使用して、発話と音素シーケンスの間のアライメントを取得します。データセットの事前に抽出されたアライメントはここに記載されています。 preprocessed_data/DATASET/TextGrid/でファイルを解凍する必要があります。または、自分でアライナーを実行できます。

その後、前処理スクリプトを実行します

 python3 preprocess.py --dataset DATASET

トレーニング

モデルを訓練します

 python3 train.py --dataset DATASET

有用なオプション：

自動混合精度を使用するには、上記のコマンドに--use_amp引数を追加します。
トレーナーは、シングルノードマルチGPUトレーニングを想定しています。特定のGPUを使用するには、上記のコマンドの先頭にCUDA_VISIBLE_DEVICES=<GPU_IDs>を指定します。

テンソルボード

使用

 tensorboard --logdir output/log

LocalHostでTensorboardを提供します。損失曲線、合成されたメルスペクトルグラム、およびオーディオが表示されます。

通常のモデル

小さなモデル損失

メモ

ボコーダーの場合、 Hifi-GanとMelganがサポートされています。
マッシュした出力を避けるために、バリオンジェネレーターのrelu activationとlayernormはありません。
長い単語をサブワードに分割し、メルスペクトルグラムフレームの長さでデータセットを並べ替えることにより、言語学的エンコーダーの単語間アライメントの収束をスピードアップします。
単語間のアラインメントを改善するためのヘルパー損失には、「CTC」と「DGA」が2種類あります。次のように切り替えることができます。
```
 # In the train.yaml
aligner :
    helper_type : " dga " # ["dga", "ctc", "none"]
```
- 「DGA」：対角線ガイド付き注意（DGA）損失
- 「CTC」：コネクショニストの時間的分類（CTC）の前後アルゴリズムによる損失
- 「なし」を設定すると、トレーニング中にヘルパーの損失は適用されません。
- 3つのメソッド（「DGA」、「CTC」、および「なし」の3つのメソッドのアラインメントの比較：
- デフォルト設定は「DGA」です。「CTC」は最も強いアライメントをもたらしますが、出力の品質と精度は「DGA」よりも悪いです。
- それでも、出力品質を改善する余地があります。オーディオの品質とアリンメント（精度）はトレードオフのようです。
マルチスピーカーTTSに拡張されます。