Comprehensive E2E TTSダウンロード - Comprehensive E2E TTSソースコードダウンロード

Comprehensive E2E TTS

AI ソースコード

1.0.0

ダウンロード

包括的なE2E-TTS-Pytorchの実装

非自動節約的なエンドツーエンドのテキストからスピーチ（指定されたテキストを生成する波形生成）。ソタの監視なしの持続時間モデリングのファミリーをサポートします。このプロジェクトは、究極のE2E-TTSを達成することを目指して、研究コミュニティとともに成長します。最高のエンドツーエンドのTTに対する提案は大歓迎です:)

アーキテクチャデザイン

Wavthruvec：神経音声合成の中間特徴としての潜在音声表現（Siuzdak et al。、2022）
ジェッツ：エンドツーエンドテキストからスピーチのためにfastspeech2とhifi-ganを共同でトレーニングする（Lim et al。、2022）

言語エンコーダー

FastSpeech 2：高速および高品質のエンドツーエンドテキストからスピーチ（Ren et al。、2020）

オーディオアップサンプラー

HIFI ++：神経ボコード、帯域幅の拡張、音声強化のための統一されたフレームワーク（Andreev et al。、2022）
HIFI-GAN：効率的で高忠実度の音声合成のための生成敵ネットワーク（Kong et al。、2020）

持続時間モデリング

エンドツーエンドのテキストからスピーチの微分持続時間モデリング（Nguyen et al。、2022）
それらすべてを支配するための1つのTTSアライメント（Badlani et al。、2021）

クイックスタート

データセットとは、次のドキュメントでLJSpeechやVCTKなどのデータセットの名前を指します。

依存関係

Python依存関係をインストールできます

 pip3 install -r requirements.txt

また、 DockerfileはDockerユーザーに提供されています。

推論

事前に保護されたモデルをダウンロードし（間もなく共有されます）、それらをoutput/ckpt/DATASET/に配置する必要があります。

単一スピーカーのTTSの場合、実行します

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET

マルチスピーカーのTTSの場合、実行します

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

学習スピーカーの辞書はpreprocessed_data/DATASET/speakers.jsonで見つけることができ、生成された発話はoutput/result/に配置されます。

バッチ推論

バッチ推論もサポートされています

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

preprocessed_data/DATASET/val.txtのすべての発話を合成します。

制御可能性

合成された発話のピッチ/ボリューム/発話レートは、目的のピッチ/エネルギー/持続時間比を指定することで制御できます。たとえば、発言率を20％上げて、体積を20％減らすことができます

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8 --energy_control 0.8

Multi-Speaker TTSに-peaker_id speaker_idを追加します。

トレーニング

データセット

サポートされているデータセットは次のとおりです

ljspeech：単一スピーカーの英語データセットは、7つのノンフィクションの本からパッセージを読む女性スピーカーの13100の短いオーディオクリップで構成されています。合計約24時間です。
VCTK：CSTR VCTKコーパスには、さまざまなアクセントを持つ110人の英語スピーカー（マルチスピーカーTTS ）が発する音声データが含まれています。各スピーカーは、新聞、虹の通路、音声アクセントアーカイブに使用される誘発段落から選択された約400文を読み取ります。

シングルスピーカーTTSデータセット（Blizzard Challenge 2013など）とマルチスピーカーTTSデータセット（Librittsなど）の両方を、それぞれLJSpeechとVCTKに従って追加できます。さらに、あなた自身の言語とデータセットをここに採用することができます。

前処理

外部スピーカーの封入器を備えたマルチスピーカーTTSについては、スピーカーの埋め込み用のPhilipperemyのディープスピーカーのRescnn SoftMax+Triplet Tretrained Modelをダウンロードし、それを./deepspeaker/pretrained_models/に見つけます。

前処理スクリプトを実行します

 python3 preprocess.py --dataset DATASET

トレーニング

モデルを訓練します

 python3 train.py --dataset DATASET

有用なオプション：

トレーナーは、シングルノードマルチGPUトレーニングを想定しています。特定のGPUを使用するには、上記のコマンドの先頭にCUDA_VISIBLE_DEVICES=<GPU_IDs>を指定します。

テンソルボード

使用

 tensorboard --logdir output/log

LocalHostでTensorboardを提供します。

メモ

マルチスピーカーTTS設定の埋め込みの2つのオプション：ゼロからスピーカーの埋め込みをトレーニングするか、事前に訓練されたPhilipperemyのDeepspeakerモデルを使用しています（Stylerが行ったように）。構成（ 'none'と'DeepSpeaker'の間）を設定して切り替えることができます。
VCTKデータセットのDeepSpeakerは、スピーカー間の明確な識別を示しています。次の図は、抽出されたスピーカー埋め込みのT-SNEプロットを示しています。