TTS Tacotron PytorchダウンロードTTS Tacotron Pytorchソースコードダウンロード

TTS Tacotron Pytorch

AI ソースコード

1.0.0

ダウンロード

タコトロン

Googleのタコトロン音声合成ネットワークのPytorch実装。

この実装には、場所に敏感な注意とタコトロン2の停止トークン機能も含まれます。

さらに、モデルはLJ音声データセットでトレーニングされ、訓練されたモデルが提供されます。

オーディオサンプルは、結果ディレクトリにあります。

導入

この実装はR9Y9/Tacotron_Pytorchに基づいています。主な違いは次のとおりです。

場所に敏感な注意と、タコトロン2の紙から停止トークンを追加します。これにより、モデルのトレーニングに必要な時間とデータの量を大幅に削減できます。
R9Y9が使用するすべてのTensorflow依存関係を削除しますが、これでPytorchとPytorchでのみ実行されます。
損失モジュールを追加し、L1損失の代わりにL2（MSE）損失を使用します。
データローダーモジュールを追加します。
KeithitoのLJ音声データ前処理スクリプトを組み込みます。
コードファクタリングと最適化を簡単にデバッグして拡張します。

さらに、元のタコトロン紙とのいくつかの違いは次のとおりです。

r = 2ではなく、各デコーダーステップでR = 5の非重複アウトパットフレームを予測します。
すべてのRフレームを、rフレームの最後のフレームのみではなく、次のデコーダー入力ステップに送ります。
予測された線形スペクトログラムの損失をスケーリングして、人間の音声（0〜3000 Hz）に対応するより低い周波数の重量が増えます。
シーケンスからシーケンスの学習で損失マスクを使用しなかったため、これによりモデルは合成を停止する時期を学習させます。
CBHGモジュレハの1次元畳み込みユニットのバイアスを無効にします。これらの実装の詳細は、モデルの収束に役立ちます。

オーディオの品質はまだGoogleのデモほど良くありませんが、最終的に改善されることを願っています。プルリクエストは大歓迎です！

クイックスタート

設定

このレポンをクローンする： git clone [email protected]:andi611/Tacotron-Pytorch.git
このリポジトリへのCD： cd Tacotron-Pytorch

依存関係のインストール

Python 3をインストールします。
プラットフォームに応じて、 Pytorchの最新バージョンをインストールします。パフォーマンスを向上させるには、実行可能な場合はGPUサポート（CUDA）でインストールします。このコードは、Pytorch 0.4以降で動作します。
要件をインストールする：
```
 pip3 install -r requirements.txt
```
警告：プラットフォームに応じてトーチをインストールする必要があります。ここに、このプロジェクトが構築されたときに使用されるPytorchバージョンをリストします。

トレーニング

LJスピーチデータセットをダウンロードします。
- LJスピーチ
他のデータセットを適切な形式に変換する場合は、他のデータセットを使用できます。詳細については、training_data.mdを参照してください。
データセットを~/Tacotron-Pytorch/dataに解除します
開梱後、LJのスピーチのためにツリーは次のようになるはずです：
```
 |- Tacotron-Pytorch
	 |- data
		 |- LJSpeech-1.1
			 |- metadata.csv
			 |- wavs
```

PREPROCESS.pyを使用して、LJスピーチデータセットを事前に処理し、モデル対応メタファイルを作成します：

 python3 preprocess.py --mode make

前処理後、あなたの木は次のようになります：

 |- Tacotron-Pytorch
	 |- data
		 |- LJSpeech-1.1 (The downloaded dataset)
			 |- metadata.csv
			 |- wavs
		 |- meta (generate by preprocessing)
			 |- meta_text.txt 
			 |- meta_mel_xxxxx.npy ...
			 |- meta_spec_xxxxx.npy ...
		 |- test_transcripts.txt (provided)

train.pyを使用してモデルをトレーニングします
```
 python3 train.py --ckpt_dir ckpt/ --log_dir log/
```
前のチェックポイントからトレーニングを復元します：
```
 python3 train.py --ckpt_dir ckpt/ --log_dir log/ --model_name 500000
```
調整可能なハイパーパラメーターは、config.pyにあります。
これらのパラメーターと設定を調整し、ファイルを編集することで、デフォルトのハイパーパラメーターをLJスピーチに推奨します。
テンソルボードで監視する（オプション）
```
 tensorboard --logdir 'path to log_dir'
```
トレーナーは、デフォルトで2000ステップごとにオーディオとアライメントをダンプします。これらはtacotron/ckpt/で見つけることができます。

テスト：事前に訓練されたモデルとtest.pyの使用

インタラクティブモードでテスト環境を実行します。
```
 python3 test.py --interactive --plot --model_name 500000
```
一連のトランスクリプトでテストアルゴリズムを実行します（結果は、結果/500000ディレクトリにあります）：
```
 python3 test.py --plot --model_name 500000 --test_file_path ./data/test_transcripts.txt
```