reformer ttsダウンロード-ReformerTTS reformer ttsコードのダウンロード

reformer tts

AI ソースコード

Initial release - project submission

ダウンロード

Reformer-Tts

改革者の適応：テキストからスピーチへの効率的な変圧器。

このプロジェクトには以下が含まれています。

Rev.comからのトランスクリプトに基づいてトランプの音声データセットを作成するための前処理コード
改革者TTSの実装：改革者の適応：トランスネットワークを使用した神経音声合成に基づくテキストからスピーチへの効率的な変圧器
Squeezewaveの実装：Tacotron2、Wavenet、またはWavglowに依存せずに、現代のPytorchでのデバイス上の音声合成のための非常に軽量のボコーダー
使いやすい構成管理を備えた両方のモデルの簡単なトレーニングのためのPytorch Lightningラッパー
トレーニング、推論、およびデータの前処理を実行するためのCLI

プロジェクトの範囲と現在のステータス

最近の改革者論文で提案された最適化に変圧器アーキテクチャを置き換えることにより、最先端のテキストからスピーチへのより効率的なバージョンを作成することを目指しました。これを使用して、この目的のために特別に作成された彼のスピーチのカスタムデータセットに基づいて、ドナルドトランプの信頼できるディープファークを生成します。

残念ながら、2か月にわたって100を超えるハイパーパラメーターの組み合わせを実験した後、トランスTTSペーパーからの結果と一致する結果を生成することができませんでした。ここでは、モデルサイズが重要な要素であり、TTSの変圧器を訓練するには、長期にわたる安定したトレーニングプロセス（RTX 2080TIでの〜1週間のトレーニング）を可能にするために、過剰フィッティングを減らす必要があると考えています。

また、トランスTTの元の実装にアクセスできることは大いに役立ちます。

改革者は私たちの期待と一致しませんでしたが、Squeezewaveの実装は、FP16サポートのない元のパフォーマンスと一致します。

また、トレーニングと推論を実行するためのCLI（使用法セクションを参照）、および実験の再現に必要なすべてのデータも含めます（開発セクションを参照）。

このプロジェクトは重要なリファクタルの下にあり、このバージョンはここに残され、以前の支出との互換性を可能にし、近い将来に移動されます。

余分なドキュメント

最終的なプレゼンテーションとスライド
プロジェクトジャーナル
研究文書

プロジェクトを使用します

このプロジェクトは通常のPythonパッケージであり、 Python 3.8以上を使用している限り、 pipを使用してインストールできます。

[リリース]ページに移動して、最新リリースのインストール命令を見つけます。

インストール後、実行することで利用可能なコマンドを確認できます。

python -m reformer_tts.cli --help

たとえば、すべてのコマンドはCLIを使用して実行されます。

python -m reformer_tts.cli train-vocoder

ほとんどのパラメーター（特に、すべてのトレーニングハイパーパラメーター）は、 cliへの--config引数（実行するコマンドの前に行く）を介して指定されています。

python -m reformer_tts.cli -c /path/to/your/config.yml train-vocoder

デフォルト値は、 reformer_tts.config.Config （およびそのフィールド）にあります。

開発セットアップ

1.依存関係をインストールします

コンドラを使用します

Conda-Forgeコミュニティのおかげで、1つのコマンドを使用してすべてのパッケージ（ ffmpegなどの必要なバイナリを含む）をインストールできます。

conda env create -f environment.yml

他のパッケージマネージャーを使用します

あなたの環境を確認し、 Python>=3.8持っていることを確認してください：

which python
python --version

Python依存関係をインストールします（編集モードでパッケージもインストールします）：

pip install -r requirements.txt

ffmpeg>=3.4,<4.0インストール（インストール手順）があることを確認してください
トレーニングについては、CUDAとGPUのドライバーがインストールされていることを確認してください（詳細については、Pytorch Webサイトの手順を参照）

2。ツールを構成します

DVCがリモートに書き込みアクセスできるようにするには、GCPアカウントを構成します（生成されたJSONファイルからの資格情報を使用）：

 export GOOGLE_APPLICATION_CREDENTIALS=/path/to/your/service-account-credentials.json

注：ACCEを読むだけで（複製のために）読む必要がある場合、ステップ1を実行する必要はありません

すべてのデータを取得します - この手順を繰り返す必要があります：
- 休憩後に仕事を始めるたびに
- すべてのgitプルの後
- 別のgitブランチをチェックした後

dvc pull

3.セットアップが正しいかどうかを確認します

これを行うには、プロジェクトテストを実行できます。

python -m pytest --pyargs reformer_tts

すべてのテストはCPUとGPUで動作する必要があり、完了するまでに最大1分かかる場合があります。

パスすることを忘れないでください--pyargs reformer_tts Pytestに、それ以外の場合はテストのデータディレクトリを検索します

セットアップの詳細

必要なパッケージマネージャーを使用してください
Python>=3.8を使用します
すべてのPython依存関係は、 requirements.txtおよびenvironment.ymlになります
タスクを実行するための1つの中央エントリポイント： reformer_tts/cli.py 、Run python reformer_tts/cli.py --help

構成

構成は、DataClass構造で編成されています。

各プロジェクトサブモジュールには、 config.pyと呼ばれる独自の構成ファイルがあり、パラメーターとデフォルト値が定義されています - たとえば、データセットconfigパラメーターはreformer_tts.dataset.configで指定されています
reformer_tts.config.Configクラスには、すべてのサブモジュールの構成設定が含まれています
構成パラメーターの実際の値はYAML形式の構成ファイルからロードされます。ベストプラクティスは、YAMLファイルのデフォルトのみをオーバーライドすることです

これにより、デフォルト値は使用されている場所の近くに設定され、任意の構成値を必要に応じてオーバーライドできます

ランタイム構成を変更します

コマンドpython reformer_tts/cli.py save-config -o config/custom.ymlを使用して、デフォルト値でデフォルト値で構成を自動的に生成するか、既存の構成ファイルの1つをconfig/ディレクトリに手動でコピーする
生成された構成ファイルから変更したくないデフォルトを削除する
生成された構成ファイルで変更したい値を変更する
-cオプションを使用してCLIスクリプトを実行するときに構成を指定します。IE： python reformer_tts/cli.py -c config/custom.yml [COMMAND]

新しいモジュールの構成を追加します

モジュールでconfig.pyを作成します
新しいファイルに必要なすべての構成パラメーターを使用して、DATACLASSを定義します。
- クラスが他の構成ファイルのパラメーター値を再定義しないようにしてください（つまり、 datasetとsqueezewaveモジュールの両方で同じ場所にあるスペクトログラムチャネルの数を1回しか指定しました）
- すべてのパラメーターのクラスがデフォルト値を持っていることを確認してください
reformer_tts.configメイン構成クラスにデータを追加するフィールドを追加します

データ依存関係

データ処理パイプラインを定義するためにDVCを使用します。 Remoteはdvc config listを実行する詳細については、Google Cloudストレージにセットアップされています。

エントロピークラスターでジョブを実行するためのセットアップ

実行のために準備されたノード：

asusgpu3
asusgpu4
asusgpu1
アーノルド
シルベスター

HomedirとノードでTrainigを実行します

ホームディールにレポをクローンします
データセットパスが/scidatalgで構成されていることを確認してください
homedirからファイルを呼び出すためのセットアップコマンド
あなたの変更をコミットします
sbatchスクリプトを実行します

Homedirなしで特定のノードでトレーニングを実行します

実行する前：

以下の手順を使用して、既に準備されたノードを選択するか、新しいものを準備するか、新しいものを準備します
リポジトリを自宅監督にコピーします
Neptune APIトークンが環境に設定されていることを確認してください

トレーニングを実行するには：

トレーニング構成を準備し、リモートリポジトリにプッシュします
インタラクティブセッションsrun --qos=gsn --partition=common --nodelist=<name_of_chosen_node> --pty /bin/bashを使用して選択したノードにログイン
goto /scidatalg/reformer-tts/reformer-tts/リポジトリが適切なブランチに引っ張られていることを確認してください
ログインログインノードに戻します
jobs/train_entropy.sbatchコピーと変更 - ノード名とトレーニングコマンドの塗りつぶし
sbatch your/job/script/location.sbatch実行します

プロのヒントwatch -n 1 squeue -u your_usernameジョブがすでにpro tip2を実行しているかどうかを視聴するために、 tail -f file.log less --follow-name +F file.log

DVCから引っ張ります

DVCから引っ張るにはjobs/entropy_dvc_pull.sbatchを使用します。

このファイルをコピーします
ノード名を入力します
DVCコマンドを調整します
SBATCHを使用してジョブを実行します

新しいノードの準備

/Scidatasmディレクトリはトレーニング中に同期していないため、各ノードのトレーニングを手作業で個別にセットアップする必要があります。新しいノードでenvをセットアップするには、このインスタンスに従ってください。

注： /scidatalgを使用したノードのみがこのスクリプトでサポートされています。これらのノードは、ASUSGPU4、ASUSGPU3、ASUSGPU2、ASUSGPU1、アーノルド、シルベスターです

インタラクティブセッションsrun --qos=gsn --partition=common --nodelist=<name_of_chosen_node> --pty /bin/bash
Google API資格情報を${HOME}/gcp-cred.jsonにコピーします（お気に入りの編集者を使用）
scripts/setup_entropy_node.shのコンテンツをホームdirの新しいファイルにコピーします（再び編集者を使用）
コピーされたスクリプトを実行します

拡大する

追加情報