End to End TTS Fine Tune
1.0.0
Acoustic-Fastspeech2(カスタム)
少量のデータでパーソナライズのために転送学習を利用することによる合理的なパフォーマンス
韓国のデータセットでリアルタイムで微調整して作成できるAPIを提供する
微調整によるモデルコードの変更
シェルスクリプトを介した簡単なプリプロース、トレイン、合成
ユニークなDocker画像を提供します
FastSpeech2とHifi-Ganの事前訓練を受けたCKPTのファイル名と一致し、各モデルに保持します。
(fastspeech2:30,000ステップ学習 / Hifi -Gan -Jungilキングの公式プレゼント - 大学 - 大学 - 大学)
学習と統合のために、すべての従属パッケージを含むDocker画像をロードおよび実行します。
docker pull hws0120/e2e_speech_synthesis
run_fs2_preprocessing.shステップは、condaコマンドを使用してdockerに接続され、pythonパッケージJamoをインストールします。
conda activate aligner
pip install jamo
run_fs2_trainまたは合成を実行するための仮想環境の終了。
conda activate base
上記のすべてのアイテムを満たしている場合は、シェルスクリプトを実行してMFAを抽出します。
sh run_FS2_preprocessing.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
仮想環境を終了し、学習スクリプトを実行するためにTextGridを正常に作成します。
sh run_FS2_train.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
fastspeech2 5000ステップ学習が完了したら、Hifi-Ganスクリプトを実行します。
sh run_HiFi-GAN_train.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
CKPTフォルダーで学習したモデルの準備ができたら、合成のためのスクリプトを実行します。
sh run_FS2_synthesize.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
各コンテナは、図のように、学習および合成プロセスとプロセスで確立されています。
適切なHifi-Ganチェックポイントがある場合は、Hifi-Gan学習を省略できます。