End to End TTS Fine Tuneダウンロード - End to End TTS Fine Tuneソースコードダウンロード

日本語

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

ホーム>プログラミング関連>AI ソースコード

End to End TTS Fine Tune

AI ソースコード

1.0.0

ダウンロード

エンドツーエンドのTTS微調整

導入

このプロジェクトは、「高齢者向けのAIアシスタント」のTTSシステムを開発することを目的としています。家族や友人や恋人の声で人工知能アシスタントを作成して、わずか5分間の音声録音を行うことができます。
リアルタイムの生成を必要とするAIスピーカーに対処するために、品質と生産速度を考慮するために、非自動格納アコースティックモデルFastSPE2およびGANベースのボコーダーモデルHiFI-Ganを採用しました。
マルチスピーカーのパフォーマンスを改善するために、追加の習慣が実施されています。
このリポジトリは、シェルスクリップを利用してD-Vector Multi Speaker FastSpeech2とHifi-Ganモデルを構成して微調整を可能にすることにより、学習と作成プロセスを単純に実行するように構成されています。
アプリで実際のTTSを提供するには、FastAPIを使用してサーバーを構成し、バックエンドにリンクします。

プロジェクトの目的

Acoustic-Fastspeech2（カスタム）
少量のデータでパーソナライズのために転送学習を利用することによる合理的なパフォーマンス
韓国のデータセットでリアルタイムで微調整して作成できるAPIを提供する

データセット

データセットフォルダーに属するwine_tune_transcript.txtによると、スマートフォンで数字で100文を記録し、サンプリングレートの16000（ffmpeg）でm4aファイルをWAVファイルに変換します。

図に示すように、100個の変換されたWAVファイルが最初のフォルダーに追加されます。

貢献

微調整によるモデルコードの変更
- FastSpeech2およびHifi-Ganの変更と統合
- データセット、CKPT、および結果ディレクトリは、データセットによってトップレベルのディレクトリに分割されます
シェルスクリプトを介した簡単なプリプロース、トレイン、合成
- データセットディレクトリを変更します
ユニークなDocker画像を提供します
- 複雑な追加依存関係パッケージを追加せずにすぐに実行できる画像を提供する
- Docker Hubリンクから最新の画像をインポートします

Prevous Works

FastSpeech2とHifi-Ganの事前訓練を受けたCKPTのファイル名と一致し、各モデルに保持します。
（fastspeech2：30,000ステップ学習 / Hifi -Gan -Jungilキングの公式プレゼント - 大学 - 大学 - 大学）
学習と統合のために、すべての従属パッケージを含むDocker画像をロードおよび実行します。
```
 docker pull hws0120/e2e_speech_synthesis 
```
run_fs2_preprocessing.shステップは、condaコマンドを使用してdockerに接続され、pythonパッケージJamoをインストールします。
```
 conda activate aligner
pip install jamo
```
run_fs2_trainまたは合成を実行するための仮想環境の終了。
```
 conda activate base
```

前処理

上記のすべてのアイテムを満たしている場合は、シェルスクリプトを実行してMFAを抽出します。
```
 sh run_FS2_preprocessing.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
```

電車

仮想環境を終了し、学習スクリプトを実行するためにTextGridを正常に作成します。
```
 sh run_FS2_train.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
```
fastspeech2 5000ステップ学習が完了したら、Hifi-Ganスクリプトを実行します。
```
 sh run_HiFi-GAN_train.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
```

合成

CKPTフォルダーで学習したモデルの準備ができたら、合成のためのスクリプトを実行します。
```
 sh run_FS2_synthesize.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
```

プロジェクトパイプライン

各コンテナは、図のように、学習および合成プロセスとプロセスで確立されています。

適切なHifi-Ganチェックポイントがある場合は、Hifi-Gan学習を省略できます。

拡大する

追加情報

バージョン 1.0.0
タイプ AI ソースコード
更新時間 2025-08-23
サイズ 12.91MB
から Github

関連アプリ

おすすめ

chat.petals.dev

その他のソースコード

1.0.0
GPT Prompt Templates

その他のソースコード

1.0.0
GPTyped

その他のソースコード

GPTyped 1.0.5
ML stack

AI ソースコード

1.0.0
awesome free chatgpt

AI ソースコード

1.0.0
pywin_contextmenu

AI ソースコード

Version update
Google Dorks

その他のソースコード

1.0
shepherd

その他のソースコード

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

その他のソースコード

v1.1.0-rc-3

関連情報すべて