FastSpeech2 Pytorch Korean Multi SpeakerダウンロードFastSpeech2 Pytorch Korean Multi Speakerソースコードダウンロード

日本語

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

ホーム>プログラミング関連>AI ソースコード

FastSpeech2 Pytorch Korean Multi Speaker

AI ソースコード

1.0.0

ダウンロード

FastSpeech2-Pytorch-Korean-Multi-Speaker

このプロジェクトは、Hifi-Gan VocoderとFastSpeech2を組み合わせることにより、韓国のマルチスピーカーTTSに実装されます。

導入

このプロジェクトは、「目に見えるパーソナライズされたAIスピーカー」プロジェクトのTTSを開発することを目的としています。「Siri」、「Bixby」、「Ari」の声ではなく、あなたの周りの人々の声に置き換えられます。（例：配偶者、息子、娘、両親など）
AIスピーカーの即時生産に対処するために、Tacotron2とWaveglowの優れたパフォーマンスの代わりに、非自己網目上のMostSpeech2およびGanベースのボコーダーモデルHifi-Ganが品質と生産速度の両方を採用しました。
dllabに実装されている韓国のデータセットKSSに対応するFastSpeech2ソースコードに基づいています。

プロジェクトの目的

迅速な合成速度と高性能のためのAcoustic-Fastspeech2、Vocoder-Hifiganモデルの使用
少量のデータでパーソナライズするために学習使用を転送します（ ~~+ゼロショットクローニング~~サイドプロジェクト）
スピーカーが実装を埋め込み、プリトレインのマルチスピーカーを学習します
学習プロセスが韓国のデータセットでエンドツーエンドまで実行されるようにパイプライン構成

データセット

トレイン前の場合は、aihubの無料の会話の声を使用して学びます。
- 平均して、1時間30分、品質を考慮して30人の男性と28人の女性データで学習します
- 各スピーカーは、前処理プロセスで一意の番号IDを付与しました
微調整については、KSSスクリプトを参照し、パフォーマンスを評価するために100文-300文-600文で新しいスピーカーの声を記録します。

貢献（Previusプロジェクトからの追加）

使用されるコードに追加されたコンテンツは次のとおりです。

スピーカーの埋め込み実装（韓国のマルチスピーカーFastSpeech2）
- 埋め込み層をモデルに追加します
- エンコーダー出力とコード実装（埋め込み、スピーカーインテグレーター）
- get_speakers（）は、情報を埋め込むインポートとストアを埋め込む機能の実装
data_preprocessing.py-エンドのデータ以下のすべての項目を含む前処理前処理実装
長い文の不安定な統合に対する応答
- 特別なキャラクターユニット（文ユニット）で合成した後に取り付けられるように設定します
G2PKソースコードをインポートし、数字と英語のみを適用する
- 既存のG2PKのパッケージを、PIPのインストールなしで韓国語のみに変更します。

Prevous Works

図のように、データセット/データ名ディレクトリにWAVディレクトリとJSONまたは転写ファイルを保存します。
カルディのモントラルの強制的なアリンジャーを学び、オーディオデータを学習してテキストグリッドを学習します。
```
 # lab 생성, mfa 학습, lab 분리
python data_preprocessing.py 
```
Vocoder/Presed_modelsディレクトリでの学習中に評価のためにHifi-Ganが学んだ発電機を保存します。

形式に従ってデータを直接記述するか、data_preprocessing.pyの関数を参照してトランスクリプトを作成します
生成されたトランスクリプトとデータのディレクトリをデータセットに保存し、data_proprocessing.pyを実行します
MFAの作業が完了し、textgrid.zipファイルがトップディレクトリに作成されます
preprocess.pyは、前処理されたフォルダーを実行およびチェックします。

電車

hparam.pyのバッチサイズ、hifi-ganジェネレーターのパスをセットアップし、学習を開始します。
```
 python train.py
```
勉強している場合は、Restore_Stepを追加することで学ぶことができます。
```
 python train.py --restore_step [step]
```

転送学習

マルチスピーカーのプレトレインを実行すると、トレイン前の学習中にストレージスピーカー_info.jsonが自動的に生成されます
Speaker_info.jsonをディレクトリの上部に置きます
電車で学習を行うのと同じようにPythonを実行する
```
 python train.py --restore_step [pre-train의 step]
```

合成

Snythesize.pyファイルで合成されました。
```
 python synthesize.py --step [step수]
```
- ランダムに提示されたスクリプトとしての合成1、2、3選択
- 4選択4を選択します

モデルパイプライン

このパイプラインは、サービスに対応するTTS学習と作成のためのフローパイプラインです。

Transfer_learning_pipeline

コンテナは、主に4つに分類されます。
1. データのパスとユーザー情報を含むデータベースコンテナ
2. トランスクリプトの作成、ファイル名の単純化、MFAによるテキストグリッド抽出、モデル用のデータ前処理コンテナ
3. 事前トレーニング用の学習コンテナ
4. 新しいデータで微調整するためのコンテナの学習
実際のサービス状況では、3つのコンテナのみが機能します。

拡大する

追加情報

バージョン 1.0.0
タイプ AI ソースコード
更新時間 2025-08-25
サイズ 5.41MB
から Github

関連アプリ

おすすめ

chat.petals.dev

その他のソースコード

1.0.0
GPT Prompt Templates

その他のソースコード

1.0.0
GPTyped

その他のソースコード

GPTyped 1.0.5
ML stack

AI ソースコード

1.0.0
awesome free chatgpt

AI ソースコード

1.0.0
pywin_contextmenu

AI ソースコード

Version update
Google Dorks

その他のソースコード

1.0
shepherd

その他のソースコード

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

その他のソースコード

v1.1.0-rc-3

関連情報すべて