hifi ganダウンロード-Hifi hifi ganソースコードのダウンロード

hifi gan

AI ソースコード

1.0.0

ダウンロード

HIFI-GAN：効率的かつ高忠実度の音声合成のための生成官能ネットワーク

Jungil Kong、Jaehyeon Kim、Jaekyoung Bae

私たちの論文では、Hifi-Gan：高忠実度の音声を効率的に生成できるGanベースのモデルを提案しました。
このリポジトリのオープンソースとして、実装および事前に守られたモデルを提供します。

要約：音声合成に関するいくつかの最近の研究では、生の波形ネットワーク（GAN）を採用して、生の波形を生成しています。このような方法はサンプリングの効率とメモリの使用を改善しますが、そのサンプルの品質は、自己回帰およびフローベースの生成モデルの品質にまだ達していません。この作業では、効率的および高忠実度の両方の音声合成を達成するHifi-Ganを提案します。音声オーディオはさまざまな期間の正弦波信号で構成されているため、オーディオの周期パターンのモデリングがサンプル品質を向上させるために重要であることを示します。単一のスピーカーデータセットの主観的な人間の評価（平均意見スコア、MOS）は、提案された方法が人間の品質と類似性を示し、単一のV100 GPUでリアルタイムの22.05 kHzの高忠実度オーディオを生成することを示しています。さらに、目に見えないスピーカーとエンドツーエンドの音声合成のメルスペクトルグラムの反転に対するHifi-Ganの一般性を示します。最後に、HIFI-GANの小さなフットプリントバージョンは、CPUのリアルタイムよりも13.4倍高速でサンプルを生成し、自己回帰のカウンターパートに匹敵する品質を備えています。

オーディオサンプルについては、デモWebサイトをご覧ください。

前提条件

Python> = 3.6
このリポジトリをクローンします。
Python要件をインストールします。要件を参照してください。txt
LJスピーチデータセットをダウンロードして抽出します。すべてのWAVファイルをLJSpeech-1.1/wavsに移動します

トレーニング

 python train.py --config config_v1.json

V2またはV3ジェネレーターをトレーニングするには、 config_v2.jsonまたはconfig_v3.jsonにconfig_v1.jsonを置き換えます。
構成ファイルのチェックポイントとコピーは、デフォルトでcp_hifiganディレクトリに保存されます。
--checkpoint_pathオプションを追加して、パスを変更できます。

V1ジェネレーターでのトレーニング中の検証損失。

事前に保護されたモデル

また、当社が提供する優先モデルを使用することもできます。
前提条件のモデルをダウンロードします
各フォルダーの詳細は次のようになります。

フォルダー名	ジェネレータ	データセット	微調整
LJ_V1	V1	ljspeech	いいえ
LJ_V2	V2	ljspeech	いいえ
LJ_V3	V3	ljspeech	いいえ
LJ_FT_T2_V1	V1	ljspeech	はい（tacotron2）
LJ_FT_T2_V2	V2	ljspeech	はい（tacotron2）
LJ_FT_T2_V3	V3	ljspeech	はい（tacotron2）
VCTK_V1	V1	VCTK	いいえ
VCTK_V2	V2	VCTK	いいえ
VCTK_V3	V3	VCTK	いいえ
universal_v1	V1	ユニバーサル	いいえ

ユニバーサルモデルに、他のデータセットに転送学習のベースとして使用できる判別器の重みを提供します。

微調整

Tacotron2を使用して、教師向けのnumpy形式でmelspectrogramsを生成します。
生成されたメルスペクトルグラムのファイル名はオーディオファイルと一致する必要があり、拡張子は.npyである必要があります。
例：
```
 Audio File : LJ001-0001.wav
Mel-Spectrogram File : LJ001-0001.npy
```
ft_datasetフォルダーを作成し、生成されたMEL-Spectrogramファイルをコピーします。
次のコマンドを実行します。
```
 python train.py --fine_tuning True --config config_v1.json
```
他のコマンドラインオプションについては、トレーニングセクションを参照してください。

WAVファイルからの推論

test_filesディレクトリを作成し、WAVファイルをディレクトリにコピーします。

次のコマンドを実行します。

 python inference.py --checkpoint_file [generator checkpoint file path]

生成されたWAVファイルは、デフォルトでgenerated_filesに保存されます。
--output_dirオプションを追加してパスを変更できます。

エンドツーエンドの音声合成の推論

test_mel_filesディレクトリを作成し、生成されたmelspectrogramファイルをディレクトリにコピーします。
Tacotron2、Glow-TTなどを使用してMel-Spectrogramsを生成できます。

次のコマンドを実行します。

 python inference_e2e.py --checkpoint_file [generator checkpoint file path]

生成されたWAVファイルは、デフォルトでgenerated_files_from_melに保存されます。
--output_dirオプションを追加してパスを変更できます。

謝辞

これを実装するために、Waveglow、Melgan、およびTacotron2に言及しました。

拡大する

追加情報

バージョン 1.0.0
タイプ AI ソースコード
更新時間 2025-08-21
サイズ 606.93KB
から Github

hifi gan

HIFI-GAN：効率的かつ高忠実度の音声合成のための生成官能ネットワーク

Jungil Kong、Jaehyeon Kim、Jaekyoung Bae

前提条件

トレーニング

事前に保護されたモデル

微調整

WAVファイルからの推論

エンドツーエンドの音声合成の推論

謝辞

GitHub sgrebnov/cordova plugin background download

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

バイパーハイファイ Android バージョン

VIPER HiFi アプリ

ミニ HiFi シティゲームのダウンロード

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express