Fastspeech2_MFAダウンロードFastspeech2_MFAソースコードのダウンロード

Fastspeech2_MFA

AI ソースコード

1.0.0

ダウンロード

MFAを使用したFastSpeech2モデル

このリポジトリには、音声合成のためにモントリオール強制アライナー（MFA）を使用して実装された8つのインド言語（男性と女性の両方）のFastSpeech2モデルが含まれています。このモデルは、テキスト入力からメルスペクトルグラムを生成することができ、音声を合成するために使用できます。

リポジトリのサイズは大きいです。Githubのサイズの制約のためにGit LFSを使用しました（リンクから最新のGit LFSをインストールしてください。以下の現在のものを提供しました）。

 curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.python.sh | bash
sudo apt-get install git-lfs
git lfs install

言語モデルファイルは、Git LFSを使用してアップロードされます。だから使用してください：

 git lfs fetch --all
git lfs pull

ディレクトリに元のファイルを取得します。

モデルファイル

各言語のモデルには、次のファイルが含まれています。

config.yaml ：fastspeech2モデルの構成ファイル。
energy_stats.npz ：合成中の正規化のためのエネルギー統計。
feats_stats.npz ：合成中の正規化の統計を備えています。
feats_type ：機能タイプ情報。
pitch_stats.npz ：合成中の正規化のためのピッチ統計。
model.pth ：事前に訓練されたFastSpeech2モデルの重み。

インストール

Minicondaを最初にインストールします。提供されたenvironment.ymlファイルを使用してコンドラ環境を作成します。

conda env create -f environment.yml

2.コンドラ環境をアクティブ化します（環境内部を確認してください。yamlファイル）：

conda activate tts-mfa-hifigan

Pytorchを個別にインストールします（要件に基づいて特定のバージョンをインストールできます）：

conda install pytorch torchvision cudatoolkit
pip install torchaudio

ボコーダ

メルスペクトルグラムからWAVファイルを生成するには、選択したボコーダーを使用できます。人気のあるオプションの1つは、Hifigan Vocoder（このリポジトリをクローンして、現在の作業ディレクトリに入れます）です。インストールおよび使用手順に選択したボコーダーのドキュメントを参照してください。

（Hifigan Vocoderを使用し、AryanとDravidian Languagesで調整されたボコーダーを提供しました）

使用法

ディレクトリパスは相対的です。（ text_preprocess_for_inference.pyおよびinconference.pyファイルに変更を加えます。必要な場所にフォルダー/ファイルパスを更新します。）

小文字で大文字と性別から始まり、引用符の合間にテキストをサンプリングする言語を提供してください。出力引数はオプションです。提供された名前は、出力ファイルに使用されます。

推論ファイルを使用して、テキスト入力からの音声を合成します。

python inference.py --sample_text " Your input text here " --language < language > --gender < gender > --output_file < file_name.wav OR path/to/file_name.wav >

例：

 python inference.py --sample_text "श्रीलंका और पाकिस्तान में खेला जा रहा एशिया कप अब तक का सबसे विवादित टूर्नामेंट होता जा रहा है।" --language hindi --gender male --output_file male_hindi_output.wav

ファイルはmale_hindi_output.wavとして保存され、現在のワーキングディレクトリ内にあります。 -output_file引数が与えられていない場合、現在の作業ディレクトリに<language>_<gender>_output.wavとして保存されます。