このリポジトリには、音声合成のためにモントリオール強制アライナー(MFA)を使用して実装された8つのインド言語(男性と女性の両方)のFastSpeech2モデルが含まれています。このモデルは、テキスト入力からメルスペクトルグラムを生成することができ、音声を合成するために使用できます。
リポジトリのサイズは大きいです。Githubのサイズの制約のためにGit LFSを使用しました(リンクから最新のGit LFSをインストールしてください。以下の現在のものを提供しました)。
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.python.sh | bash
sudo apt-get install git-lfs
git lfs install
言語モデルファイルは、Git LFSを使用してアップロードされます。だから使用してください:
git lfs fetch --all
git lfs pull
ディレクトリに元のファイルを取得します。
各言語のモデルには、次のファイルが含まれています。
config.yaml :fastspeech2モデルの構成ファイル。energy_stats.npz :合成中の正規化のためのエネルギー統計。feats_stats.npz :合成中の正規化の統計を備えています。feats_type :機能タイプ情報。pitch_stats.npz :合成中の正規化のためのピッチ統計。model.pth :事前に訓練されたFastSpeech2モデルの重み。 environment.ymlファイルを使用してコンドラ環境を作成します。 conda env create -f environment.yml2.コンドラ環境をアクティブ化します(環境内部を確認してください。yamlファイル):
conda activate tts-mfa-hifiganconda install pytorch torchvision cudatoolkit
pip install torchaudioメルスペクトルグラムからWAVファイルを生成するには、選択したボコーダーを使用できます。人気のあるオプションの1つは、Hifigan Vocoder(このリポジトリをクローンして、現在の作業ディレクトリに入れます)です。インストールおよび使用手順に選択したボコーダーのドキュメントを参照してください。
(Hifigan Vocoderを使用し、AryanとDravidian Languagesで調整されたボコーダーを提供しました)
ディレクトリパスは相対的です。 ( text_preprocess_for_inference.pyおよびinconference.pyファイルに変更を加えます。必要な場所にフォルダー/ファイルパスを更新します。)
小文字で大文字と性別から始まり、引用符の合間にテキストをサンプリングする言語を提供してください。出力引数はオプションです。提供された名前は、出力ファイルに使用されます。
推論ファイルを使用して、テキスト入力からの音声を合成します。
python inference.py --sample_text " Your input text here " --language < language > --gender < gender > --output_file < file_name.wav OR path/to/file_name.wav >例:
python inference.py --sample_text "श्रीलंका और पाकिस्तान में खेला जा रहा एशिया कप अब तक का सबसे विवादित टूर्नामेंट होता जा रहा है।" --language hindi --gender male --output_file male_hindi_output.wav
ファイルはmale_hindi_output.wavとして保存され、現在のワーキングディレクトリ内にあります。 -output_file引数が与えられていない場合、現在の作業ディレクトリに<language>_<gender>_output.wavとして保存されます。
このfastSpeech2モデルを研究や仕事で使用する場合は、引用を検討してください。
「Copyright 2023、Speech Technology Consortium、Bhashini、Meity、およびHema A Murthy&S Umesh、IIT Madrasのコンピューターサイエンスエンジニアリングおよび電気工学部。
シールド:
この作業は、Creative Commons Attribution 4.0 Internationalライセンスの下でライセンスされています。