該存儲庫包含一種使用蒙特利爾強制對準器(MFA)進行語音合成的8種印度語言(男性和女性)的FastSpeech2模型。該模型能夠從文本輸入中生成MEL光譜圖,可用於合成語音。
該存儲庫的尺寸很大:由於GitHub的尺寸約束,我們使用了Git LFS(請從鏈接中安裝最新的Git LFS,我們在下面提供了當前的LF)。
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.python.sh | bash
sudo apt-get install git-lfs
git lfs install
使用GIT LFS上傳語言模型文件。所以請使用:
git lfs fetch --all
git lfs pull
在您的目錄中獲取原始文件。
每種語言的模型包括以下文件:
config.yaml :FastSpeech2模型的配置文件。energy_stats.npz :合成過程中標準化的能量統計。feats_stats.npz :合成過程中的統計量。feats_type :功能類型信息。pitch_stats.npz :合成過程中歸一化的音高統計。model.pth 。 environment.yml創建一個conda環境。 conda env create -f environment.yml2.激活conda環境(請檢查內部環境。YAML文件):
conda activate tts-mfa-hifiganconda install pytorch torchvision cudatoolkit
pip install torchaudio為了從MEL-SPECTROGRAM生成WAV文件,您可以使用您選擇的Vocoder。一個流行的選擇是Hifigan Vocoder(克隆此存儲庫,並將其放在當前的工作目錄中)。請參閱您選擇的安裝和使用說明的VOCODER的文檔。
(我們使用了Hifigan Vocoder,並提供了使用Aryan和Dravidian語言調整的Vocoder)
目錄路徑是相對的。 (更改text_preprocess_for_inference.py和conperion.py.py文件。更新文件夾/文件路徑在需要時。)
請在小案例中以大寫字母和性別開頭,並在引號之間進行示例文本。輸出參數是可選的;提供的名稱將用於輸出文件。
使用推理文件從文本輸入中綜合語音:
python inference.py --sample_text " Your input text here " --language < language > --gender < gender > --output_file < file_name.wav OR path/to/file_name.wav >例子:
python inference.py --sample_text "श्रीलंका और पाकिस्तान में खेला जा रहा एशिया कप अब तक का सबसे विवादित टूर्नामेंट होता जा रहा है।" --language hindi --gender male --output_file male_hindi_output.wav
該文件將存儲為male_hindi_output.wav ,並將在當前工作目錄內存儲。如果未給出-ox -oftput_file參數,則將存儲為當前工作目錄中的<language>_<gender>_output.wav 。
如果您在研究或工作中使用此FastSpeech2模型,請考慮引用:
“版權2023,語音技術財團,巴希尼,梅蒂,梅瑪(Hema a Murthy&s Umesh),計算機科學與工程系,IIT MADRAS,IIT MADRAS。保留所有權利”
盾:
這項工作是根據創意共享歸因4.0國際許可證獲得許可的。