该存储库包含一种使用蒙特利尔强制对准器(MFA)进行语音合成的8种印度语言(男性和女性)的FastSpeech2模型。该模型能够从文本输入中生成MEL光谱图,可用于合成语音。
该存储库的尺寸很大:由于GitHub的尺寸约束,我们使用了Git LFS(请从链接中安装最新的Git LFS,我们在下面提供了当前的LF)。
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.python.sh | bash
sudo apt-get install git-lfs
git lfs install
使用GIT LFS上传语言模型文件。所以请使用:
git lfs fetch --all
git lfs pull
在您的目录中获取原始文件。
每种语言的模型包括以下文件:
config.yaml :FastSpeech2模型的配置文件。energy_stats.npz :合成过程中标准化的能量统计。feats_stats.npz :合成过程中的统计量。feats_type :功能类型信息。pitch_stats.npz :合成过程中归一化的音高统计。model.pth 。 environment.yml创建一个conda环境。 conda env create -f environment.yml2.激活conda环境(请检查内部环境。YAML文件):
conda activate tts-mfa-hifiganconda install pytorch torchvision cudatoolkit
pip install torchaudio为了从MEL-SPECTROGRAM生成WAV文件,您可以使用您选择的Vocoder。一个流行的选择是Hifigan Vocoder(克隆此存储库,并将其放在当前的工作目录中)。请参阅您选择的安装和使用说明的VOCODER的文档。
(我们使用了Hifigan Vocoder,并提供了使用Aryan和Dravidian语言调整的Vocoder)
目录路径是相对的。 (更改text_preprocess_for_inference.py和conperion.py.py文件。更新文件夹/文件路径在需要时。)
请在小案例中以大写字母和性别开头,并在引号之间进行示例文本。输出参数是可选的;提供的名称将用于输出文件。
使用推理文件从文本输入中综合语音:
python inference.py --sample_text " Your input text here " --language < language > --gender < gender > --output_file < file_name.wav OR path/to/file_name.wav >例子:
python inference.py --sample_text "श्रीलंका और पाकिस्तान में खेला जा रहा एशिया कप अब तक का सबसे विवादित टूर्नामेंट होता जा रहा है।" --language hindi --gender male --output_file male_hindi_output.wav
该文件将存储为male_hindi_output.wav ,并将在当前工作目录内存储。如果未给出-ox -oftput_file参数,则将存储为当前工作目录中的<language>_<gender>_output.wav 。
如果您在研究或工作中使用此FastSpeech2模型,请考虑引用:
“版权2023,语音技术财团,巴希尼,梅蒂,梅玛(Hema a Murthy&s Umesh),计算机科学与工程系,IIT MADRAS,IIT MADRAS。保留所有权利”
盾:
这项工作是根据创意共享归因4.0国际许可证获得许可的。