Fastspeech2_MFA下载Fastspeech2

Fastspeech2_MFA

Ai源码

1.0.0

下载

使用MFA的FastSpeech2模型

该存储库包含一种使用蒙特利尔强制对准器（MFA）进行语音合成的8种印度语言（男性和女性）的FastSpeech2模型。该模型能够从文本输入中生成MEL光谱图，可用于合成语音。

该存储库的尺寸很大：由于GitHub的尺寸约束，我们使用了Git LFS（请从链接中安装最新的Git LFS，我们在下面提供了当前的LF）。

 curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.python.sh | bash
sudo apt-get install git-lfs
git lfs install

使用GIT LFS上传语言模型文件。所以请使用：

 git lfs fetch --all
git lfs pull

在您的目录中获取原始文件。

模型文件

每种语言的模型包括以下文件：

config.yaml ：FastSpeech2模型的配置文件。
energy_stats.npz ：合成过程中标准化的能量统计。
feats_stats.npz ：合成过程中的统计量。
feats_type ：功能类型信息。
pitch_stats.npz ：合成过程中归一化的音高统计。
model.pth 。

安装

首先安装Miniconda。使用提供的environment.yml创建一个conda环境。

conda env create -f environment.yml

2.激活conda环境（请检查内部环境。YAML文件）：

conda activate tts-mfa-hifigan

单独安装Pytorch（您可以根据要求安装特定版本）：

conda install pytorch torchvision cudatoolkit
pip install torchaudio

Vocoder

为了从MEL-SPECTROGRAM生成WAV文件，您可以使用您选择的Vocoder。一个流行的选择是Hifigan Vocoder（克隆此存储库，并将其放在当前的工作目录中）。请参阅您选择的安装和使用说明的VOCODER的文档。

（我们使用了Hifigan Vocoder，并提供了使用Aryan和Dravidian语言调整的Vocoder）

用法

目录路径是相对的。（更改text_preprocess_for_inference.py和conperion.py.py文件。更新文件夹/文件路径在需要时。）

请在小案例中以大写字母和性别开头，并在引号之间进行示例文本。输出参数是可选的；提供的名称将用于输出文件。

使用推理文件从文本输入中综合语音：

python inference.py --sample_text " Your input text here " --language < language > --gender < gender > --output_file < file_name.wav OR path/to/file_name.wav >

例子：

 python inference.py --sample_text "श्रीलंका और पाकिस्तान में खेला जा रहा एशिया कप अब तक का सबसे विवादित टूर्नामेंट होता जा रहा है।" --language hindi --gender male --output_file male_hindi_output.wav

该文件将存储为male_hindi_output.wav ，并将在当前工作目录内存储。如果未给出-ox -oftput_file参数，则将存储为当前工作目录中的<language>_<gender>_output.wav 。