PortaSpeech下载 - PortaSpeech源代码下载

下载

PortAspeech -Pytorch实施

PORTASPEECH的PYTORCH实现：便携式和高质量的生成文本到语音。

音频样本可在 /演示中找到。

模块	普通的	小的	正常（纸）	小（纸）
全部的	24m	76m	2180万	6.7m
语言语言编码器	3.7m	14m	-	-
变性生机体	11m	28m	-	-
FlowPostnet	9.3m	3.4m	-	-

数据集是指以下文档中的数据集的名称，例如LJSpeech 。

您可以使用

 pip3 install -r requirements.txt

此外，还为Docker用户提供Dockerfile 。

您必须下载验证的型号，并将它们放入output/ckpt/DATASET/ 。

对于单扬声器TTS ，运行

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET

生成的话语将放入output/result/ 。

也支持批次推理，尝试

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

综合preprocessed_data/DATASET/val.txt中的所有话语。

可以通过指定所需的持续时间比来控制合成的话语的口语速率。例如，一个人可以将口语率提高20

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8

请注意，可控性起源于FastSpeech2，而不是PortAspeech的重要利益。

支持的数据集是

跑步

 python3 prepare_align.py --dataset DATASET

用于一些准备工作。

对于强制对准，蒙特利尔强制对准器（MFA）用于获得发音和音素序列之间的比对。此处提供了数据集的预提取对齐。您必须在preprocessed_data/DATASET/TextGrid/中解压缩文件。或者，您可以自己运行对准器。

之后，通过

 python3 preprocess.py --dataset DATASET

培训您的模型

 python3 train.py --dataset DATASET

有用的选项：

使用

 tensorboard --logdir output/log

在您的本地主机上提供张板。显示了损耗曲线，合成的MEL光谱图和音频。

对于Vocoder， Hifi-Gan和Melgan得到了支持。
在变异生长器中没有relu激活和分层，以避免捣碎的输出。
通过将长词分为子字并按MEL-SPECTROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPOR框架长度来加快语言辅助编码器中单词到词素对齐的融合。
有两种助手损失可以改善单词到词素的对准：“ CTC”和“ DGA”。您可以按照以下方式切换它们：
```
 # In the train.yaml
aligner :
    helper_type : " dga " # ["dga", "ctc", "none"]
```
- “ DGA”：对角线引导注意力（DGA）损失
- “ CTC”：连接派时间分类（CTC）带有前向算法的损失
- 如果您设置“无”，则不会在训练期间施加助手损失。
- 三种方法的对齐比较（“ DGA”，“ CTC”和“无”从上到下）：
- 默认设置为“ DGA”。尽管“ CTC”是最强的对齐方式，但输出质量和准确性比“ DGA”差。
- 但是，仍然有一个改善产出质量的空间。音频质量和主张（准确性）似乎是一个权衡。
将扩展到多扬声器TTS 。