Cross Speaker Emotion Transfer下载 - Cross Speaker Emotion Transfer源代码下载

Cross Speaker Emotion Transfer

Ai源码

v0.2.0

下载

跨言论 - 发言人转移-Pytorch实施

基于扬声器条件层归一化和文本到语音中的半监督培训，BOCTEDANCE的跨语言情绪转移的实施。

音频样本

音频样本可在 /演示中找到。

Quickstart

数据集指的是以下文档中的数据集的名称，例如RAVDESS 。

依赖性

您可以使用

 pip3 install -r requirements.txt

另外，安装FairSeq（官方文档，GitHub）以利用LConvBlock 。请在此处检查以解决安装它的任何问题。请注意， Dockerfile是为Docker用户提供的，但是您必须手动安装Fairseq。

推理

您必须下载验证的型号，并将它们放入output/ckpt/DATASET/ 。

要从参考音频中提取软性令牌，请运行

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --ref_audio REF_AUDIO_PATH --restore_step RESTORE_STEP --mode single --dataset DATASET

或者，要从情感ID中使用硬情绪令牌，请运行

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --emotion_id EMOTION_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

可以在preprocessed_data/DATASET/speakers.json上找到学习的扬声器的字典，并且生成的话语将放在output/result/ 。

批次推理

也支持批次推理，尝试

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

综合preprocessed_data/DATASET/val.txt中的所有话语。请注意，在此模式下仅支持来自给定情绪ID的硬情绪令牌。

训练

数据集

支持的数据集是

Ravdess：Ravdess的这一部分包含1440个文件：每位演员X 24演员= 1440。Ravdess包含24个专业演员（12名女性，12名男性），在中立的北美呼吸器中发声两个词汇匹配的陈述。言语情绪包括平静，快乐，悲伤，愤怒，恐惧，惊喜和厌恶表情。每个表达在两个级别的情绪强度（正常，强）下产生，并具有额外的中性表达。

您自己的语言和数据集可以在此处进行调整。

预处理

对于带有外部扬声器嵌入式的多扬声器TT ，下载cacknn softmax+三胞胎预算的Philipperemy DeepSpeaker的扬声器嵌入模型，并将其定位在./deepspeaker/pretrained_models/中。
跑步
```
 python3 prepare_align.py --dataset DATASET
```
用于一些准备工作。
对于强制对准，蒙特利尔强制对准器（MFA）用于获得发音和音素序列之间的比对。此处提供了数据集的预提取对齐。您必须在preprocessed_data/DATASET/TextGrid/中解压缩文件。或者，您可以自己运行对准器。
之后，通过
```
 python3 preprocess.py --dataset DATASET
```

训练

培训您的模型

 python3 train.py --dataset DATASET

有用的选项：

要使用自动混合精度，请将--use_amp参数附加到上述命令中。
培训师假定单节点多GPU培训。要使用特定的GPU，请在上述命令的开头指定CUDA_VISIBLE_DEVICES=<GPU_IDs> 。

张板

使用

 tensorboard --logdir output/log

在您的本地主机上提供张板。显示了损耗曲线，合成的MEL光谱图和音频。

笔记

由于数据集尺寸较小，因此当前的实现未以半监督的方式进行训练。但是，可以通过指定目标扬声器并通过没有情感分类器损失的情绪ID来轻松激活它。
在解码器中，由于内存问题，使用15 x 1 LCONV块而不是17 x 1。
嵌入多演讲者TTS设置的两个选项：从头开始培训扬声器嵌入器或使用预先训练的Philipperemy的DeepSpeaker模型（如Styler所做的那样）。您可以通过设置配置（在'none'和'DeepSpeaker'之间）进行切换。
Ravdess数据集中的深言显示了说话者之间的明确身份。下图显示了提取的扬声器嵌入的T-SNE图。