Multi Tacotron Voice Cloning
1.0.0
该存储库是一种基于实时范围的语音(俄语 - 英语)实现。是一个四阶段的深度学习框架,可以从几秒钟的音频中创建语音的数值表示,并向我们提供文本对语音模型的条件。如果您需要英文版本,请使用原始实现。
该存储库是一种基于实时派遣的多语言(俄语 - 英语)音素实现。它由四个神经网络组成,可让您从几秒钟的声音中创建声音的数值表示,并使用它创建一个模型,以将文本转换为语音
使用Colab在线演示
您将需要以下计划,只需使用工具箱即可重新训练模型。
≥Python3.6 。
pytorch(> = 1.0.1)。
运行pip install -r requirements.txt以安装必要的软件包。
GPU是强制性的,但是如果您想使用该工具箱,则必须使用高层GPU。
下载最新的Geere。
| 姓名 | 语言 | 关联 | 评论 | 我的链接 | 评论 |
|---|---|---|---|---|---|
| 音素词典 | 恩,ru | 恩,ru | 音素词典 | 关联 | 俄语和英文音素词典 |
| librispeech | en | 关联 | 300个扬声器,360h干净的演讲 | ||
| voxceleb | en | 关联 | 7000名扬声器,很多小时不好的演讲 | ||
| m-ailabs | ru | 关联 | 3个扬声器,46h干净的演讲 | ||
| open_tts,open_stt | ru | open_tts,open_stt | 许多演讲者,很多小时不好的演讲 | 关联 | 清洁了一位发言人的4个小时的演讲。校正了阳极,分为最多7秒 |
| voxforge+有声读物 | ru | 关联 | 许多演讲者,25h各种质量 | 关联 | 我选择了好文件。闯入细分市场。从互联网上添加了一张有声读物。事实证明200名演讲者几分钟 |
| 鲁斯兰 | ru | 关联 | 一位发言人,40h好演讲 | 关联 | 在16kHz中纠正 |
| Mozilla | ru | 关联 | 50名演讲者,30h好演讲 | 关联 | 在16kHz中arred,在文件夹中分散了不同的用户 |
| 俄罗斯单曲 | ru | 关联 | 一位发言人,9h好演讲 | 关联 | 在16kHz中纠正 |
您可以尝试工具箱:
python demo_toolbox.py -d <datasets_root>
或者python demo_toolbox.py
预验证的模型
培训(以及其他语言)
培训(以及其他语言)
有任何疑问,请发送电子邮件
| URL | 指定 | 标题 | 实现来源 |
|---|---|---|---|
| 1806.04558 | SV2TTS | 从说话者验证转移到多钟文本到语音合成的学习 | 科伦丁 |
| 1802.08435 | Wavernn(Vocoder) | 有效的音频合成 | fatchord/wavernn |
| 1712.05884 | TACOTRON 2(合成器) | 天然TTS合成通过在MEL频谱图预测上调节波诺特 | Rayhane-Mamah/Tacotron-2 |
| 1710.10467 | GE2E(编码器) | 演讲者验证的全身端到端损失 | 科伦丁 |