非英语 - tacotron-2-Training Notebook
TACOTRON 2培训笔记本支持日语,法语和普通话
概述
本笔记本旨在更轻松地使用英语以外的其他语言培训TaCotron 2型号。目前,包括日语(Talqu和Neutalk语音),法语和普通话预审预周读的模型,但该计划是将来包括更多,例如德语。对于日语,建议使用中性语音和预验证的模型。
支持的音频
培训的音频应为16位22050Hz单WAV文件。请勿在文件名中包含空格。文件应仅包括字母数字(半宽),破折号和下划线。这意味着没有日语或中国的文件名或变音符号。音频剪辑应为10秒或更短的时间,以促进学习。根据我的测试,我建议至少有15分钟的音频。
转录
转录文件应为文本文档,每行具有以下格式: wavs/{name_of_file}.wav|{text} 。使用随附的G2P之一将转录转换为适当的语音输入。
训练
我希望笔记本中的步骤应该是相当自我解释的。在开始培训之前,将音频上传到WAV/文件夹中。以下是要记住的笔记:
- 理想情况下,批量大小应该是您拥有的WAV量的一个因素。例如,当训练15个WAV的模型时,我将批处理大小设置为5。
- 如果您在COLAB上有T4 GPU,请不要将批量尺寸设置高于14。
- 培训的输出目录应在Google驱动器中,以防您断开连接。
- 训练时,检查站将建立。删除旧的垃圾,以使您的驱动器存储空间可用。
- 当您获得适当的验证损失时,请停止培训。例如,我要做的是:少于30个文件= 0.07以下; 30-100文件=低于0.09; 150+文件=低于0.1;超过30分钟的数据=在0.14以下
归因
- haruqa的talqu语音系统(https://booth.pm/ja/items/2755336)
- Neutalk日本语音系统中性(https://github.com/neutrogic/neutalk)
- Haruqa的Talqu预算模型(https://github.com/haruqa/tacotron2/releases)
- 中立循环(https://github.com/neutrogic/neutalk)中性日语和普通话预审预告额
- 由MIDEMELWE创建的法国预算模型,并由中性训练(https://github.com/neutrogic)培训
- 基于Uberduck Tacotron 2培训笔记本(https://colab.research.google.com/drive/1wtilmdm9vf7ke79gzkeetbigan6iv3bg?usp = sharing)的代码)
- Nvidia(https://github.com/nvidia/tacotron2)实现Tacotron 2