TTS和相关应用的语音分析/合成系统。
该软件基于本文中描述的方法:
F. Espic,C。Valentini-Botinhao和S. King,“统计参数语音综合的幅度和相光谱的直接建模”,《 Proc》。 Interspeech,斯德哥尔摩,瑞典,2017年8月。
@作者:Felipe Espic
更多信息,请访问http://www.felipepic.com/magphase/
这是统计参数语音合成(SPSS)中使用的语音波形分析/合成系统。
分析模块提取了四个描述幅度光谱,相光谱和F0的特征流。这些功能可用于训练回归模型(例如DNN,LSTM,HMM等),因此可以生成预测的值。合成模块将这些特征在输入处采用以生成最终合成波形。
要点:
有关详细信息,请参见许可证文件。
pip install numpy scipy soundfile matplotlib
下载Magphase: git clone https://github.com/CSTR-Edinburgh/magphase.git
下载并编译SPTK和收割者:
cd magphase/tools
./download_and_compile_tools.sh
这将为您自动编译和配置SPTK和Reaper ...仅此而已!
只需转到/demos ,阅读演示脚本中的说明,这些说明非常构想。他们应该通过运行python <demo_script>来耗尽盒子。
我们推荐您首先使用demo_copy_synthesis_lossless.py播放,然后播放demo_copy_synthesis_low_dim.py他们都执行分析/合成例程。
然后,您可以修改演示脚本以满足您的需求。
注意:只需记住从其位置运行脚本即可。
我们提供了两个与梅林的官方分发分发的演示。这些展示了Merlin具有Magphase Integration的示例:
文本到语音:Merlin的SLT_arctic Demo(小和完整子集)
语音转换:Merlin的声音转换演示(大致测试)
我们需要帮助来改进该软件。您可以通过:
使用Merlin和Magphase构建TTS声音,并与其他Vocoders进行比较,例如世界。然后,请告诉我们您的结果。我们仅测试了Magphase,只有几个声音,并且需要覆盖更广泛的范围。由于人们使用新数据报告结果,我们最近解决了一些错误。
在Merlin实施本机变量帧速率支持。 Magphase以可变的帧速率方式(音高同步)工作。