TTS和相關應用的語音分析/合成系統。
該軟件基於本文中描述的方法:
F. Espic,C。 Valentini-Botinhao和S. King,“統計參數語音綜合的幅度和相光譜的直接建模”,《 Proc》。 Interspeech,斯德哥爾摩,瑞典,2017年8月。
@作者:Felipe Espic
更多信息,請訪問http://www.felipepic.com/magphase/
這是統計參數語音合成(SPSS)中使用的語音波形分析/合成系統。
分析模塊提取了四個描述幅度光譜,相光譜和F0的特徵流。這些功能可用於訓練回歸模型(例如DNN,LSTM,HMM等),因此可以生成預測的值。合成模塊將這些特徵在輸入處採用以生成最終合成波形。
要點:
有關詳細信息,請參見許可證文件。
pip install numpy scipy soundfile matplotlib
下載Magphase: git clone https://github.com/CSTR-Edinburgh/magphase.git
下載並編譯SPTK和收割者:
cd magphase/tools
./download_and_compile_tools.sh
這將為您自動編譯和配置SPTK和Reaper ...僅此而已!
只需轉到/demos ,閱讀演示腳本中的說明,這些說明非常構想。他們應該通過運行python <demo_script>來耗盡盒子。
我們推薦您首先使用demo_copy_synthesis_lossless.py播放,然後播放demo_copy_synthesis_low_dim.py他們都執行分析/合成例程。
然後,您可以修改演示腳本以滿足您的需求。
注意:只需記住從其位置運行腳本即可。
我們提供了兩個與梅林的官方分發分發的演示。這些展示了Merlin具有Magphase Integration的示例:
文本到語音:Merlin的SLT_arctic Demo(小和完整子集)
語音轉換:Merlin的聲音轉換演示(大致測試)
我們需要幫助來改進該軟件。您可以通過:
使用Merlin和Magphase構建TTS聲音,並與其他Vocoders進行比較,例如世界。然後,請告訴我們您的結果。我們僅測試了Magphase,只有幾個聲音,並且需要覆蓋更廣泛的範圍。由於人們使用新數據報告結果,我們最近解決了一些錯誤。
在Merlin實施本機變量幀速率支持。 Magphase以可變的幀速率方式(音高同步)工作。