Tensorvox是一种旨在在桌面中启用用户友好和轻巧的神经语音综合的应用程序,旨在提高对此类技术的可访问性。
它主要由TensorflowTTS供电,也由Coqui-TTS和Vits提供动力,它使用纯C ++/QT编写,使用TensorFlow C API与TensorFlow模型(前两个)进行交互,而libtorch则用于Pytorch。这样,我们就可以执行推断,而无需安装价值的Python库,只有几个DLL。
Google文档中的详细指南
从发行版中获取副本,提取.zip并检查Google Drive文件夹中的型号和安装说明
如果您有兴趣使用自己的型号,首先需要训练,然后导出它。
Tensorvox支持来自三个存储库的模型:
这两个例子应该为您提供足够的指导来了解所需的内容。如果您想专门为此目的培训模型,那么我建议使用TensorFlowTTS,因为它是具有最好的支持的型号,并且VITS,因为它是最接近语言的东西,因此为英语(Coqui and Tftts,vits,vits)提供了开箱即用的支持,德国和西班牙(只有Tensorflowtts);也就是说,您无需做任何事情。您可以在不修改代码的情况下添加语言,只要音素集为IPA(压力或无施加),ARPA或全局电话(打开问题,我会向您解释)
当前,仅支持Windows 10 X64(尽管我听说过它在8.1上运行的报道)。
要求:
启动构建(所有提供的库):
deps文件夹与.pro和主源文件位于同一位置。请注意,要尝试使用闪亮的新可执行文件,您需要下载如上所述的程序发行版,并用新版本中的新版本替换新版本,因此您将所有DLL都置于适当的位置。
TODO:添加从头开始编译的说明。
libtorch :https://pytorch.org/cppdocs/installing.html
Tensorflow C API :https://www.tensorflow.org/install/lang_c
cppflow (tf c api-> c ++包装器):https://github.com/serizba/cppflow
Audiofile (用于WAV导出):https://github.com/adamstark/audiofile
无框黑暗样式窗口:https://github.com/jorgen-vikinggod/qt-frameless-window-darkstyle
现代C ++的JSON :https://github.com/nlohmann/json
R8Brain-Free-SRC (重采样):https://github.com/avaneev/r8brain-free-src
rnnoise (cmake版本,降低输出):https://github.com/almogh52/rnnoise-cmake
Logitech LED照明SDK (鼠标RGB集成):https://www.logitechg.com/en-us/innovation/developer-lab.html
qcustomplot :https://www.qcustompoltot.com/index.php/introduction
libnumbertext :https://github.com/numbertext/libnumbertext
您可以在此处打开问题或加入Discord服务器并在此处讨论/询问任何内容
对于媒体/许可/任何其他正式的询问,请发送到此电子邮件:[email protected]
该程序本身已获得MIT许可,但是对于您使用的模型,适用其许可条款。例如,如果您在越南并使用TensorflowTTS型号,则必须在此处查看一些详细信息