Tensorvox是一種旨在在桌面中啟用用戶友好和輕巧的神經語音綜合的應用程序,旨在提高對此類技術的可訪問性。
它主要由TensorflowTTS供電,也由Coqui-TTS和Vits提供動力,它使用純C ++/QT編寫,使用TensorFlow C API與TensorFlow模型(前兩個)進行交互,而libtorch則用於Pytorch。這樣,我們就可以執行推斷,而無需安裝價值的Python庫,只有幾個DLL。
Google文檔中的詳細指南
從發行版中獲取副本,提取.zip並檢查Google Drive文件夾中的型號和安裝說明
如果您有興趣使用自己的型號,首先需要訓練,然後導出它。
Tensorvox支持來自三個存儲庫的模型:
這兩個例子應該為您提供足夠的指導來了解所需的內容。如果您想專門為此目的培訓模型,那麼我建議使用TensorFlowTTS,因為它是具有最好的支持的型號,並且VITS,因為它是最接近語言的東西,因此為英語(Coqui and Tftts,vits,vits)提供了開箱即用的支持,德國和西班牙(只有Tensorflowtts);也就是說,您無需做任何事情。您可以在不修改代碼的情況下添加語言,只要音素集為IPA(壓力或無施加),ARPA或全局電話(打開問題,我會向您解釋)
當前,僅支持Windows 10 X64(儘管我聽說過它在8.1上運行的報導)。
要求:
啟動構建(所有提供的庫):
deps文件夾與.pro和主源文件位於同一位置。請注意,要嘗試使用閃亮的新可執行文件,您需要下載如上所述的程序發行版,並用新版本中的新版本替換新版本,因此您將所有DLL都置於適當的位置。
TODO:添加從頭開始編譯的說明。
libtorch :https://pytorch.org/cppdocs/installing.html
Tensorflow C API :https://www.tensorflow.org/install/lang_c
cppflow (tf c api-> c ++包裝器):https://github.com/serizba/cppflow
Audiofile (用於WAV導出):https://github.com/adamstark/audiofile
無框黑暗樣式窗口:https://github.com/jorgen-vikinggod/qt-frameless-window-darkstyle
現代C ++的JSON :https://github.com/nlohmann/json
R8Brain-Free-SRC (重採樣):https://github.com/avaneev/r8brain-free-src
rnnoise (cmake版本,降低輸出):https://github.com/almogh52/rnnoise-cmake
Logitech LED照明SDK (鼠標RGB集成):https://www.logitechg.com/en-us/innovation/developer-lab.html
qcustomplot :https://www.qcustompoltot.com/index.php/introduction
libnumbertext :https://github.com/numbertext/libnumbertext
您可以在此處打開問題或加入Discord服務器並在此處討論/詢問任何內容
對於媒體/許可/任何其他正式的詢問,請發送到此電子郵件:[email protected]
該程序本身已獲得MIT許可,但是對於您使用的模型,適用其許可條款。例如,如果您在越南並使用TensorflowTTS型號,則必須在此處查看一些詳細信息