Tensorvox-это приложение, предназначенное для обеспечения удобного и легкого синтеза нейронной речи в рабочем столе, направленном на повышение доступности к такой технологии.
Основанный в основном TensorFlowtts, а также Coqui-TTS и VIT, он написан в Pure C ++/QT, используя API TensorFlow C для взаимодействия с моделями TensorFlow (первые два) и Libtorch для Pytorch. Таким образом, мы можем сделать вывод без необходимости устанавливать гигабайты библиотек Python, всего несколько DLL.
Подробное руководство в Google Docs
Возьмите копию из выпусков, извлеките .zip и проверьте папку Google Drive для моделей и инструкций по установке
Если вы заинтересованы в использовании своей собственной модели, сначала вам нужно тренировать, а затем экспортировать ее.
Tensorvox поддерживает модели из трех репо:
Эти два примера должны предоставить вам достаточно рекомендаций, чтобы понять, что нужно. Если вы хотите обучить модель специально для этой цели, я рекомендую Tensorflowtts, так как она является той, которая имеет лучшую поддержку и Vit, поскольку это самое близкое к совершенству, как для языков, поддержка из ящика предоставляется для английского языка (Coqui и TFTTS, VIT), немецкий и испанский (только TensorFlowtts); То есть вам не придется ничего делать. Вы можете добавлять языки без изменения кода, если набор фонем находится в IPA (стресс или бездействие), ARPA или GlobalPhone (откройте проблему, и я объясню вам это)
В настоящее время поддерживаются только Windows 10 x64 (хотя я слышал, как он работает на 8.1).
Требования:
Заправленная сборка (со всеми предоставленными библиотеками):
deps находилась в том же месте, что и файлы .pro и основные исходные файлы.Обратите внимание, что, чтобы попробовать ваш блестящий новый исполняемый файл, вам нужно будет загрузить выпуск программы, как описано выше, и заменить исполняемый файл в этом выпуске на ваш новый, так что у вас есть все DLL на месте.
TODO: Добавьте инструкции для компиляции с нуля.
Libtorch : https://pytorch.org/cppdocs/installing.html
TensorFlow C API : https://www.tensorflow.org/install/lang_c
CPPFLOW (TF C API -> C ++ Обертка): https://github.com/serizba/cppflow
AudioFile (для wav -экспорта): https://github.com/adamstark/audiofile
Бесплатный темный стиль окно : https://github.com/jorgen-vikinggod/qt-franseless-window-darkstyle
JSON для современного C ++ : https://github.com/nlohmann/json
R8Brain-Free-Src (повторная дискретизация): https://github.com/avaneev/r8brain-free-src
rnnoise (версия cmake, дно-разорение вывода): https://github.com/almogh52/rnnoise-cmake
Logitech Led Ollumination SDK (интеграция мыши RGB): https://www.logitechg.com/en-us/innovation/developer-lab.html
QCustOmplot : https://www.qcustomplott.com/index.php/introduction
LibnumberText : https://github.com/numbertext/libnumbertext
Вы можете открыть проблему здесь или присоединиться к серверу Discord и обсудить/спросить что -нибудь там
Для медиа/лицензирования/любые другие запросы на формальные материалы, отправьте в это электронное письмо: [email protected]
Сама эта программа лицензирована на MIT, но для используемых вами моделей применяются условия их лицензии. Например, если вы находитесь во Вьетнаме и используете модели TensorFlowtts, вам придется проверить здесь для некоторых подробностей