TensorVox est une application conçue pour permettre une synthèse de la parole neuronale conviviale et légère dans le bureau, visant à accroître l'accessibilité à une telle technologie.
Propulsé par Tensorflowtts et également par Coqui-TTS et VITS, il est écrit en C ++ / Qt pur, en utilisant l'API TensorFlow C pour interagir avec les modèles TensorFlow (les deux premiers), et libtorch pour les pytorch. De cette façon, nous pouvons effectuer une inférence sans avoir à installer des gigaoctets de bibliothèques Python, juste quelques DLL.
Guide détaillé dans Google Docs
Prenez une copie des versions, extraire le .zip et vérifiez le dossier Google Drive pour les modèles et les instructions d'installation
Si vous souhaitez utiliser votre propre modèle, vous devez d'abord vous entraîner, puis l'exporter.
TensorVox prend en charge les modèles de trois dépôts:
Ces deux exemples devraient vous fournir suffisamment de conseils pour comprendre ce qui est nécessaire. Si vous cherchez à former un modèle spécifiquement à cet effet, je recommande Tensorflowtts, car c'est celui qui a le meilleur support, et les vites, car c'est la chose la plus proche de perfectionner comme pour les langues, le support prêt à l'emploi est fourni pour l'anglais (Coqui et TFTTS, VITS), allemand et espagnol (seul TensorFlowTTS); Autrement dit, vous n'aurez rien à faire. Vous pouvez ajouter des langues sans modifier le code, tant que l'ensemble de phonèmes est IPA (stressé ou non étendu), ARPA ou Globalphone, (ouvrir un problème et je vous l'explique)
Actuellement, seuls Windows 10 x64 (bien que j'aie entendu des rapports de fonctionnement sur 8.1) soit pris en charge.
Exigences:
Build amorcé (avec toutes les bibliothèques fournies):
deps soit au même endroit que les fichiers .pro et principaux.Notez que pour essayer votre nouvel exécutable brillant, vous devrez télécharger une version du programme comme décrit ci-dessus et remplacer l'exécutable dans cette version par votre nouveau, vous avez donc toutes les DLL en place.
TODO: Ajouter des instructions pour compiler à partir de zéro.
Libtorch : https://pytorch.org/cppdocs/installing.html
API Tensorflow C : https://www.tensorflow.org/install/lang_c
CPPFLOW (API TF C -> C ++ Wrapper): https://github.com/serizba/cppflow
AudioFile (pour l'exportation de WAV): https://github.com/adamstark/audiofile
Fenêtre de style sombre sans cadre : https://github.com/jorgen-vikinggod/qt-frameless-window-darkstyle
JSON pour C ++ moderne : https://github.com/nlohmann/json
R8BRAIN-FREE-SRC (Rééchantillonnage): https://github.com/avaneev/r8brain-free-src
rnnoise (version cmake, sortie de débraillé): https://github.com/almogh52/rnnoise-cmake
Logitech LED illumination SDK (Mouse RVB Intégration): https://www.logitechg.com/en-us/innovation/developer-lab.html
QCustomPlot : https://www.qcustomplot.com/index.php/introduction
libnumbertext : https://github.com/numbertext/libnumberText
Vous pouvez ouvrir un problème ici ou rejoindre le serveur Discord et discuter / demander n'importe quoi là-bas
Pour les médias / l'octroi de licences / toute autre information officielle, envoyez à cet e-mail: [email protected]
Ce programme lui-même est sous licence MIT, mais pour les modèles que vous utilisez, leurs termes de licence s'appliquent. Par exemple, si vous êtes au Vietnam et que vous utilisez des modèles Tensorflowtts, vous devrez vérifier ici quelques détails