TensorVox es una aplicación diseñada para habilitar la síntesis de habla neuronal fácil y fácil de usar en el escritorio, con el objetivo de aumentar la accesibilidad a dicha tecnología.
Impulsado principalmente por TensorFlowtts y también por COQUI-TTS y VITS, está escrito en C ++/Qt puro, utilizando la API TensorFlow C para interactuar con modelos TensorFlow (primeros dos) y Libtorch para Pytorch. De esta manera, podemos realizar una inferencia sin tener que instalar gigabytes en bibliotecas de Python, solo unas pocas DLL.
Guía detallada en Google Docs
Tome una copia de las versiones, extraiga el .zip y verifique la carpeta de Google Drive para ver los modelos e instrucciones de instalación
Si está interesado en usar su propio modelo, primero debe entrenarlo y luego exportarlo.
TensorVox admite modelos de tres repos:
Esos dos ejemplos deben proporcionarle suficiente orientación para comprender lo que se necesita. Si está buscando capacitar a un modelo específicamente para este propósito, le recomiendo que TensorFlowttts, ya que es el que tiene el mejor soporte y VITS, ya que es lo más cercano para perfeccionar los idiomas, se proporciona un soporte listón para usar en inglés (Coqui y Tftts, VITS), alemán y español (solo tensorflowtts); Es decir, no tendrás que hacer nada. Puede agregar idiomas sin modificar el código, siempre que el conjunto de fonemas sea IPA (estresado o no esténico), ARPA o GlobalPhone, (abra un problema y te lo explicaré))
Actualmente, solo es compatible con Windows 10 X64 (aunque he escuchado informes de TI en 8.1).
Requisitos:
Construcción preparada (con todas las bibliotecas proporcionadas):
deps esté en el mismo lugar que los archivos de fuente .pro y principal.Tenga en cuenta que para probar su nuevo ejecutable brillante deberá descargar una versión del programa como se describió anteriormente y reemplazar el ejecutable en esa versión con su nuevo, para que tenga todas las DLL en su lugar.
TODO: Agregue instrucciones para compilar desde cero.
Libtorch : https://pytorch.org/cppdocs/installing.html
Tensorflow C API : https://www.tensorflow.org/install/lang_c
CPPFLOW (TF C API -> C ++ Wrapper): https://github.com/serizba/cppflow
Audiofile (para exportación WAV): https://github.com/adamstark/audiofile
Ventana de estilo oscuro sin marco : https://github.com/jorgen-vikinggod/qt-frameless-window-darkstyle
JSON para C ++ moderno : https://github.com/nlohmann/json
R8Brain Free-Src (REAMPLING): https://github.com/avanev/r8brain-free-src
rnnoise (versión cmake, salida de Denoising): https://github.com/almogh52/rnnoise-cmake
Logitech LED Illumination SDK (Integración RGB del mouse): https://www.logitechg.com/en-us/innovation/developer-lab.html
Qcustomplot : https://www.qcustomplot.com/index.php/introduction
libnumbertext : https://github.com/numbertext/libnumberText
Puede abrir un problema aquí o unirse al servidor Discord y discutir/preguntar cualquier cosa allí
Para medios/licencias/cualquier otra consulta formal de cosas, envíe a este correo electrónico: [email protected]
Este programa en sí tiene licencia MIT, pero para los modelos que usa, se aplican los términos de sus licencias. Por ejemplo, si está en Vietnam y usa modelos TensorFlowtts, tendrá que consultar aquí para obtener algunos detalles