Publiqué un recorrido por todas las diversas funciones disponibles en YouTube, haga clic aquí para verlo.
El objetivo principal del proyecto es ofrecer discurso a texto a discurso.
Ahora tiene una GUI, y almacena todas las configuraciones que ingresa. Los detalles confidenciales como las teclas API se almacenan en el llavero del sistema.
En caso de que desee usar la CLI, simplemente llame al script desde la línea Comamnd con el argumento --cli.
Ofrece tres servicios de reconocimiento de voz separados:
Además, traduce automáticamente la salida en un idioma de elección del usuario (de los respaldados por el modelo multilingüe de ElevenLabs), si el usuario habla un idioma diferente.
Cada proveedor de reconocimiento de voz tiene un soporte de idioma diferente, así que asegúrese de leer los detalles.
La traducción se proporciona a través de DeepL para idiomas compatibles o el traductor de Google.
El texto reconocido y traducido se envía a un proveedor de TTS, de los cuales dos son compatibles:
elevenlabslib , un servicio TTS en línea de alta calidad pero pagado que admite múltiples idiomas.El proyecto también le permite sincronizar el texto detectado con una fuente de texto OBS utilizando OBSWS-Python.
ADVERTENCIA: Pytorch no es totalmente compatible con Python 3.11 (pero debería funcionar en la construcción nocturna). Recomiendo usar Python 3.10.6
Antes de cualquier otra cosa: necesitará tener FFMPEG en su ruta $. Puedes seguir este tutorial si estás en Windows
Además, si está en Linux, deberá asegurarse de que Portaudio esté instalado.
En Windows:
Clon the Repo: git clone https://github.com/lugia19/Echo-XI.git
Run run.bat: manejará todos los siguientes pasos para usted.
En cualquier otro lugar:
Clon the Repo: git clone https://github.com/lugia19/Echo-XI.git
Crea un venv: python -m venv venv
Activar el venv: venvScriptsactivate
Si lo hizo correctamente, debería haber (Venv) al comienzo de la línea de comando.
Instale los requisitos: pip install -r requirements.txt
Ejecutarlo.
Si desea usar la voz en algo como Discord, use VB-Cable. En el script, seleccione su micrófono normal como entrada, VB-Cable input como salida, luego en Discord Seleccione VB-Cable output como entrada. Sí, es un poco confuso.
Si está buscando usar el Vosk/RecasePunc y necesita algo además de los modelos incluidos (descargables), siga leyendo.
Los modelos VOSK se pueden encontrar aquí. La misma página también ofrece algunos modelos RecasePunc. Para otros adicionales, puede mirar en el repositorio de RecasePunc.
Para inglés, uso vosk-model-en-us-0.22 y vosk-recasepunc-en-0.22 . RecasePunc es técnicamente opcional cuando se usa Vosk, pero es muy recomendable para mejorar la salida.
El script busca modelos en los modelos/Vosk y las carpetas de modelos/RecasePunc.
Una estructura de carpeta típica se vería algo así (los modelos RecasePunc pueden estar en su propia carpeta o por sí mismos, dependiendo de la fuente de la que los descargue. Ambos son compatibles).
-misc
-models
-vosk
-vosk-model-en-us-0.22
-vosk-model-it-0.22
-recasepunc
-vosk-recasepunc-en-0.22
it.22000
-speechRecognition
-ttsProviders
helper.py
speechToSpeech.py
Para todo lo demás, simplemente ejecute el script y siga las instrucciones.
Si desea usar la voz en algo como Discord, use VB-Cable. En el script, seleccione su micrófono normal como entrada, VB-Cable input como salida, luego en Discord Seleccione VB-Cable output como entrada. Sí, es un poco confuso.