J'ai publié une visite de toutes les différentes fonctionnalités disponibles sur YouTube, cliquez ici pour le voir.
L'objectif principal du projet est d'offrir la parole au texte à la parole.
Il a maintenant une interface graphique et stocke tous les paramètres que vous saisissez. Les détails sensibles tels que les clés API sont stockés dans le tracteur du système.
Dans le cas où vous souhaitez utiliser la CLI, appelez simplement le script de la ligne Comamnd avec l'argument - Cli.
Il offre trois services de reconnaissance vocale distincts:
De plus, il traduit automatiquement la sortie en un langage du choix de l'utilisateur (parmi ceux pris en charge par le modèle multilingue d'ElevenLabs), si l'utilisateur parle une langue différente.
Chaque fournisseur de reconnaissance vocale a un support linguistique différent, alors assurez-vous de lire les détails.
La traduction est fournie via Deepl pour les langues prises en charge, soit Google Translate.
Le texte reconnu et traduit est ensuite envoyé à un fournisseur TTS, dont deux sont pris en charge:
elevenlabslib , un service TTS en ligne de haute qualité mais payé qui prend en charge plusieurs langues.Le projet vous permet également de synchroniser le texte détecté avec une source de texte OBS utilisant OBSWS-Python.
AVERTISSEMENT: Python 3.11 n'est toujours pas entièrement pris en charge par Pytorch (mais cela devrait fonctionner sur la construction nocturne). Je recommanderais d'utiliser Python 3.10.6
Avant toute autre chose: vous devrez avoir FFMPEG dans votre chemin $. Vous pouvez suivre ce tutoriel si vous êtes sous Windows
De plus, si vous êtes sur Linux, vous devrez vous assurer que Portaudio est installé.
Sur Windows:
Clone The Repo: git clone https://github.com/lugia19/Echo-XI.git
Run run.bat - il gérera toutes les étapes suivantes pour vous.
Partout ailleurs:
Clone The Repo: git clone https://github.com/lugia19/Echo-XI.git
Créer un Venv: python -m venv venv
Activer le venv: venvScriptsactivate
Si vous l'avez fait correctement, il devrait y avoir (Venv) au début de la ligne de commande.
Installer les exigences: pip install -r requirements.txt
Exécutez-le.
Si vous souhaitez utiliser la voix sur quelque chose comme Discord, utilisez VB-Cable. Dans le script, sélectionnez votre microphone normal comme entrée, VB-Cable input comme sortie, puis sur Discord Sélectionnez VB-Cable output comme entrée. Oui, c'est un peu déroutant.
Si vous cherchez à utiliser le VOSK / RECADASEPUNC et que vous avez besoin de quelque chose en plus des modèles inclus (téléchargeables), lisez la suite.
Des modèles VOSK peuvent être trouvés ici. La même page propose également des modèles recasepunc. Pour des autres, vous pouvez regarder dans le repo recasepunc.
Pour l'anglais, j'utilise vosk-model-en-us-0.22 et vosk-recasepunc-en-0.22 . Recasepunc est techniquement facultatif lors de l'utilisation de VOSK, mais fortement recommandé pour améliorer la sortie.
Le script recherche des modèles sous les modèles / vosk et les modèles / dossiers recasépunc.
Une structure de dossiers typique ressemblerait à ceci (les modèles recasepunc peuvent être dans leur propre dossier ou seul, selon la source à partir de laquelle vous les téléchargez. Les deux sont pris en charge.):
-misc
-models
-vosk
-vosk-model-en-us-0.22
-vosk-model-it-0.22
-recasepunc
-vosk-recasepunc-en-0.22
it.22000
-speechRecognition
-ttsProviders
helper.py
speechToSpeech.py
Pour tout le reste, exécutez simplement le script et suivez les instructions.
Si vous souhaitez utiliser la voix sur quelque chose comme Discord, utilisez VB-Cable. Dans le script, sélectionnez votre microphone normal comme entrée, VB-Cable input comme sortie, puis sur Discord Sélectionnez VB-Cable output comme entrée. Oui, c'est un peu déroutant.