Ich habe eine Tour durch alle verschiedenen Funktionen auf YouTube veröffentlicht. Klicken Sie hier, um sie anzuzeigen.
Das Hauptziel des Projekts ist es, die Sprache zu Text zur Sprache zu halten.
Es hat jetzt eine GUI und speichert alle Einstellungen, die Sie eingeben. Sensitive Details wie API -Schlüssel werden im Systemschlüsselring gespeichert.
Wenn Sie die CLI verwenden möchten, rufen Sie das Skript einfach mit dem Argument -CLI aus.
Es bietet drei separate Spracherkennungsdienste:
Darüber hinaus übersetzt es die Ausgabe automatisch in eine Sprache der Auswahl des Benutzers (von denen, die von ElevenLabs 'mehrsprachiger Modell unterstützt werden), wenn der Benutzer eine andere Sprache spricht.
Jeder Spracherkennungsanbieter hat unterschiedliche Sprachunterstützung. Lesen Sie daher unbedingt die Details.
Die Übersetzung erfolgt entweder für unterstützte Sprachen oder über Google Translate.
Der anerkannte und übersetzte Text wird dann an einen TTS -Anbieter gesendet, von dem zwei unterstützt werden:
elevenlabslib -Modul, ein hochwertiger, aber online -TTS -Service, der mehrere Sprachen unterstützt.Mit dem Projekt können Sie auch den erkannten Text mit einer OBS-Textquelle mit OBSWS-Python synchronisieren.
WARNUNG: Python 3.11 wird von Pytorch immer noch nicht vollständig unterstützt (aber es sollte am nächtlichen Build funktionieren). Ich würde empfehlen, Python 3.10.6 zu verwenden
Vor allem anderen: Sie müssen FFMPEG in Ihrem $ -Pad haben. Sie können dieses Tutorial folgen, wenn Sie unter Windows sind
Wenn Sie unter Linux sind, müssen Sie außerdem sicherstellen, dass Portaudio installiert ist.
Unter Windows:
Klon The Repo: git clone https://github.com/lugia19/Echo-XI.git
Run run.bat - Es wird alle folgenden Schritte für Sie durchgeführt.
Überall sonst:
Klon The Repo: git clone https://github.com/lugia19/Echo-XI.git
Erstellen Sie ein Venv: python -m venv venv
Aktivieren Sie das Venv: venvScriptsactivate
Wenn Sie es richtig gemacht haben, sollte es zu Beginn der Befehlszeile (Venv) geben.
Installieren Sie die Anforderungen: pip install -r requirements.txt
Führen Sie es aus.
Wenn Sie die Stimme auf so etwas wie Zwietracht verwenden möchten, verwenden Sie VB-Cable. Wählen Sie im Skript Ihr normales Mikrofon als Eingabe, VB-Cable input als Ausgabe, und dann bei der Diskord-Ausgabe VB-Cable output als Eingabe aus. Ja, es ist ein wenig verwirrend.
Wenn Sie den Vosk/Recasepunc verwenden möchten und etwas außer den enthaltenen (herunterladbaren) Modellen benötigen, lesen Sie weiter.
VOSK -Modelle finden Sie hier. Die gleiche Seite bietet auch einige Recasepunc -Modelle. Weitere Informationen finden Sie im Recasepunc Repo.
Für Englisch verwende ich vosk-model-en-us-0.22 und vosk-recasepunc-en-0.22 . Recasepunc ist technisch optional bei der Verwendung von VOSK, wird jedoch sehr empfohlen, um die Ausgabe zu verbessern.
Das Skript sucht nach Modellen unter den Modellen/VOSK- und Modellen/Recasepunc -Ordnern.
Eine typische Ordnerstruktur würde ungefähr so aussehen (Recasepunc -Modelle können entweder in ihrem eigenen Ordner oder alleine sein, je nachdem, aus welcher Quelle Sie sie herunterladen. Beide werden unterstützt.):):):):
-misc
-models
-vosk
-vosk-model-en-us-0.22
-vosk-model-it-0.22
-recasepunc
-vosk-recasepunc-en-0.22
it.22000
-speechRecognition
-ttsProviders
helper.py
speechToSpeech.py
Führen Sie für alles andere einfach das Skript aus und befolgen Sie die Anweisungen.
Wenn Sie die Stimme auf so etwas wie Zwietracht verwenden möchten, verwenden Sie VB-Cable. Wählen Sie im Skript Ihr normales Mikrofon als Eingabe, VB-Cable input als Ausgabe, und dann bei der Diskord-Ausgabe VB-Cable output als Eingabe aus. Ja, es ist ein wenig verwirrend.