ECOUTE ist ein Live-Transkriptionstool, das Echtzeit-Transkripte sowohl für die Mikrofoneingabe des Benutzers (Sie) als auch für die Lautsprecher (Lautsprecher) des Benutzers in einem Textfeld bietet. Es generiert auch eine vorgeschlagene Antwort mit OpenAIs GPT-3.5, damit der Benutzer auf der Grundlage der Live-Transkription des Gesprächs sagen kann.
ECOUTE soll Benutzern in ihren Gesprächen helfen, indem sie Live -Transkriptionen bereitstellen und kontextbezogene Antworten generieren. ECOUTE nutzt die Kraft des GPT-3.5 von OpenAI und zielt darauf ab, die Kommunikation effizienter und angenehmer zu gestalten.
Befolgen Sie diese Schritte, um Ecoute auf Ihrer lokalen Maschine einzurichten und auszuführen.
Wenn FFMPEG nicht in Ihrem System installiert ist, können Sie die folgenden Schritte ausführen, um es zu installieren.
Zunächst müssen Sie Schokolade, einen Paketmanager für Windows, installieren. Öffnen Sie Ihren PowerShell als Administrator und führen Sie den folgenden Befehl aus:
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
Sobald die Schokolade installiert ist, können Sie FFMPEG installieren, indem Sie den folgenden Befehl in Ihrem PowerShell ausführen:
choco install ffmpeg
Bitte stellen Sie sicher, dass Sie diese Befehle in einem PowerShell -Fenster mit Administratorrechten ausführen. Wenn Sie während der Installation Probleme haben, können Sie die offiziellen Schokoladen- und FFMPEG -Websites zur Fehlerbehebung besuchen.
Klonen Sie das Repository:
git clone https://github.com/SevaSk/ecoute
Navigieren Sie zum ecoute -Ordner:
cd ecoute
Installieren Sie die erforderlichen Pakete:
pip install -r requirements.txt
Erstellen Sie eine Datei keys.py im ECOUTE -Verzeichnis und fügen Sie Ihren OpenAI -API -Schlüssel hinzu:
Option 1: Sie können einen Befehl in Ihrer Eingabeaufforderung verwenden. Führen Sie den folgenden Befehl aus und stellen Sie sicher, dass Sie "API -Taste" durch Ihren tatsächlichen OpenAI -API -Schlüssel ersetzen:
python -c "with open('keys.py', 'w', encoding='utf-8') as f: f.write('OPENAI_API_KEY="API KEY"')"
Option 2: Sie können die Datei keys.py manuell erstellen. Öffnen Sie Ihren Texteditor der Wahl und geben Sie den folgenden Inhalt ein:
OPENAI_API_KEY="API KEY"
Ersetzen Sie "API -Schlüssel" durch Ihren tatsächlichen OpenAI -API -Schlüssel. Speichern Sie diese Datei als Keys.py im Ecoute -Verzeichnis.
Führen Sie das Hauptskript aus:
python main.py
Für eine bessere und schnellere Version, die auch mit den meisten Sprachen funktioniert, verwenden Sie:
python main.py --api
Bei der Initiierung beginnt ECOUTE mit der Transkription Ihres Mikrofoneingangs und der Lautsprecherausgabe in Echtzeit und generiert eine vorgeschlagene Antwort basierend auf der Konversation. Bitte beachten Sie, dass es einige Sekunden dauern kann, bis sich das System erwärmt, bevor die Transkription in Echtzeit wird.
Das Flag --API verwendet die Whisper -API für Transkriptionen. Dies verbessert die Transkriptionsgeschwindigkeit und -genauigkeit erheblich und funktioniert in den meisten Sprachen (anstatt nur Englisch ohne Flagge). Es wird erwartet, dass es in zukünftigen Veröffentlichungen zur Standardoption wird. Beachten Sie jedoch, dass die Verwendung der Whisper -API mehr OpenAI -Credits als die Verwendung des lokalen Modells verbraucht. Diese erhöhten Kosten werden auf die fortschrittlichen Funktionen und Fähigkeiten der Flüster -API zurückgeführt. Trotz der zusätzlichen Kosten kann die wesentliche Verbesserung der Geschwindigkeit und der Transkriptionsgenauigkeit eine lohnende Investition für Ihren Anwendungsfall machen.
Während ECOUTE Echtzeit-Transkriptions- und Reaktionsvorschläge liefert, gibt es einige Beschränkungen für die Funktionalität, die Sie kennen sollten:
Standard -Mikrofon und Lautsprecher: ECOUTE ist derzeit so konfiguriert, dass sie nur auf das Standardmikrofon und den Lautsprecher in Ihrem System anhören. Es erkennt keinen Ton von anderen Geräten oder Systemen. Wenn Sie ein anderes Mikrofon oder einen anderen Lautsprecher verwenden möchten, müssen Sie ihn als Standardgerät in Ihren Systemeinstellungen einstellen.
Whisper -Modell : Wenn das Flag -API nicht verwendet wird, verwenden wir die "winzige" Version des Whisper ASR -Modells aufgrund seines geringen Ressourcenverbrauchs und der schnellen Reaktionszeiten. Dieses Modell ist jedoch möglicherweise nicht so genau wie die größeren Modelle bei der Transkription bestimmter Spracharten, einschließlich Akzente oder ungewöhnlicher Wörter.
Sprache : Wenn Sie das -API -Flag nicht verwenden, ist das in Ecoute verwendete Flüstermodell auf Englisch eingestellt. Infolgedessen kann es nicht genaue Sprachen oder Dialekte nicht genau transkribieren. Wir arbeiten aktiv daran, zukünftige Versionen des Programms mehrsprachige Unterstützung zu verleihen.
Dieses Projekt ist unter der MIT -Lizenz lizenziert - Einzelheiten finden Sie in der Lizenzdatei.
Beiträge sind willkommen! Fühlen Sie sich frei, Probleme zu öffnen oder Pull -Anfragen zur Verbesserung der ECOUTE einzugeben.