ECOUTE est un outil de transcription en direct qui fournit des transcriptions en temps réel pour l'entrée de microphone de l'utilisateur (vous) et la sortie des haut-parleurs de l'utilisateur (haut-parleur) dans une zone de texte. Il génère également une réponse suggérée utilisant le GPT-3.5 d'OpenAI pour l'utilisateur à dire sur la base de la transcription en direct de la conversation.
ECOUTE est conçu pour aider les utilisateurs dans leurs conversations en fournissant des transcriptions en direct et en générant des réponses contextuellement pertinentes. En tirant parti de la puissance du GPT-3.5 d'OpenAI, ECOUTE vise à rendre la communication plus efficace et plus agréable.
Suivez ces étapes pour configurer et exécuter ECOUTE sur votre machine locale.
Si FFMPEG n'est pas installé dans votre système, vous pouvez suivre les étapes ci-dessous pour l'installer.
Tout d'abord, vous devez installer Chocolatey, un gestionnaire de packages pour Windows. Ouvrez votre PowerShell en tant qu'administrateur et exécutez la commande suivante:
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
Une fois le chocolat installé, vous pouvez installer FFMPEG en exécutant la commande suivante dans votre PowerShell:
choco install ffmpeg
Veuillez vous assurer que vous exécutez ces commandes dans une fenêtre PowerShell avec les privilèges de l'administrateur. Si vous rencontrez des problèmes lors de l'installation, vous pouvez visiter les sites Web officiels Chocolatey et FFMPEG pour le dépannage.
Clone le référentiel:
git clone https://github.com/SevaSk/ecoute
Accédez au dossier ecoute :
cd ecoute
Installez les packages requis:
pip install -r requirements.txt
Créez un fichier keys.py dans le répertoire ECOUTE et ajoutez votre touche API OpenAI:
Option 1: Vous pouvez utiliser une commande sur votre invite de commande. Exécutez la commande suivante, en vous assurant de remplacer la "touche API" par votre clé API OpenAI réelle:
python -c "with open('keys.py', 'w', encoding='utf-8') as f: f.write('OPENAI_API_KEY="API KEY"')"
Option 2: Vous pouvez créer manuellement le fichier keys.py. Ouvrez votre éditeur de texte de choix et entrez le contenu suivant:
OPENAI_API_KEY="API KEY"
Remplacez la "touche API" par votre clé API OpenAI. Enregistrez ce fichier sous Keys.py dans le répertoire ECOUTE.
Exécutez le script principal:
python main.py
Pour une version meilleure et plus rapide qui fonctionne également avec la plupart des langues, utilisez:
python main.py --api
Lors de l'initiation, ECOUTE commencera à transcrire votre entrée de microphone et votre sortie de haut-parleur en temps réel, générant une réponse suggérée basée sur la conversation. Veuillez noter qu'il pourrait prendre quelques secondes pour que le système se réchauffe avant que la transcription ne devienne en temps réel.
Le drapeau --API utilisera l'API Whisper pour les transcriptions. Cela améliore considérablement la vitesse et la précision de la transcription, et cela fonctionne dans la plupart des langues (plutôt que simplement l'anglais sans le drapeau). Il devrait devenir l'option par défaut dans les futures versions. Cependant, gardez à l'esprit que l'utilisation de l'API Whisper consommera des crédits plus ouverts que l'utilisation du modèle local. Ce coût accru est attribué aux fonctionnalités et capacités avancées fournies par l'API Whisper. Malgré les dépenses supplémentaires, les améliorations substantielles de la vitesse et de la précision de la transcription peuvent en faire un investissement valable pour votre cas d'utilisation.
Alors que ECOUTE fournit des suggestions de transcription et de réponse en temps réel, il existe plusieurs limitations connues à sa fonctionnalité que vous devez connaître:
Mic et haut-parleur par défaut: ECOUTE est actuellement configuré pour écouter uniquement le microphone et le haut-parleur par défaut dans votre système. Il ne détectera pas le son d'autres appareils ou systèmes. Si vous souhaitez utiliser un micro ou un haut-parleur différent, vous devrez le définir comme appareil par défaut dans les paramètres de votre système.
Modèle Whisper : Si le drapeau --API n'est pas utilisé, nous utilisons la version «minuscule» du modèle Whisper ASR, en raison de sa faible consommation de ressources et de ses temps de réponse rapide. Cependant, ce modèle peut ne pas être aussi précis que les modèles plus importants dans la transcription de certains types de discours, y compris les accents ou les mots rares.
Langue : Si vous n'utilisez pas l'indicateur --API Le modèle Whisper utilisé dans ECOUTE est défini sur l'anglais. En conséquence, il peut ne pas transcrire avec précision les langues ou les dialectes non anglais. Nous travaillons activement pour ajouter un support multi-langues aux versions futures du programme.
Ce projet est autorisé en vertu de la licence MIT - voir le fichier de licence pour plus de détails.
Les contributions sont les bienvenues! N'hésitez pas à ouvrir des problèmes ou à soumettre des demandes de traction pour améliorer la ECOUTE.