Ecoute es una herramienta de transcripción en vivo que proporciona transcripciones en tiempo real tanto para la entrada de micrófono del usuario (usted) como para la salida de los altavoces del usuario (altavoz) en un cuadro de texto. También genera una respuesta sugerida utilizando el GPT-3.5 de Openai para que el usuario diga en base a la transcripción en vivo de la conversación.
Ecoute está diseñado para ayudar a los usuarios en sus conversaciones al proporcionar transcripciones en vivo y generar respuestas contextualmente relevantes. Al aprovechar el poder del GPT-3.5 de OpenAI, Ecoute tiene como objetivo hacer que la comunicación sea más eficiente y agradable.
Siga estos pasos para configurar y ejecutar Ecoute en su máquina local.
Si FFMPEG no está instalado en su sistema, puede seguir los pasos a continuación para instalarlo.
Primero, debe instalar Chocolatey, un administrador de paquetes para Windows. Abra su PowerShell como administrador y ejecute el siguiente comando:
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
Una vez que se instala Chocolatey, puede instalar FFMPEG ejecutando el siguiente comando en su PowerShell:
choco install ffmpeg
Asegúrese de ejecutar estos comandos en una ventana de PowerShell con privilegios de administrador. Si enfrenta algún problema durante la instalación, puede visitar los sitios web oficiales de Chocolate y FFMPEG para su solución de problemas.
Clon el repositorio:
git clone https://github.com/SevaSk/ecoute
Navegue a la carpeta ecoute :
cd ecoute
Instale los paquetes requeridos:
pip install -r requirements.txt
Cree un archivo keys.py en el directorio de Ecoute y agregue su tecla API OpenAI:
Opción 1: puede utilizar un comando en su símbolo del sistema. Ejecute el siguiente comando, asegurando reemplazar la "tecla API" con su tecla API OpenAI real:
python -c "with open('keys.py', 'w', encoding='utf-8') as f: f.write('OPENAI_API_KEY="API KEY"')"
Opción 2: puede crear el archivo Keys.py manualmente. Abra su editor de texto de elección e ingrese el siguiente contenido:
OPENAI_API_KEY="API KEY"
Reemplace la "tecla API" con su tecla API OpenAI real. Guarde este archivo como keys.py dentro del directorio Ecoute.
Ejecute el guión principal:
python main.py
Para una versión mejor y más rápida que también funcione con la mayoría de los idiomas, use:
python main.py --api
Al iniciar, Ecoute comenzará a transcribir su entrada de micrófono y salida de altavoces en tiempo real, generando una respuesta sugerida basada en la conversación. Tenga en cuenta que el sistema puede tardar unos segundos antes de calentarse antes de que la transcripción se convierta en tiempo real.
La bandera --api usará la API Whisper para transcripciones. Esto mejora significativamente la velocidad y la precisión de la transcripción, y funciona en la mayoría de los idiomas (en lugar de solo inglés sin la bandera). Se espera que se convierta en la opción predeterminada en versiones futuras. Sin embargo, tenga en cuenta que el uso de la API Whisper consumirá más créditos de Operai que usar el modelo local. Este mayor costo se atribuye a las características y capacidades avanzadas que proporciona la API Whisper. A pesar del gasto adicional, las mejoras sustanciales en la velocidad y la precisión de la transcripción pueden hacer que sea una inversión valiosa para su caso de uso.
Si bien Ecoute proporciona sugerencias de transcripción y respuesta en tiempo real, existen varias limitaciones conocidas en su funcionalidad que debe tener en cuenta:
MIC y altavoz predeterminado: Ecoute está configurado actualmente para escuchar solo el micrófono y altavoz predeterminado en su sistema. No detectará el sonido de otros dispositivos o sistemas. Si desea usar un micrófono o altavoz diferente, deberá configurarlo como su dispositivo predeterminado en la configuración de su sistema.
Modelo Whisper : si no se usa la bandera --api, utilizamos la versión 'pequeña' del modelo Whisper ASR, debido a su bajo consumo de recursos y tiempos de respuesta rápidos. Sin embargo, este modelo puede no ser tan preciso como los modelos más grandes para transcribir ciertos tipos de discurso, incluidos acentos o palabras poco comunes.
Idioma : si no está utilizando la bandera --api, el modelo Whisper utilizado en Ecoute está configurado en inglés. Como resultado, no puede transcribir con precisión lenguajes o dialectos que no son ingleses. Estamos trabajando activamente para agregar soporte de varios idiomas a futuras versiones del programa.
Este proyecto tiene licencia bajo la licencia MIT; consulte el archivo de licencia para obtener más detalles.
¡Las contribuciones son bienvenidas! Siéntase libre de abrir problemas o enviar solicitudes de extracción para mejorar Ecoute.