O ECOUTE é uma ferramenta de transcrição ao vivo que fornece transcrições em tempo real para a entrada de microfone do usuário (você) e a saída de alto-falantes do usuário em uma caixa de texto. Ele também gera uma resposta sugerida usando o GPT-3.5 do OpenAI para o usuário dizer com base na transcrição ao vivo da conversa.
O ECOUTE foi projetado para ajudar os usuários em suas conversas, fornecendo transcrições ao vivo e gerando respostas contextualmente relevantes. Ao alavancar o poder do GPT-3.5 do OpenAI, o Ecoute pretende tornar a comunicação mais eficiente e agradável.
Siga estas etapas para configurar e executar o Ecoute em sua máquina local.
Se o FFMPEG não estiver instalado no seu sistema, você poderá seguir as etapas abaixo para instalá -lo.
Primeiro, você precisa instalar o Chocolatey, um gerenciador de pacotes para o Windows. Abra seu PowerShell como administrador e execute o seguinte comando:
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
Depois que o chocolate é instalado, você pode instalar o FFMPEG executando o seguinte comando em seu PowerShell:
choco install ffmpeg
Certifique -se de executar esses comandos em uma janela do PowerShell com privilégios de administrador. Se você enfrentar algum problema durante a instalação, poderá visitar os sites oficiais de chocolate e FFMPEG para solucionar problemas.
Clone o repositório:
git clone https://github.com/SevaSk/ecoute
Navegue até a pasta ecoute :
cd ecoute
Instale os pacotes necessários:
pip install -r requirements.txt
Crie um arquivo keys.py no diretório Ecoute e adicione sua chave de API do OpenAI:
Opção 1: você pode utilizar um comando no seu prompt de comando. Execute o comando a seguir, garantindo substituir a "chave da API" pela sua chave de API do OpenAI real:
python -c "with open('keys.py', 'w', encoding='utf-8') as f: f.write('OPENAI_API_KEY="API KEY"')"
Opção 2: você pode criar o arquivo keys.py manualmente. Abra seu editor de texto de escolha e insira o seguinte conteúdo:
OPENAI_API_KEY="API KEY"
Substitua a "chave da API" pela sua chave de API do OpenAI real. Salve este arquivo como keys.py no diretório Ecoute.
Execute o script principal:
python main.py
Para uma versão mais melhor e mais rápida que também funciona com a maioria dos idiomas, use:
python main.py --api
Após o início, o ECOUTE começará a transcrever sua entrada de microfone e saída do alto-falante em tempo real, gerando uma resposta sugerida com base na conversa. Observe que pode levar alguns segundos para o sistema se aquecer antes que a transcrição se torne em tempo real.
O sinalizador -API usará a API Whisper para transcrições. Isso aumenta significativamente a velocidade e a precisão da transcrição e funciona na maioria dos idiomas (em vez de apenas inglês sem a bandeira). Espera -se que se torne a opção padrão em lançamentos futuros. No entanto, lembre -se de que o uso da API Whisper consumirá mais créditos do OpenAI do que usar o modelo local. Esse custo aumentado é atribuído aos recursos e capacidades avançados que a API Whisper fornece. Apesar da despesa adicional, as melhorias substanciais na precisão da velocidade e da transcrição podem torná -lo um investimento que vale a pena para o seu caso de uso.
Embora o Ecoute forneça sugestões de transcrição e resposta em tempo real, existem várias limitações conhecidas em sua funcionalidade que você deve estar ciente:
MIC e alto -falante padrão: o ecoute está atualmente configurado para ouvir apenas o microfone padrão e o alto -falante definido no seu sistema. Não detectará som de outros dispositivos ou sistemas. Se você deseja usar um microfone ou alto -falante diferente, precisará defini -lo como seu dispositivo padrão nas configurações do sistema.
Modelo de Whisper : Se o sinalizador --api não for usado, utilizamos a versão 'minúscula' do modelo Whisper ASR, devido ao seu baixo consumo de recursos e tempo de resposta rápida. No entanto, esse modelo pode não ser tão preciso quanto os modelos maiores na transcrição de certos tipos de fala, incluindo sotaques ou palavras incomuns.
Idioma : se você não estiver usando o sinalizador --api, o modelo de sussurro usado no ecoute está definido como inglês. Como resultado, pode não transcrever com precisão idiomas ou dialetos não ingleses. Estamos trabalhando ativamente para adicionar suporte multi-idioma a versões futuras do programa.
Este projeto está licenciado sob a licença do MIT - consulte o arquivo de licença para obter detalhes.
As contribuições são bem -vindas! Sinta -se à vontade para abrir questões ou enviar solicitações de tração para melhorar o ECOUTE.