Aura é um assistente de voz inteligente otimizado para respostas de baixa latência. Ele usa funções Vercel Edge, Whisper Reconhecimento de fala, GPT-4O e Onze Labs TTS Streaming.
Visualizar demonstração · Relatório Bug · Solicitar recurso

✅ A Siri-like voice assistant within your browser
✅ Optimized for low latency responses
✅ With the combined power of OpenAI, Whisper Speech Recognition and Eleven Labs
Você pode testar a aura aqui: https://voice.julianschoen.co
Os assistentes de voz se tornaram parte integrante de nossas vidas. Eles estão por toda parte. Em nossos telefones, em nossos carros, em nossas casas. Por que também não na web?
Até recentemente, o principal problema com os assistentes de voz na web era a latência. Demorou muito tempo para enviar o áudio para o servidor, gerar uma conclusão do LLM e enviar o discurso de volta. Os recentes avanços do Openai, Onze Labs e Vercel tornaram possível criar um assistente de voz que seja rápido o suficiente para ser usado na web.
Eu adoraria que este repo se tornasse o local importante para as pessoas que desejam construir seu próprio assistente de voz. Estou trabalhando neste projeto há um tempo e estou realmente empolgado em compartilhá -lo com você.
A latência do assistente de voz é o fator mais importante para uma boa experiência do usuário. Atualmente, existem três fatores principais que contribuem para a latência:
Com base em alguns testes que fiz, a geração de fala leva mais tempo. Quanto mais o texto a ser sintetizado, mais tempo leva para gerar o discurso. A latência da geração de fala também é a mais imprevisível.
Uma possível estratégia de mitigação pode estar dividindo a resposta em várias partes e transmitindo uma após a outra. Isso permitiria ao usuário começar a ouvir a resposta enquanto o restante da resposta está sendo gerado. Ainda não implementei isso, mas é algo que estou considerando. Se você tiver alguma idéia de como melhorar a latência, entre em contato.
Outra coisa a ter em mente é o tempo de espera percebido. Com base em algumas pesquisas, parece que o tempo de espera percebido é mais curto se o usuário receber algum tipo de feedback enquanto espera. Implementei uma notificação simples de "pensamento" que é mostrada enquanto o assistente está processando a resposta, mas tenho certeza de que existem maneiras melhores de melhorar o tempo de espera percebido.
Clone o repo
git clone https://github.com/ntegrals/aura-voiceObtenha uma chave da API em https://openai.com/ e https://elevenlabs.com/
Copie o arquivo .env.example para .env.local e adicione suas chaves da API
OPENAI_API_KEY= " YOUR OPENAI API KEY "
OPENAI_BASE_URL=(Optional)
NEXT_PUBLIC_ELEVENLABS_API_KEY= " YOUR ELEVENLABS API KEY "
NEXT_PUBLIC_ELEVENLABS_VOICE_ID= " YOUR ELEVENLABS VOICE ID "Instalar as dependências
npm installExecute o aplicativo
npm run devImplantar para vercel
Oi! Obrigado por conferir e usar esta biblioteca. Se você estiver interessado em discutir seu projeto, exige orientação, considere me contratar ou apenas queira conversar - fico feliz em falar.
Você pode me enviar um e -mail para entrar em contato: [email protected] ou me mande uma mensagem no Twitter: @julianschoen
Se você só quiser devolver algo, eu tenho uma conta de café para me comprar:

Obrigado e tenha um dia incrível
Assistente de voz, é uma aplicação experimental e é fornecida "como está" sem qualquer garantia, expressa ou implícita. Ao usar este software, você concorda em assumir todos os riscos associados ao seu uso, incluindo, entre outros, a perda de dados, a falha do sistema ou quaisquer outros problemas que possam surgir.
Os desenvolvedores e colaboradores deste projeto não aceitam nenhuma responsabilidade ou responsabilidade por quaisquer perdas, danos ou outras consequências que possam ocorrer como resultado do uso deste software. Você é o único responsável por quaisquer decisões e ações tomadas com base nas informações fornecidas pelo Voice Assistant.
Observe que o uso do modelo de idioma GPT-4 pode ser caro devido ao seu uso de token. Ao utilizar este projeto, você reconhece que é responsável por monitorar e gerenciar seu próprio uso de token e os custos associados. É altamente recomendável verificar seu uso da API OpenAI regularmente e configurar todos os limites ou alertas necessários para evitar cobranças inesperadas.
Ao usar o Voice Assistant, você concorda em indenizar, defender e manter inofensivo os desenvolvedores, colaboradores e quaisquer partes afiliadas de e contra toda e qualquer reivindicação, danos, perdas, passivos, custos e despesas (incluindo honorários de advogados razoáveis) decorrentes do uso deste software ou da sua violação desses termos.
Distribuído sob a licença do MIT. Consulte LICENSE para obter mais informações.