Download aura voice - Download de código -fonte aura voice

aura voice

Outro código-fonte

1.0.0

Baixar

Diga oi para aura

Aura é um assistente de voz inteligente otimizado para respostas de baixa latência. Ele usa funções Vercel Edge, Whisper Reconhecimento de fala, GPT-4O e Onze Labs TTS Streaming.

Visualizar demonstração · Relatório Bug · Solicitar recurso

Características

 ✅ A Siri-like voice assistant within your browser
✅ Optimized for low latency responses
✅ With the combined power of OpenAI, Whisper Speech Recognition and Eleven Labs

Demonstração

Você pode testar a aura aqui: https://voice.julianschoen.co

Motivação

Os assistentes de voz se tornaram parte integrante de nossas vidas. Eles estão por toda parte. Em nossos telefones, em nossos carros, em nossas casas. Por que também não na web?

Até recentemente, o principal problema com os assistentes de voz na web era a latência. Demorou muito tempo para enviar o áudio para o servidor, gerar uma conclusão do LLM e enviar o discurso de volta. Os recentes avanços do Openai, Onze Labs e Vercel tornaram possível criar um assistente de voz que seja rápido o suficiente para ser usado na web.

Eu adoraria que este repo se tornasse o local importante para as pessoas que desejam construir seu próprio assistente de voz. Estou trabalhando neste projeto há um tempo e estou realmente empolgado em compartilhá -lo com você.

Pensamentos sobre latência e experiência do usuário

A latência do assistente de voz é o fator mais importante para uma boa experiência do usuário. Atualmente, existem três fatores principais que contribuem para a latência:

O tempo necessário para transcrever o áudio (via Whisper Speech Recognition)
O tempo necessário para gerar a resposta (via GPT-4o Mini)
O tempo necessário para transmitir a resposta da fala (via onze laboratórios TTS)

Com base em alguns testes que fiz, a geração de fala leva mais tempo. Quanto mais o texto a ser sintetizado, mais tempo leva para gerar o discurso. A latência da geração de fala também é a mais imprevisível.

Uma possível estratégia de mitigação pode estar dividindo a resposta em várias partes e transmitindo uma após a outra. Isso permitiria ao usuário começar a ouvir a resposta enquanto o restante da resposta está sendo gerado. Ainda não implementei isso, mas é algo que estou considerando. Se você tiver alguma idéia de como melhorar a latência, entre em contato.

Outra coisa a ter em mente é o tempo de espera percebido. Com base em algumas pesquisas, parece que o tempo de espera percebido é mais curto se o usuário receber algum tipo de feedback enquanto espera. Implementei uma notificação simples de "pensamento" que é mostrada enquanto o assistente está processando a resposta, mas tenho certeza de que existem maneiras melhores de melhorar o tempo de espera percebido.

Instalação

Clone o repo

git clone https://github.com/ntegrals/aura-voice

Obtenha uma chave da API em https://openai.com/ e https://elevenlabs.com/

Copie o arquivo .env.example para .env.local e adicione suas chaves da API

OPENAI_API_KEY= " YOUR OPENAI API KEY "
OPENAI_BASE_URL=(Optional)
NEXT_PUBLIC_ELEVENLABS_API_KEY= " YOUR ELEVENLABS API KEY "
NEXT_PUBLIC_ELEVENLABS_VOICE_ID= " YOUR ELEVENLABS VOICE ID "

Instalar as dependências
```
npm install
```
Execute o aplicativo
```
npm run dev
```
Implantar para vercel

Contato

Oi! Obrigado por conferir e usar esta biblioteca. Se você estiver interessado em discutir seu projeto, exige orientação, considere me contratar ou apenas queira conversar - fico feliz em falar.

Você pode me enviar um e -mail para entrar em contato: [email protected] ou me mande uma mensagem no Twitter: @julianschoen

Se você só quiser devolver algo, eu tenho uma conta de café para me comprar:

Obrigado e tenha um dia incrível

Isenção de responsabilidade

Assistente de voz, é uma aplicação experimental e é fornecida "como está" sem qualquer garantia, expressa ou implícita. Ao usar este software, você concorda em assumir todos os riscos associados ao seu uso, incluindo, entre outros, a perda de dados, a falha do sistema ou quaisquer outros problemas que possam surgir.

Os desenvolvedores e colaboradores deste projeto não aceitam nenhuma responsabilidade ou responsabilidade por quaisquer perdas, danos ou outras consequências que possam ocorrer como resultado do uso deste software. Você é o único responsável por quaisquer decisões e ações tomadas com base nas informações fornecidas pelo Voice Assistant.

Observe que o uso do modelo de idioma GPT-4 pode ser caro devido ao seu uso de token. Ao utilizar este projeto, você reconhece que é responsável por monitorar e gerenciar seu próprio uso de token e os custos associados. É altamente recomendável verificar seu uso da API OpenAI regularmente e configurar todos os limites ou alertas necessários para evitar cobranças inesperadas.

Ao usar o Voice Assistant, você concorda em indenizar, defender e manter inofensivo os desenvolvedores, colaboradores e quaisquer partes afiliadas de e contra toda e qualquer reivindicação, danos, perdas, passivos, custos e despesas (incluindo honorários de advogados razoáveis) decorrentes do uso deste software ou da sua violação desses termos.

Licença

Distribuído sob a licença do MIT. Consulte LICENSE para obter mais informações.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-02-28
tamanho 597.08KB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
GLM 4 Voice

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
flutter_voice_friend

2024-11-01
Retrieval based Voice Conversion WebUI

2024-11-01
Interface SMS ilimitada do GOOGLE VOICE

2009-11-07

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0

Informações Relacionadas Todos