Aura는 낮은 대기 시간 응답에 최적화 된 스마트 음성 어시스턴트입니다. Vercel Edge 함수, Whisper Speech 인식, GPT-4O 및 11 개의 실험실 TTS 스트리밍을 사용합니다.
데모보기 ·보고 버그 · 요청 기능

✅ A Siri-like voice assistant within your browser
✅ Optimized for low latency responses
✅ With the combined power of OpenAI, Whisper Speech Recognition and Eleven Labs
여기에서 오라를 테스트 할 수 있습니다 : https://voice.julianschoen.co
음성 조수는 우리 삶의 필수 부분이되었습니다. 그들은 어디에나 있습니다. 우리의 전화, 자동차, 집에서. 왜 웹에도 안되는가?
최근까지 웹에서 음성 어시스턴트의 주요 문제는 대기 시간이었습니다. 오디오를 서버로 보내고 LLM 완료를 생성하고 음성을 다시 보내는 데 너무 오래 걸렸습니다. 최근 OpenAi, 11 개의 실험실 및 Vercel의 발전으로 웹에서 사용하기에 충분히 빠른 음성 어시스턴트를 구축 할 수있었습니다.
나는이 repo가 자신의 음성 어시스턴트를 구축하고자하는 사람들을위한 장소가되기를 원합니다. 나는이 프로젝트를 잠시 동안 노력해 왔으며 당신과 공유하게되어 정말 기쁩니다.
음성 어시스턴트의 대기 시간은 우수한 사용자 경험의 가장 중요한 요소입니다. 현재 대기 시간에 기여하는 3 가지 주요 요인이 있습니다.
내가 한 일부 테스트를 기반으로, 언어 생성은 가장 많은 시간이 걸립니다. 텍스트가 합성 될수록 연설을 생성하는 데 시간이 오래 걸립니다. 언어 생성의 대기 시간도 가장 예측할 수 없습니다.
가능한 완화 전략은 응답을 여러 부분으로 나누고 서로 스트리밍 할 수 있습니다. 이렇게하면 나머지 응답이 생성되는 동안 사용자가 응답을 듣기 시작할 수 있습니다. 나는 이것을 아직 구현하지 않았지만, 내가 고려하고있는 것입니다. 대기 시간을 향상시키는 방법에 대한 아이디어가 있으면 알려주십시오.
명심해야 할 또 다른 것은 대기 시간을 인식하는 것입니다. 일부 연구를 바탕으로, 대기 중에 사용자에게 어떤 종류의 피드백이 주어지면 인식 된 대기 시간이 짧은 것으로 보입니다. 조수가 응답을 처리하는 동안 표시되는 간단한 "사고"알림을 구현했지만 인식 된 대기 시간을 개선하는 더 좋은 방법이 있다고 확신합니다.
레포를 복제하십시오
git clone https://github.com/ntegrals/aura-voicehttps://openai.com/ 및 https://elevenlabs.com/에서 API 키를 받으십시오.
.env.example 파일을 .env.local에 복사하고 API 키를 추가하십시오.
OPENAI_API_KEY= " YOUR OPENAI API KEY "
OPENAI_BASE_URL=(Optional)
NEXT_PUBLIC_ELEVENLABS_API_KEY= " YOUR ELEVENLABS API KEY "
NEXT_PUBLIC_ELEVENLABS_VOICE_ID= " YOUR ELEVENLABS VOICE ID "종속성을 설치하십시오
npm install앱을 실행하십시오
npm run devVercel에 배포하십시오
안녕! 이 라이브러리를 확인하고 사용해 주셔서 감사합니다. 프로젝트에 대해 논의하고, 멘토링이 필요하거나, 고용을 고려하거나, 채팅을하고 싶다면, 나는 기꺼이 이야기하게되어 기쁩니다.
연락을 취하기 위해 이메일을 보내주십시오 : [email protected] 또는 트위터에 메시지 : @julianschoen
당신이 무언가를 돌려주고 싶다면, 나는 커피 계정을 구입했습니다.

감사하고 멋진 하루 되세요
음성 보조원은 실험 응용 프로그램이며 보증, 명시 적 또는 묵시적 보증없이 "as-is"가 제공됩니다. 이 소프트웨어를 사용함으로써 귀하는 데이터 손실, 시스템 고장 또는 발생할 수있는 기타 문제를 포함하여 사용과 관련된 모든 위험을 가정하는 데 동의합니다.
이 프로젝트의 개발자와 기여자는이 소프트웨어를 사용한 결과 발생할 수있는 손실, 손해 또는 기타 결과에 대한 책임이나 책임을 받아들이지 않습니다. 귀하는 음성 어시스턴트가 제공 한 정보를 기반으로 한 모든 결정 및 조치에 대해서만 책임을집니다.
GPT-4 언어 모델의 사용은 토큰 사용으로 인해 비쌀 수 있습니다. 이 프로젝트를 활용함으로써 귀하는 자신의 토큰 사용 및 관련 비용을 모니터링하고 관리 할 책임이 있음을 인정합니다. OpenAI API 사용량을 정기적으로 확인하고 예상치 못한 요금을 방지하기 위해 필요한 제한이나 경고를 설정하는 것이 좋습니다.
음성 보조원을 사용함으로써 귀하는 개발자, 기고자 및 모든 청구, 손해, 손실, 부채, 비용 및 경비 (합리적인 변호사 수수료 포함) 또는 본 약관의 위반으로부터 발생하는 모든 청구, 손해, 손실, 부채, 비용 및 비용에 대해 면책, 방어 및 무해한 것을 보유하는 데 동의합니다.
MIT 라이센스에 따라 배포됩니다. 자세한 내용은 LICENSE 참조하십시오.