aura voice 다운로드 - aura voice 소스 코드 다운로드

aura voice

기타 소스코드

1.0.0

다운로드

오라에게 인사하십시오

Aura는 낮은 대기 시간 응답에 최적화 된 스마트 음성 어시스턴트입니다. Vercel Edge 함수, Whisper Speech 인식, GPT-4O 및 11 개의 실험실 TTS 스트리밍을 사용합니다.

데모보기 ·보고 버그 · 요청 기능

특징

 ✅ A Siri-like voice assistant within your browser
✅ Optimized for low latency responses
✅ With the combined power of OpenAI, Whisper Speech Recognition and Eleven Labs

데모

여기에서 오라를 테스트 할 수 있습니다 : https://voice.julianschoen.co

동기 부여

음성 조수는 우리 삶의 필수 부분이되었습니다. 그들은 어디에나 있습니다. 우리의 전화, 자동차, 집에서. 왜 웹에도 안되는가?

최근까지 웹에서 음성 어시스턴트의 주요 문제는 대기 시간이었습니다. 오디오를 서버로 보내고 LLM 완료를 생성하고 음성을 다시 보내는 데 너무 오래 걸렸습니다. 최근 OpenAi, 11 개의 실험실 및 Vercel의 발전으로 웹에서 사용하기에 충분히 빠른 음성 어시스턴트를 구축 할 수있었습니다.

나는이 repo가 자신의 음성 어시스턴트를 구축하고자하는 사람들을위한 장소가되기를 원합니다. 나는이 프로젝트를 잠시 동안 노력해 왔으며 당신과 공유하게되어 정말 기쁩니다.

대기 시간 및 사용자 경험에 대한 생각

음성 어시스턴트의 대기 시간은 우수한 사용자 경험의 가장 중요한 요소입니다. 현재 대기 시간에 기여하는 3 가지 주요 요인이 있습니다.

오디오를 전사하는 데 걸리는 시간 (Whisper Speech 인식을 통해)
응답을 생성하는 데 걸리는 시간 (GPT-4O Mini를 통해)
연설 응답을 스트리밍하는 데 걸리는 시간 (11 개의 실험실 TTS를 통해)

내가 한 일부 테스트를 기반으로, 언어 생성은 가장 많은 시간이 걸립니다. 텍스트가 합성 될수록 연설을 생성하는 데 시간이 오래 걸립니다. 언어 생성의 대기 시간도 가장 예측할 수 없습니다.

가능한 완화 전략은 응답을 여러 부분으로 나누고 서로 스트리밍 할 수 있습니다. 이렇게하면 나머지 응답이 생성되는 동안 사용자가 응답을 듣기 시작할 수 있습니다. 나는 이것을 아직 구현하지 않았지만, 내가 고려하고있는 것입니다. 대기 시간을 향상시키는 방법에 대한 아이디어가 있으면 알려주십시오.

명심해야 할 또 다른 것은 대기 시간을 인식하는 것입니다. 일부 연구를 바탕으로, 대기 중에 사용자에게 어떤 종류의 피드백이 주어지면 인식 된 대기 시간이 짧은 것으로 보입니다. 조수가 응답을 처리하는 동안 표시되는 간단한 "사고"알림을 구현했지만 인식 된 대기 시간을 개선하는 더 좋은 방법이 있다고 확신합니다.

설치

레포를 복제하십시오

git clone https://github.com/ntegrals/aura-voice

https://openai.com/ 및 https://elevenlabs.com/에서 API 키를 받으십시오.

.env.example 파일을 .env.local에 복사하고 API 키를 추가하십시오.

OPENAI_API_KEY= " YOUR OPENAI API KEY "
OPENAI_BASE_URL=(Optional)
NEXT_PUBLIC_ELEVENLABS_API_KEY= " YOUR ELEVENLABS API KEY "
NEXT_PUBLIC_ELEVENLABS_VOICE_ID= " YOUR ELEVENLABS VOICE ID "

종속성을 설치하십시오
```
npm install
```
앱을 실행하십시오
```
npm run dev
```
Vercel에 배포하십시오

연락하다

안녕! 이 라이브러리를 확인하고 사용해 주셔서 감사합니다. 프로젝트에 대해 논의하고, 멘토링이 필요하거나, 고용을 고려하거나, 채팅을하고 싶다면, 나는 기꺼이 이야기하게되어 기쁩니다.

연락을 취하기 위해 이메일을 보내주십시오 : [email protected] 또는 트위터에 메시지 : @julianschoen

당신이 무언가를 돌려주고 싶다면, 나는 커피 계정을 구입했습니다.

감사하고 멋진 하루 되세요

부인 성명

음성 보조원은 실험 응용 프로그램이며 보증, 명시 적 또는 묵시적 보증없이 "as-is"가 제공됩니다. 이 소프트웨어를 사용함으로써 귀하는 데이터 손실, 시스템 고장 또는 발생할 수있는 기타 문제를 포함하여 사용과 관련된 모든 위험을 가정하는 데 동의합니다.

이 프로젝트의 개발자와 기여자는이 소프트웨어를 사용한 결과 발생할 수있는 손실, 손해 또는 기타 결과에 대한 책임이나 책임을 받아들이지 않습니다. 귀하는 음성 어시스턴트가 제공 한 정보를 기반으로 한 모든 결정 및 조치에 대해서만 책임을집니다.

GPT-4 언어 모델의 사용은 토큰 사용으로 인해 비쌀 수 있습니다. 이 프로젝트를 활용함으로써 귀하는 자신의 토큰 사용 및 관련 비용을 모니터링하고 관리 할 책임이 있음을 인정합니다. OpenAI API 사용량을 정기적으로 확인하고 예상치 못한 요금을 방지하기 위해 필요한 제한이나 경고를 설정하는 것이 좋습니다.

음성 보조원을 사용함으로써 귀하는 개발자, 기고자 및 모든 청구, 손해, 손실, 부채, 비용 및 경비 (합리적인 변호사 수수료 포함) 또는 본 약관의 위반으로부터 발생하는 모든 청구, 손해, 손실, 부채, 비용 및 비용에 대해 면책, 방어 및 무해한 것을 보유하는 데 동의합니다.