aura voice下載 - aura voice源代碼下載

aura voice

其他源碼

1.0.0

下載

向Aura打招呼

Aura是一名智能語音助手，可針對低延遲響應進行優化。它使用Vercel Edge功能，耳語語音識別，GPT-4O和11個實驗室TTS流。

查看演示·報告錯誤·請求功能

特徵

 ✅ A Siri-like voice assistant within your browser
✅ Optimized for low latency responses
✅ With the combined power of OpenAI, Whisper Speech Recognition and Eleven Labs

演示

您可以在這裡測試AURA：https：//voice.julianschoen.co

動機

語音助手已成為我們生活中不可或缺的一部分。他們無處不在。在我們的手機，汽車中，在我們的家中。為什麼不在網上？

直到最近，網絡上語音助手的主要問題是延遲。將音頻發送到服務器，生成LLM完成並發回演講花了很長時間。 OpenAI，11個實驗室和Vercel的最新進展使建立一個足夠快的語音助手可以在網絡上使用。

我很想讓這個倉庫成為想要建立自己的語音助手的人們的首選。我已經從事這個項目已經有一段時間了，我很高興能與您分享它。

關於延遲和用戶體驗的想法

語音助手的延遲是獲得良好用戶體驗的最重要因素。當前，有3個主要因素導致潛伏期：

抄錄音頻所需的時間（通過竊竊私語識別）
生成響應所需的時間（通過GPT-4O mini）
流式傳輸語音響應所需的時間（通過11個實驗室TTS）

根據我所做的一些測試，語音產生需要最多的時間。綜合文本的時間越長，生成語音所需的時間越長。語音產生的潛伏期也是最不可預測的。

可能的緩解策略可能將響應分為多個部分，然後將它們接一個地進行。這將使用戶在生成其餘的響應時開始收聽響應。我尚未實施此功能，但這是我正在考慮的事情。如果您對如何改善延遲有任何想法，請告訴我。

要記住的另一件事是感知到的等待時間。根據一些研究，如果在等待時給出了某種反饋，看來感知到的等待時間較短。我已經實現了一個簡單的“思考”通知，該通知在處理響應時顯示了，但是我敢肯定，有更好的方法可以改善感知到的等待時間。

安裝

克隆倉庫

git clone https://github.com/ntegrals/aura-voice

從https://openai.com/和https://eleverlabs.com/獲取API鍵

將.env.example文件複製到.env.local並添加您的API鍵

OPENAI_API_KEY= " YOUR OPENAI API KEY "
OPENAI_BASE_URL=(Optional)
NEXT_PUBLIC_ELEVENLABS_API_KEY= " YOUR ELEVENLABS API KEY "
NEXT_PUBLIC_ELEVENLABS_VOICE_ID= " YOUR ELEVENLABS VOICE ID "