Aura是一名智能語音助手,可針對低延遲響應進行優化。它使用Vercel Edge功能,耳語語音識別,GPT-4O和11個實驗室TTS流。
查看演示·報告錯誤·請求功能

✅ A Siri-like voice assistant within your browser
✅ Optimized for low latency responses
✅ With the combined power of OpenAI, Whisper Speech Recognition and Eleven Labs
您可以在這裡測試AURA:https://voice.julianschoen.co
語音助手已成為我們生活中不可或缺的一部分。他們無處不在。在我們的手機,汽車中,在我們的家中。為什麼不在網上?
直到最近,網絡上語音助手的主要問題是延遲。將音頻發送到服務器,生成LLM完成並發回演講花了很長時間。 OpenAI,11個實驗室和Vercel的最新進展使建立一個足夠快的語音助手可以在網絡上使用。
我很想讓這個倉庫成為想要建立自己的語音助手的人們的首選。我已經從事這個項目已經有一段時間了,我很高興能與您分享它。
語音助手的延遲是獲得良好用戶體驗的最重要因素。當前,有3個主要因素導致潛伏期:
根據我所做的一些測試,語音產生需要最多的時間。綜合文本的時間越長,生成語音所需的時間越長。語音產生的潛伏期也是最不可預測的。
可能的緩解策略可能將響應分為多個部分,然後將它們接一個地進行。這將使用戶在生成其餘的響應時開始收聽響應。我尚未實施此功能,但這是我正在考慮的事情。如果您對如何改善延遲有任何想法,請告訴我。
要記住的另一件事是感知到的等待時間。根據一些研究,如果在等待時給出了某種反饋,看來感知到的等待時間較短。我已經實現了一個簡單的“思考”通知,該通知在處理響應時顯示了,但是我敢肯定,有更好的方法可以改善感知到的等待時間。
克隆倉庫
git clone https://github.com/ntegrals/aura-voice從https://openai.com/和https://eleverlabs.com/獲取API鍵
將.env.example文件複製到.env.local並添加您的API鍵
OPENAI_API_KEY= " YOUR OPENAI API KEY "
OPENAI_BASE_URL=(Optional)
NEXT_PUBLIC_ELEVENLABS_API_KEY= " YOUR ELEVENLABS API KEY "
NEXT_PUBLIC_ELEVENLABS_VOICE_ID= " YOUR ELEVENLABS VOICE ID "安裝依賴項
npm install運行應用程序
npm run dev部署到Vercel
你好!感謝您查看並使用此庫。如果您有興趣討論您的項目,需要指導,考慮僱用我,或者只是想聊天 - 我很高興聊天。
您可以給我發送電子郵件以與我聯繫:[email protected]或在Twitter上給我發消息:@julianschoen
如果您只想回饋東西,我就給我買了一個咖啡帳戶:

謝謝,祝你有美好的一天
語音助手是一個實驗應用,並提供“原樣”,而無需任何明示或暗示的保修。通過使用此軟件,您同意假設與其使用相關的所有風險,包括但不限於數據丟失,系統故障或可能出現的任何其他問題。
該項目的開發人員和貢獻者對由於使用本軟件而可能造成的任何損失,損害或其他後果都不承擔任何責任或責任。根據語音助手提供的信息,您對任何決定和行動都負責。
請注意,由於其令牌用法,GPT-4語言模型的使用可能會很昂貴。通過利用該項目,您承認您有責任監視和管理自己的令牌使用量和相關成本。強烈建議定期檢查OpenAI API使用情況,並設置任何必要的限製或警報以防止意外費用。
通過使用語音助手,您同意賠償,捍衛和持有無害的開發商,貢獻者以及任何與任何索賠,損害,損失,負債,成本和費用(包括合理的律師費)(包括合理的律師費用),這是您使用該軟件或您違反這些條款的原因。
根據MIT許可分發。有關更多信息,請參見LICENSE 。