Aura是一名智能语音助手,可针对低延迟响应进行优化。它使用Vercel Edge功能,耳语语音识别,GPT-4O和11个实验室TTS流。
查看演示·报告错误·请求功能

✅ A Siri-like voice assistant within your browser
✅ Optimized for low latency responses
✅ With the combined power of OpenAI, Whisper Speech Recognition and Eleven Labs
您可以在这里测试AURA:https://voice.julianschoen.co
语音助手已成为我们生活中不可或缺的一部分。他们无处不在。在我们的手机,汽车中,在我们的家中。为什么不在网上?
直到最近,网络上语音助手的主要问题是延迟。将音频发送到服务器,生成LLM完成并发回演讲花了很长时间。 OpenAI,11个实验室和Vercel的最新进展使建立一个足够快的语音助手可以在网络上使用。
我很想让这个仓库成为想要建立自己的语音助手的人们的首选。我已经从事这个项目已经有一段时间了,我很高兴能与您分享它。
语音助手的延迟是获得良好用户体验的最重要因素。当前,有3个主要因素导致潜伏期:
根据我所做的一些测试,语音产生需要最多的时间。综合文本的时间越长,生成语音所需的时间越长。语音产生的潜伏期也是最不可预测的。
可能的缓解策略可能将响应分为多个部分,然后将它们接一个地进行。这将使用户在生成其余的响应时开始收听响应。我尚未实施此功能,但这是我正在考虑的事情。如果您对如何改善延迟有任何想法,请告诉我。
要记住的另一件事是感知到的等待时间。根据一些研究,如果在等待时给出了某种反馈,看来感知到的等待时间较短。我已经实现了一个简单的“思考”通知,该通知在处理响应时显示了,但是我敢肯定,有更好的方法可以改善感知到的等待时间。
克隆仓库
git clone https://github.com/ntegrals/aura-voice从https://openai.com/和https://eleverlabs.com/获取API键
将.env.example文件复制到.env.local并添加您的API键
OPENAI_API_KEY= " YOUR OPENAI API KEY "
OPENAI_BASE_URL=(Optional)
NEXT_PUBLIC_ELEVENLABS_API_KEY= " YOUR ELEVENLABS API KEY "
NEXT_PUBLIC_ELEVENLABS_VOICE_ID= " YOUR ELEVENLABS VOICE ID "安装依赖项
npm install运行应用程序
npm run dev部署到Vercel
你好!感谢您查看并使用此库。如果您有兴趣讨论您的项目,需要指导,考虑雇用我,或者只是想聊天 - 我很高兴聊天。
您可以给我发送电子邮件以与我联系:[email protected]或在Twitter上给我发消息:@julianschoen
如果您只想回馈东西,我就给我买了一个咖啡帐户:

谢谢,祝你有美好的一天
语音助手是一个实验应用,并提供“原样”,而无需任何明示或暗示的保修。通过使用此软件,您同意假设与其使用相关的所有风险,包括但不限于数据丢失,系统故障或可能出现的任何其他问题。
该项目的开发人员和贡献者对由于使用本软件而可能造成的任何损失,损害或其他后果都不承担任何责任或责任。根据语音助手提供的信息,您对任何决定和行动都负责。
请注意,由于其令牌用法,GPT-4语言模型的使用可能会很昂贵。通过利用该项目,您承认您有责任监视和管理自己的令牌使用量和相关成本。强烈建议定期检查OpenAI API使用情况,并设置任何必要的限制或警报以防止意外费用。
通过使用语音助手,您同意赔偿,捍卫和持有无害的开发商,贡献者以及任何与任何索赔,损害,损失,负债,成本和费用(包括合理的律师费)(包括合理的律师费用),这是您使用该软件或您违反这些条款的原因。
根据MIT许可分发。有关更多信息,请参见LICENSE 。