オーラは、低レイテンシ応答のために最適化されたスマートボイスアシスタントです。 Vercel Edge関数、ささやき声認識、GPT-4O、および11のLabs TTSストリーミングを使用します。
デモの表示バグのレポート・リクエスト機能

✅ A Siri-like voice assistant within your browser
✅ Optimized for low latency responses
✅ With the combined power of OpenAI, Whisper Speech Recognition and Eleven Labs
ここでオーラをテストできます:https://voice.julianschoen.co
音声アシスタントは私たちの生活の不可欠な部分になりました。彼らはどこにでもあります。私たちの携帯電話、私たちの車、私たちの家で。なぜウェブ上にないのですか?
最近まで、ウェブ上の音声アシスタントの主な問題はレイテンシでした。オーディオをサーバーに送信し、LLMの完了を生成し、スピーチを送信するのに時間がかかりすぎました。 Openai、Eleven Labs、Vercelの最近の進歩により、Webで使用するのに十分な速さの音声アシスタントを構築することが可能になりました。
このレポは、自分の音声アシスタントを作りたい人のための頼りになる場所になりたいと思います。私はしばらくこのプロジェクトに取り組んできましたが、それをあなたと共有できることを本当に楽しみにしています。
音声アシスタントの遅延は、優れたユーザーエクスペリエンスにとって最も重要な要素です。現在、レイテンシに寄与する3つの主な要因があります。
私が行ったいくつかのテストに基づいて、音声生成は最も時間がかかります。統合されるテキストが長くなればなるほど、スピーチを生成するのに時間がかかります。音声生成の遅延も最も予測不可能です。
可能な緩和戦略は、応答を複数の部品に分割し、次々にストリーミングすることです。これにより、応答の残りの部分が生成されている間に、ユーザーが応答を聞き始めることができます。私はまだこれを実装していませんが、それは私が検討していることです。レイテンシを改善する方法についてのアイデアがある場合は、お知らせください。
心に留めておくべきもう一つのことは、待ち時間の知覚です。いくつかの調査に基づいて、ユーザーが待機中に何らかのフィードバックを与えられた場合、知覚される待機時間は短くなるようです。アシスタントが応答を処理している間に表示される単純な「思考」通知を実装しましたが、知覚される待機時間を改善するより良い方法があると確信しています。
レポをクローンします
git clone https://github.com/ntegrals/aura-voicehttps://openai.com/およびhttps://elevenlabs.com/からAPIキーを入手してください
.env.exampleファイルを.env.localにコピーし、APIキーを追加します
OPENAI_API_KEY= " YOUR OPENAI API KEY "
OPENAI_BASE_URL=(Optional)
NEXT_PUBLIC_ELEVENLABS_API_KEY= " YOUR ELEVENLABS API KEY "
NEXT_PUBLIC_ELEVENLABS_VOICE_ID= " YOUR ELEVENLABS VOICE ID "依存関係をインストールします
npm installアプリを実行します
npm run devVercelに展開します
こんにちは!このライブラリをチェックして使用してくれてありがとう。プロジェクトについて話し合うことに興味がある場合は、メンターシップが必要な場合、または私を雇うことを検討する、またはチャットしたい場合は、喜んで話します。
あなたは私にメールを送って連絡することができます:[email protected]またはTwitterで私にメッセージを送る:@julianschoen
あなたが何かを返したいだけなら、私は私にコーヒーアカウントを買ってくれました:

ありがとう、そして素晴らしい一日を
Voice Assistantは、実験的なアプリケーションであり、明示的または黙示的な保証なしで「AS-IS」が提供されます。このソフトウェアを使用することにより、データの損失、システム障害、または発生する可能性のある問題を含むがこれらに限定されないが、その使用に関連するすべてのリスクを想定することに同意します。
このプロジェクトの開発者と貢献者は、このソフトウェアを使用した結果として発生する可能性のある損失、損害、またはその他の結果に対する責任または責任を受け入れません。お客様は、音声アシスタントから提供された情報に基づいて行われた決定と行動について単独で責任を負います。
GPT-4言語モデルの使用は、トークンの使用により高価になる可能性があることに注意してください。このプロジェクトを利用することにより、お客様は、独自のトークン使用と関連するコストの監視と管理に責任があることを認めます。 OpenAI APIの使用量を定期的に確認し、予期しない料金を防ぐために必要な制限またはアラートを設定することを強くお勧めします。
音声アシスタントを使用することにより、お客様は、このソフトウェアの使用またはこれらの条件の違反から生じるあらゆる請求、損害、損失、費用、および費用(妥当な弁護士費用を含む)から、開発者、貢献者、および関連する関係者を補償、防御、および無害に保持することに同意します。
MITライセンスの下で配布されます。詳細については、 LICENSE参照してください。