aura voice Download - aura voice Source Code Download

aura voice

Anderer Quellcode

1.0.0

Herunterladen

Sag Hallo zu Aura

Aura ist ein Smart -Voice -Assistent, der für Reaktionen mit geringer Latenz optimiert ist. Es verwendet Vercel Edge-Funktionen, Whisper-Spracherkennung, GPT-4O und Eleven Labs TTS-Streaming.

Demo anzeigen · Fehler melden · Anforderungsfunktion

Merkmale

 ✅ A Siri-like voice assistant within your browser
✅ Optimized for low latency responses
✅ With the combined power of OpenAI, Whisper Speech Recognition and Eleven Labs

Demo

Sie können die Aura hier testen: https://voice.juliansschoen.co

Motivation

Sprachassistenten sind ein wesentlicher Bestandteil unseres Lebens geworden. Sie sind überall. In unseren Telefonen, in unseren Autos, in unseren Häusern. Warum nicht auch im Web?

Bis vor kurzem war das Hauptproblem mit Sprachassistenten im Web die Latenz. Es dauerte zu lange, um das Audio an den Server zu senden, eine LLM -Fertigstellung zu generieren und die Rede zurück zu senden. Die jüngsten Fortschritte von OpenAI, Eleven Labs und Vercel haben es ermöglicht, einen Sprachassistenten zu erstellen, der schnell genug ist, um im Web verwendet zu werden.

Ich würde es lieben, wenn dieses Repo der Anlaufpunkt für Menschen wird, die ihren eigenen Sprachassistenten bauen wollen. Ich arbeite schon eine Weile an diesem Projekt und ich freue mich sehr, es mit Ihnen zu teilen.

Gedanken zur Latenz- und Benutzererfahrung

Die Latenz des Sprachassistenten ist der wichtigste Faktor für eine gute Benutzererfahrung. Derzeit gibt es 3 Hauptfaktoren, die zur Latenz beitragen:

Die Zeit, die zum Transkriben des Audios benötigt wird (über Whisper -Spracherkennung)
Die Zeit, die es braucht, um die Antwort zu generieren (über GPT-4O Mini)
Die Zeit, die zum Streamen der Sprachantwort benötigt wird (über elf Labors TTS)

Basierend auf einigen Tests, die ich durchgeführt habe, nimmt die Sprachgenerierung die meiste Zeit. Je länger der zu synthetische Text, desto länger dauert es, um die Rede zu erzeugen. Die Latenz der Sprachgenerierung ist auch die unvorhersehbarste.

Eine mögliche Minderungsstrategie könnte darin bestehen, die Antwort in mehrere Teile aufzuteilen und nacheinander zu streamen. Dies würde es dem Benutzer ermöglichen, die Antwort anzuhören, während der Rest der Antwort generiert wird. Ich habe das noch nicht implementiert, aber es ist etwas, das ich nachdenke. Wenn Sie Ideen zur Verbesserung der Latenz haben, lassen Sie es mich bitte wissen.

Eine andere Sache, die Sie beachten sollten, ist die wahrgenommene Wartezeit. Basierend auf einigen Untersuchungen scheint es, dass die wahrgenommene Wartezeit kürzer ist, wenn dem Benutzer während des Wartens ein Feedback erhalten wird. Ich habe eine einfache "Denken" -Meldung implementiert, die gezeigt wird, während der Assistent die Antwort verarbeitet, aber ich bin sicher, dass es bessere Möglichkeiten gibt, die wahrgenommene Wartezeit zu verbessern.

Installation

Klonen Sie das Repo

git clone https://github.com/ntegrals/aura-voice

Holen Sie sich einen API -Schlüssel von https://openai.com/ und https://elevenlabs.com/

Kopieren Sie die Datei .env.example in .env.local und fügen Sie Ihre API -Tasten hinzu

OPENAI_API_KEY= " YOUR OPENAI API KEY "
OPENAI_BASE_URL=(Optional)
NEXT_PUBLIC_ELEVENLABS_API_KEY= " YOUR ELEVENLABS API KEY "
NEXT_PUBLIC_ELEVENLABS_VOICE_ID= " YOUR ELEVENLABS VOICE ID "

Installieren Sie die Abhängigkeiten
```
npm install
```
Führen Sie die App aus
```
npm run dev
```
Bereitstellung in Vercel

Kontakt

Hallo! Vielen Dank, dass Sie diese Bibliothek ausprobiert und verwendet haben. Wenn Sie daran interessiert sind, Ihr Projekt zu besprechen, Mentoring zu erfordern, mich einzustellen oder einfach nur zu chatten - ich rede gerne.

Sie können mir eine E -Mail senden, um sich in Verbindung zu setzen: [email protected] oder senden Sie mir eine Nachricht auf Twitter: @julianschoen

Wenn Sie nur etwas zurückgeben möchten, habe ich mir einen Kaffeekonto kaufen:

Danke und einen tollen Tag haben

Haftungsausschluss

Voice Assistant ist eine experimentelle Anwendung und wird "as-is" ohne garantiert, ausdrückliche oder stillschweigend bereitgestellt. Durch die Verwendung dieser Software erklären Sie sich damit einverstanden, alle mit ihrer Verwendung verbundenen Risiken zu übernehmen, einschließlich, aber nicht beschränkt auf Datenverlust, Systemausfall oder andere Probleme, die möglicherweise auftreten.

Die Entwickler und Mitwirkenden dieses Projekts übernehmen keine Verantwortung oder Haftung für Verluste, Schäden oder andere Konsequenzen, die aufgrund der Verwendung dieser Software auftreten können. Sie sind ausschließlich für Entscheidungen und Maßnahmen verantwortlich, die auf der Grundlage der von Voice Assistant bereitgestellten Informationen ergriffen wurden.

Bitte beachten Sie, dass die Verwendung des GPT-4-Sprachmodells aufgrund seiner Nutzung teuer sein kann. Durch die Verwendung dieses Projekts erkennen Sie an, dass Sie für die Überwachung und Verwaltung Ihrer eigenen Token -Nutzung und der damit verbundenen Kosten verantwortlich sind. Es wird dringend empfohlen, Ihre OpenAI -API -Verwendung regelmäßig zu überprüfen und alle erforderlichen Grenzen oder Warnungen einrichten, um unerwartete Gebühren zu verhindern.

Durch die Verwendung von Sprachassistenten erklären Sie sich damit einverstanden, die Entwickler, Mitwirkenden und alle verbundenen Parteien von und gegen alle Ansprüche, Schäden, Verluste, Verbindlichkeiten, Kosten und Kosten (einschließlich angemessener Anwaltsgebühren), die sich aus Ihrer Nutzung dieser Software oder Ihrer Verstöße oder Verstöße dieser Bedingungen ergeben.