Aura est un assistant vocal intelligent optimisé pour les réponses faibles de latence. Il utilise les fonctions Vercel Edge, la reconnaissance de la parole de chuchotement, le streaming GPT-4O et Eleven Labs TTS.
Afficher la démo · Rapport Bogue · Demande de la demande

✅ A Siri-like voice assistant within your browser
✅ Optimized for low latency responses
✅ With the combined power of OpenAI, Whisper Speech Recognition and Eleven Labs
Vous pouvez tester l'aura ici: https://voice.julianschoen.co
Les assistants vocaux sont devenus une partie intégrante de nos vies. Ils sont partout. Dans nos téléphones, dans nos voitures, dans nos maisons. Pourquoi pas aussi sur le Web?
Jusqu'à récemment, le principal problème avec les assistants vocaux sur le Web était la latence. Il a fallu trop de temps pour envoyer l'audio au serveur, générer une réalisation de LLM et renvoyer un discours. Les avancées récentes d'Openai, Eleven Labs et Vercel ont permis de construire un assistant vocal assez rapide pour être utilisé sur le Web.
J'aimerais que ce dépôt devienne l'endroit incontournable pour les personnes qui veulent construire leur propre assistant vocal. Je travaille sur ce projet depuis un moment maintenant et je suis vraiment ravi de le partager avec vous.
La latence de l'assistant vocal est le facteur le plus important pour une bonne expérience utilisateur. Il existe actuellement 3 facteurs principaux qui contribuent à la latence:
Sur la base de certains tests que j'ai faits, la génération de discours prend le plus de temps. Plus le texte à synthétiser est long, plus il faut longtemps pour générer le discours. La latence de la génération de discours est également la plus imprévisible.
Une stratégie d'atténuation possible pourrait être de diviser la réponse en plusieurs parties et de les diffuser les unes après les autres. Cela permettrait à l'utilisateur de commencer à écouter la réponse pendant que le reste de la réponse est généré. Je n'ai pas encore implémenté cela, mais c'est quelque chose que j'envisage. Si vous avez des idées sur la façon d'améliorer la latence, faites-le moi savoir.
Une autre chose à garder à l'esprit est le temps d'attente perçu. Sur la base de certaines recherches, il semble que le temps d'attente perçu soit plus court si l'utilisateur reçoit une sorte de rétroaction en attendant. J'ai mis en œuvre une simple notification de "réflexion" qui est montrée pendant que l'assistant traite la réponse, mais je suis sûr qu'il existe de meilleures façons d'améliorer le temps d'attente perçu.
Cloner le repo
git clone https://github.com/ntegrals/aura-voiceObtenez une clé API à partir de https://openai.com/ et https://elevenlabs.com/
Copiez le fichier .env.example sur .env.local et ajoutez vos clés API
OPENAI_API_KEY= " YOUR OPENAI API KEY "
OPENAI_BASE_URL=(Optional)
NEXT_PUBLIC_ELEVENLABS_API_KEY= " YOUR ELEVENLABS API KEY "
NEXT_PUBLIC_ELEVENLABS_VOICE_ID= " YOUR ELEVENLABS VOICE ID "Installer les dépendances
npm installExécutez l'application
npm run devDéployer à Vercel
Salut! Merci d'avoir vérifié et utilisé cette bibliothèque. Si vous souhaitez discuter de votre projet, nécessitez un mentorat, envisagez de m'embaucher ou que je veux simplement discuter - je suis heureux de parler.
Vous pouvez m'envoyer un e-mail pour entrer en contact: [email protected] ou m'envoyer un message sur Twitter: @Julianschoen
Si vous vouliez juste rendre quelque chose, j'ai un compte de café Acheter Me Acheter:

Merci et passez une journée formidable
Vocal Assistant, est une application expérimentale et est fournie "tel quel" sans aucune garantie, expresse ou implicite. En utilisant ce logiciel, vous acceptez d'assumer tous les risques associés à son utilisation, y compris, mais sans s'y limiter, la perte de données, la défaillance du système ou tout autre problème qui peut survenir.
Les développeurs et les contributeurs de ce projet n'acceptent aucune responsabilité pour toute perte, dommage ou autres conséquences qui peuvent survenir à la suite de l'utilisation de ce logiciel. Vous êtes seul responsable de toutes les décisions et actions prises sur la base des informations fournies par Vocal Assistant.
Veuillez noter que l'utilisation du modèle de langue GPT-4 peut être coûteuse en raison de son utilisation de jeton. En utilisant ce projet, vous reconnaissez que vous êtes responsable du suivi et de la gestion de votre propre utilisation de jetons et des coûts associés. Il est fortement recommandé de vérifier régulièrement votre utilisation de l'API OpenAI et de configurer les limites ou alertes nécessaires pour éviter des frais inattendus.
En utilisant l'assistant vocal, vous acceptez d'indemniser, de défendre et de détenir les développeurs, les contributeurs et toutes les parties affiliées de et contre toutes les réclamations, dommages-intérêts, pertes, passifs, frais et dépenses (y compris les honoraires d'avocat raisonnables) résultant de votre utilisation de ce logiciel ou de votre violation de ces conditions.
Distribué sous la licence du MIT. Voir LICENSE pour plus d'informations.