Téléchargement aura voice - Téléchargement du code source aura voice

aura voice

Autre code source

1.0.0

Télécharger

Dites bonjour à Aura

Aura est un assistant vocal intelligent optimisé pour les réponses faibles de latence. Il utilise les fonctions Vercel Edge, la reconnaissance de la parole de chuchotement, le streaming GPT-4O et Eleven Labs TTS.

Afficher la démo · Rapport Bogue · Demande de la demande

Caractéristiques

 ✅ A Siri-like voice assistant within your browser
✅ Optimized for low latency responses
✅ With the combined power of OpenAI, Whisper Speech Recognition and Eleven Labs

Démo

Vous pouvez tester l'aura ici: https://voice.julianschoen.co

Motivation

Les assistants vocaux sont devenus une partie intégrante de nos vies. Ils sont partout. Dans nos téléphones, dans nos voitures, dans nos maisons. Pourquoi pas aussi sur le Web?

Jusqu'à récemment, le principal problème avec les assistants vocaux sur le Web était la latence. Il a fallu trop de temps pour envoyer l'audio au serveur, générer une réalisation de LLM et renvoyer un discours. Les avancées récentes d'Openai, Eleven Labs et Vercel ont permis de construire un assistant vocal assez rapide pour être utilisé sur le Web.

J'aimerais que ce dépôt devienne l'endroit incontournable pour les personnes qui veulent construire leur propre assistant vocal. Je travaille sur ce projet depuis un moment maintenant et je suis vraiment ravi de le partager avec vous.

Réflexions sur la latence et l'expérience utilisateur

La latence de l'assistant vocal est le facteur le plus important pour une bonne expérience utilisateur. Il existe actuellement 3 facteurs principaux qui contribuent à la latence:

Le temps nécessaire pour transcrire l'audio (via la reconnaissance de la parole de Whisper)
Le temps nécessaire pour générer la réponse (via gpt-4o mini)
Le temps nécessaire pour diffuser la réponse de la parole (via onze labs TTS)

Sur la base de certains tests que j'ai faits, la génération de discours prend le plus de temps. Plus le texte à synthétiser est long, plus il faut longtemps pour générer le discours. La latence de la génération de discours est également la plus imprévisible.

Une stratégie d'atténuation possible pourrait être de diviser la réponse en plusieurs parties et de les diffuser les unes après les autres. Cela permettrait à l'utilisateur de commencer à écouter la réponse pendant que le reste de la réponse est généré. Je n'ai pas encore implémenté cela, mais c'est quelque chose que j'envisage. Si vous avez des idées sur la façon d'améliorer la latence, faites-le moi savoir.

Une autre chose à garder à l'esprit est le temps d'attente perçu. Sur la base de certaines recherches, il semble que le temps d'attente perçu soit plus court si l'utilisateur reçoit une sorte de rétroaction en attendant. J'ai mis en œuvre une simple notification de "réflexion" qui est montrée pendant que l'assistant traite la réponse, mais je suis sûr qu'il existe de meilleures façons d'améliorer le temps d'attente perçu.

Installation

Cloner le repo

git clone https://github.com/ntegrals/aura-voice

Obtenez une clé API à partir de https://openai.com/ et https://elevenlabs.com/

Copiez le fichier .env.example sur .env.local et ajoutez vos clés API

OPENAI_API_KEY= " YOUR OPENAI API KEY "
OPENAI_BASE_URL=(Optional)
NEXT_PUBLIC_ELEVENLABS_API_KEY= " YOUR ELEVENLABS API KEY "
NEXT_PUBLIC_ELEVENLABS_VOICE_ID= " YOUR ELEVENLABS VOICE ID "

Installer les dépendances
```
npm install
```
Exécutez l'application
```
npm run dev
```
Déployer à Vercel

Contact

Salut! Merci d'avoir vérifié et utilisé cette bibliothèque. Si vous souhaitez discuter de votre projet, nécessitez un mentorat, envisagez de m'embaucher ou que je veux simplement discuter - je suis heureux de parler.

Vous pouvez m'envoyer un e-mail pour entrer en contact: [email protected] ou m'envoyer un message sur Twitter: @Julianschoen

Si vous vouliez juste rendre quelque chose, j'ai un compte de café Acheter Me Acheter:

Merci et passez une journée formidable

Clause de non-responsabilité

Vocal Assistant, est une application expérimentale et est fournie "tel quel" sans aucune garantie, expresse ou implicite. En utilisant ce logiciel, vous acceptez d'assumer tous les risques associés à son utilisation, y compris, mais sans s'y limiter, la perte de données, la défaillance du système ou tout autre problème qui peut survenir.

Les développeurs et les contributeurs de ce projet n'acceptent aucune responsabilité pour toute perte, dommage ou autres conséquences qui peuvent survenir à la suite de l'utilisation de ce logiciel. Vous êtes seul responsable de toutes les décisions et actions prises sur la base des informations fournies par Vocal Assistant.

Veuillez noter que l'utilisation du modèle de langue GPT-4 peut être coûteuse en raison de son utilisation de jeton. En utilisant ce projet, vous reconnaissez que vous êtes responsable du suivi et de la gestion de votre propre utilisation de jetons et des coûts associés. Il est fortement recommandé de vérifier régulièrement votre utilisation de l'API OpenAI et de configurer les limites ou alertes nécessaires pour éviter des frais inattendus.

En utilisant l'assistant vocal, vous acceptez d'indemniser, de défendre et de détenir les développeurs, les contributeurs et toutes les parties affiliées de et contre toutes les réclamations, dommages-intérêts, pertes, passifs, frais et dépenses (y compris les honoraires d'avocat raisonnables) résultant de votre utilisation de ce logiciel ou de votre violation de ces conditions.

Licence

Distribué sous la licence du MIT. Voir LICENSE pour plus d'informations.

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-02-28
taille 597.08KB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
GLM 4 Voice

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
flutter_voice_friend

2024-11-01
Retrieval based Voice Conversion WebUI

2024-11-01
Interface SMS illimitée GOOGLE VOICE

2009-11-07

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Autre code source

1.0.0
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Autre code source

1.0.0

Actualités connexes Tout