Aura es un asistente de voz inteligente optimizado para respuestas de baja latencia. Utiliza funciones de Vcel Edge, reconocimiento de voz de susurro, transmisión GPT-4O y Once Labs TTS.
Ver demostración · Informe de error · Función de solicitud

✅ A Siri-like voice assistant within your browser
✅ Optimized for low latency responses
✅ With the combined power of OpenAI, Whisper Speech Recognition and Eleven Labs
Puede probar el aura aquí: https://voice.julianschoen.co
Los asistentes de voz se han convertido en una parte integral de nuestras vidas. Están en todas partes. En nuestros teléfonos, en nuestros autos, en nuestros hogares. ¿Por qué no en la web?
Hasta hace poco, el principal problema con los asistentes de voz en la web era la latencia. Tomó demasiado tiempo enviar el audio al servidor, generar una finalización de LLM y enviar el discurso de regreso. Los recientes avances de OpenAi, Once Labs y Vercely han permitido construir un asistente de voz que sea lo suficientemente rápido como para ser utilizado en la web.
Me encantaría que este repositorio se convierta en el lugar de referencia para las personas que desean construir su propio asistente de voz. He estado trabajando en este proyecto por un tiempo y estoy realmente emocionado de compartirlo contigo.
La latencia del asistente de voz es el factor más importante para una buena experiencia de usuario. Actualmente hay 3 factores principales que contribuyen a la latencia:
Según algunas pruebas que he hecho, la generación del habla lleva la mayor parte del tiempo. Cuanto más tiempo se sintetice el texto, más tiempo lleva generar el discurso. La latencia de la generación del habla es también la más impredecible.
Una posible estrategia de mitigación podría ser dividir la respuesta en múltiples partes y transmitirlas una tras otra. Esto permitiría al usuario comenzar a escuchar la respuesta mientras se genera el resto de la respuesta. Todavía no he implementado esto, pero es algo que estoy considerando. Si tiene alguna idea sobre cómo mejorar la latencia, hágamelo saber.
Otra cosa a tener en cuenta es el tiempo de espera percibido. Según algunas investigaciones, parece que el tiempo de espera percibido es más corto si el usuario recibe algún tipo de retroalimentación mientras espera. He implementado una notificación simple de "pensamiento" que se muestra mientras el asistente está procesando la respuesta, pero estoy seguro de que hay mejores formas de mejorar el tiempo de espera percibido.
Clonar el repositorio
git clone https://github.com/ntegrals/aura-voiceObtenga una clave API de https://openai.com/ y https://elevenlabs.com/
Copie el archivo .env.example a .env.local y agregue sus claves API
OPENAI_API_KEY= " YOUR OPENAI API KEY "
OPENAI_BASE_URL=(Optional)
NEXT_PUBLIC_ELEVENLABS_API_KEY= " YOUR ELEVENLABS API KEY "
NEXT_PUBLIC_ELEVENLABS_VOICE_ID= " YOUR ELEVENLABS VOICE ID "Instalar las dependencias
npm installEjecutar la aplicación
npm run devDesplegar en VERCEL
¡Hola! Gracias por visitar y usar esta biblioteca. Si está interesado en discutir su proyecto, requiera una tutoría, considere contratarme o simplemente charlar, estoy feliz de hablar.
Puede enviarme un correo electrónico para ponerme en contacto: [email protected] o enviarme un mensaje en Twitter: @julianschoen
Si solo quieres devolver algo, tengo una cuenta de café para comprarme:

Gracias y que tengas un día increíble
Voice Assistant, es una aplicación experimental y se proporciona "tal cual" sin ninguna garantía, expresa o implícita. Al usar este software, acepta asumir todos los riesgos asociados con su uso, incluidos, entre otros, la pérdida de datos, la falla del sistema o cualquier otro problema que pueda surgir.
Los desarrolladores y colaboradores de este proyecto no aceptan ninguna responsabilidad o responsabilidad por ninguna pérdida, daños u otras consecuencias que puedan ocurrir como resultado del uso de este software. Usted es el único responsable de cualquier decisión y acción tomada en función de la información proporcionada por Voice Assistant.
Tenga en cuenta que el uso del modelo de idioma GPT-4 puede ser costoso debido a su uso de tokens. Al utilizar este proyecto, usted reconoce que usted es responsable de monitorear y administrar su propio uso de tokens y los costos asociados. Se recomienda verificar su uso de la API de OpenAI regularmente y configurar los límites o alertas necesarios para evitar cargos inesperados.
Al usar el asistente de voz, usted acepta indemnizar, defender y imponer inofensivos a los desarrolladores, contribuyentes y cualquier parte afiliada de cualquier reclamo, daños, pérdidas, pasivos, costos y gastos (incluidos los honorarios de abogados razonables) derivados de su uso de este software o su violación de estos términos.
Distribuido bajo la licencia MIT. Consulte LICENSE para obtener más información.