Descarga aura voice - Descargar el código fuente de aura voice

aura voice

Otro código fuente

1.0.0

Descargar

Saludar a aura

Aura es un asistente de voz inteligente optimizado para respuestas de baja latencia. Utiliza funciones de Vcel Edge, reconocimiento de voz de susurro, transmisión GPT-4O y Once Labs TTS.

Ver demostración · Informe de error · Función de solicitud

Características

 ✅ A Siri-like voice assistant within your browser
✅ Optimized for low latency responses
✅ With the combined power of OpenAI, Whisper Speech Recognition and Eleven Labs

Manifestación

Puede probar el aura aquí: https://voice.julianschoen.co

Motivación

Los asistentes de voz se han convertido en una parte integral de nuestras vidas. Están en todas partes. En nuestros teléfonos, en nuestros autos, en nuestros hogares. ¿Por qué no en la web?

Hasta hace poco, el principal problema con los asistentes de voz en la web era la latencia. Tomó demasiado tiempo enviar el audio al servidor, generar una finalización de LLM y enviar el discurso de regreso. Los recientes avances de OpenAi, Once Labs y Vercely han permitido construir un asistente de voz que sea lo suficientemente rápido como para ser utilizado en la web.

Me encantaría que este repositorio se convierta en el lugar de referencia para las personas que desean construir su propio asistente de voz. He estado trabajando en este proyecto por un tiempo y estoy realmente emocionado de compartirlo contigo.

Pensamientos sobre latencia y experiencia del usuario

La latencia del asistente de voz es el factor más importante para una buena experiencia de usuario. Actualmente hay 3 factores principales que contribuyen a la latencia:

El tiempo que lleva transcribir el audio (a través del reconocimiento de voz de Whisper)
El tiempo que lleva generar la respuesta (a través de GPT-4O Mini)
El tiempo que lleva transmitir la respuesta del habla (a través de once laboratorios TTS)

Según algunas pruebas que he hecho, la generación del habla lleva la mayor parte del tiempo. Cuanto más tiempo se sintetice el texto, más tiempo lleva generar el discurso. La latencia de la generación del habla es también la más impredecible.

Una posible estrategia de mitigación podría ser dividir la respuesta en múltiples partes y transmitirlas una tras otra. Esto permitiría al usuario comenzar a escuchar la respuesta mientras se genera el resto de la respuesta. Todavía no he implementado esto, pero es algo que estoy considerando. Si tiene alguna idea sobre cómo mejorar la latencia, hágamelo saber.

Otra cosa a tener en cuenta es el tiempo de espera percibido. Según algunas investigaciones, parece que el tiempo de espera percibido es más corto si el usuario recibe algún tipo de retroalimentación mientras espera. He implementado una notificación simple de "pensamiento" que se muestra mientras el asistente está procesando la respuesta, pero estoy seguro de que hay mejores formas de mejorar el tiempo de espera percibido.

Instalación

Clonar el repositorio

git clone https://github.com/ntegrals/aura-voice

Obtenga una clave API de https://openai.com/ y https://elevenlabs.com/

Copie el archivo .env.example a .env.local y agregue sus claves API

OPENAI_API_KEY= " YOUR OPENAI API KEY "
OPENAI_BASE_URL=(Optional)
NEXT_PUBLIC_ELEVENLABS_API_KEY= " YOUR ELEVENLABS API KEY "
NEXT_PUBLIC_ELEVENLABS_VOICE_ID= " YOUR ELEVENLABS VOICE ID "

Instalar las dependencias
```
npm install
```
Ejecutar la aplicación
```
npm run dev
```
Desplegar en VERCEL

Contacto

¡Hola! Gracias por visitar y usar esta biblioteca. Si está interesado en discutir su proyecto, requiera una tutoría, considere contratarme o simplemente charlar, estoy feliz de hablar.

Puede enviarme un correo electrónico para ponerme en contacto: [email protected] o enviarme un mensaje en Twitter: @julianschoen

Si solo quieres devolver algo, tengo una cuenta de café para comprarme:

Gracias y que tengas un día increíble

Descargo de responsabilidad

Voice Assistant, es una aplicación experimental y se proporciona "tal cual" sin ninguna garantía, expresa o implícita. Al usar este software, acepta asumir todos los riesgos asociados con su uso, incluidos, entre otros, la pérdida de datos, la falla del sistema o cualquier otro problema que pueda surgir.

Los desarrolladores y colaboradores de este proyecto no aceptan ninguna responsabilidad o responsabilidad por ninguna pérdida, daños u otras consecuencias que puedan ocurrir como resultado del uso de este software. Usted es el único responsable de cualquier decisión y acción tomada en función de la información proporcionada por Voice Assistant.

Tenga en cuenta que el uso del modelo de idioma GPT-4 puede ser costoso debido a su uso de tokens. Al utilizar este proyecto, usted reconoce que usted es responsable de monitorear y administrar su propio uso de tokens y los costos asociados. Se recomienda verificar su uso de la API de OpenAI regularmente y configurar los límites o alertas necesarios para evitar cargos inesperados.

Al usar el asistente de voz, usted acepta indemnizar, defender y imponer inofensivos a los desarrolladores, contribuyentes y cualquier parte afiliada de cualquier reclamo, daños, pérdidas, pasivos, costos y gastos (incluidos los honorarios de abogados razonables) derivados de su uso de este software o su violación de estos términos.

Licencia

Distribuido bajo la licencia MIT. Consulte LICENSE para obtener más información.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-02-28
tamaño 597.08KB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
GLM 4 Voice

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
flutter_voice_friend

2024-11-01
Retrieval based Voice Conversion WebUI

2024-11-01
Interfaz SMS ilimitada de GOOGLE VOICE

2009-11-07

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Otro código fuente

1.0.0
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Otro código fuente

1.0.0

Información relacionada Todo