Descarga voice assistant - Descargar el código fuente voice assistant

voice assistant

Otro código fuente

1.0.0

Descargar

Asistente de voz

Proporciona una interfaz de chat AI controlada por voz en su navegador. El asistente de IA puede usar herramientas que se integran con varios servicios, como Spotify, Google Calendar y Google Maps.

Acerca de

Screen-Cast-01.mov

La idea aproximada de este proyecto es tener un asistente activado por voz similar a Amazon Alexa o Siri, pero respaldado por un modelo de idioma grande. Actualmente se implementa como un sitio web que se ejecuta puramente en su navegador. Es predeterminado usar el modelo GPT-4O de OpenAI configurado con varias herramientas (también conocidas como "funciones") que le permiten integrarse con una gama de API. Para usar estas API, se deben proporcionar secretos, ver a continuación. Las integraciones más "sofisticadas" son para Google y Spotify.

En general, puede preguntarle al asistente qué puede hacer por usted. ;-)

Ejecutando localmente

Cree un archivo llamado config.ts en el directorio packages/frontend/src . Puede copiar los packages/frontend/src/config.ts.example y ajustarlo a sus necesidades.

 // The following configuration is required:

// By configuring the endpoints below, you can use a server with OpenAI compatible REST API:
export const completionsApiKey = "<The API Key used for /completions endpoint>" ;
export const completionsApiUrl = "https://api.openai.com/v1" ;
export const modelName = "gpt-4o" ;
export const useTools = true ;

export const speechApiKey = "<The API Key used for the TTS endpoint>" ;
export const speechApiUrl = "https://api.openai.com/v1" ;

export const transcriptionApiKey = "<The API Key used for the SST endpoint>" ;
export const transcriptionApiUrl = "https://api.openai.com/v1" ;
export const transcriptionModel = "whisper-1" ;

// All the following API keys are optional, and are only required if you want to use the corresponding features.

// Your picovoice.ai Access Key (wake word detection):
export const PicoVoiceAccessKey = "" ;

// Your openweathermap.org API Key (used for weather tools):
export const OpenWeatherMapApiKey = "" ;

// Your newsapi.org API key (used for some news tools):
export const NewsApiOrgKey = "" ;

export const GoogleApiKey = "<Your googleapis.com API key>" ;
export const GoogleClientId = "XXX.apps.googleusercontent.com" ;
export const GoogleClientSecret = "<Your OAuth2 Client Secret/Key>" ;
export const GoogleCustomSearchEngineId = "<ID of your custom google search engine configured for global search>" ;
// export const GoogleProjectId = "<Your Google Cloud Console project ID>"; // Needed for Google Vertex AI API (Gemini Pro)

export const SpotifyClientId = "<Your Spotify Client ID>" ;

export const MicrosoftClientId = "<Your Azure App Client ID>" ;

Este archivo es ignorado por Git.

Nota: Actualmente se debe proporcionar la configuración anterior, ya que se importa en el código y se usa como alternativa. Sin embargo, desde la interfaz de usuario de la configuración del asistente, es posible configurar cualquier número de modelos y proveedores de LLM y cambiar entre ellos.

Para utilizar cualquiera de los modelos GPT-4, su cuenta de plataforma.openai.com debe tener información de facturación y un pago exitoso. Si a su cuenta nunca se le cobraron, aún puede iniciar manualmente un pago a través de "comprar créditos" en la página de descripción general de la facturación. Esto "desbloqueará" los modelos GPT-4.

La tecla API para OpenWeathermap.org puede ser para el nivel libre.

Del mismo modo, la clave API para Picovoice.Ai es libre de obtener para uso personal. Simplemente viene con un límite de tarifa. No proporcionar el PicovoiceceCessKey probablemente romperá la detección de palabras de atención. En teoría, la API de reconocimiento de voz del navegador se usa como alternativa, pero no se ha probado en mucho tiempo.

Para obtener una clave API para las API de Google, debe crear un "proyecto" en la consola de desarrolladores de Google y habilitar las siguientes API:

Mapas API JavaScript
API de lugares (nuevo)
API de rutas
Direcciones API
API de búsqueda personalizada (necesita crear un motor de búsqueda personalizado)
API de calendario (si planea activar la integración de Google, vea a continuación)
API de personas (si planea activar la integración de Google, vea a continuación)
API de la biblioteca de fotos (si planea activar la integración de Google, vea a continuación)

Integración de Google

Para la integración opcional de Google Calendar and Contact (habilitada en la configuración del asistente a través de la Google Integration Switch), debe proporcionar un GoogleClientId además de GoogleApiKey . La razón es que debe iniciar sesión con su cuenta de Google, y esto requiere configurar un cliente OAuth2 de Web Application de tipo en la consola de Google Cloud para su proyecto.

Se deben configurar varias cosas en su proyecto en la nube:

Cree un OAuth 2.0-Client-ID ::
- Agregue tanto http://localhost:5173 y http://localhost a los orígenes de JavaScript autorizados.
- Agregue http://localhost:5173/google-callback al URI de redirección autorizada.
Edite la OAuth Consent Screen :
- Establezca la página de inicio en http://localhost:5173 (no estoy seguro de si esto es necesario).
- Configure los ámbitos e incluya:
  - https://www.googleapis.com/auth/calendar
  - https://www.googleapis.com/auth/contacts.readonly
  - https://www.googleapis.com/auth/photoslibrary.readonly
    Los ámbitos están disponibles solo si también habilitó las API en su proyecto en la nube.
- Agregue la cuenta que desea usar como usuario de prueba.

Integración de Spotify

Para la integración opcional de Spotify (habilitada en la configuración del asistente a través de la Spotify Integration ), debe proporcionar un SpotifyClientId . Para obtener una ID de cliente, debe registrar una aplicación en el tablero de desarrolladores de Spotify.

Como sitio web, especifique http://localhost:5173 . Como URL de redirección, especifique http://localhost:5173/spotify-callback .

Al habilitar la integración de Spotify, será redirigido a una página de inicio de sesión de Spotify donde también debe dar a Voice Assistant (o como haya nombrado su aplicación en el tablero de desarrolladores de Spotify) los permisos solicitados. Además, las capacidades de transmisión de reproducción integradas funcionan solo para usuarios premium de Spotify, ya que el SDK de reproducción web requiere una cuenta premium.

Integración de Microsoft

Para la integración opcional de Microsoft (habilitada en la configuración del asistente a través de la Microsoft Integration ), debe proporcionar un MicrosoftClientId . Para obtener una ID de cliente, debe registrar una aplicación en el portal de Azure. Debe tener la siguiente configuración:

El tipo de aplicación debe ser Single Page Application .
La URL de redirección debe ser http://localhost:5173/microsoft-callback .
El tipo de inquilino debe ser múltiple.
Los ámbitos deben incluir User.Read y Calendars.ReadWrite .

Servidores compatibles de OpenAI

Hay un montón de servicios que proporcionan puntos finales de descanso compatibles de OpenAI. Por ejemplo, existe localai, un proyecto que le permite ejecutar varios LLM localmente. Pero hay otros como LM Studio, VLLM, etc.

Estos proyectos proporcionan una API que se puede usar (principalmente) como un reemplazo de entrega para OpenAI.

Por este motivo, el archivo config.ts exporta el completionsApiUrl y la configuración relacionada como la clave API y el nombre del modelo. Esto permite configurar otro servidor compatible de OpenAI. He probado Mistral, Groq y otros. Sin embargo, el soporte para herramientas es actualmente muy limitado en comparación con lo que puede hacer GPT-4-Turbo. A menudo, no puede usar transmisión y herramientas simultáneamente. Y los LLM a menudo se sobrevienen y simplemente no comprenden de manera confiable cuándo usar herramientas y cómo invocarlas. Con el GPT-4-Turbo de Openai, podemos usar 30 y más con una fiabilidad cercana a perfecta.

Iniciar el servidor VITE DEV

Después de preparar el archivo de packages/frontend/src/config.ts , puede ejecutar:

yarn install
yarn workspace voice-assistant-frontend dev

️ ¡No cree este proyecto y lo aloje en algún lugar públicamente, ya que expondría todas las claves de config.ts !

Ideas para las siguientes características

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-03-05
tamaño 36.9MB
Proviene de Github

Aplicaciones relacionadas

GLM 4 Voice

2024-11-02
flutter_voice_friend

2024-11-01
Retrieval based Voice Conversion WebUI

2024-11-01
Asistente HLS Edición gratuita de películas y TV

2023-12-06
Aplicación Asistente T

2023-08-18
Interfaz SMS ilimitada de GOOGLE VOICE

2009-11-07

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo