voice assistant Download - voice assistant Quellcode Download

voice assistant

Anderer Quellcode

1.0.0

Herunterladen

Sprachassistent

Bietet eine sprachgesteuerte KI-Chat-Oberfläche in Ihrem Browser. Der AI -Assistent kann Tools verwenden, die sich in verschiedene Dienste wie Spotify, Google Calendar und Google Maps integrieren.

Um

Screen-Cast-01.Mov

Die grobe Idee für dieses Projekt ist es, einen sprachaktivierten Assistenten zu haben, der Amazon Alexa oder Siri ähnelt, aber von einem großen Sprachmodell unterstützt wird. Es wird derzeit als Website implementiert, die nur in Ihrem Browser ausgeführt wird. Die Verwendung von OpenAIs GPT-4O-Modell, das mit mehreren Tools (auch bekannt als "Funktionen") konfiguriert ist, die es ihm ermöglichen, in eine Reihe von APIs zu integrieren. Um diese APIs zu verwenden, müssen Geheimnisse bereitgestellt werden, siehe unten. Die "anspruchsvollsten" Integrationen sind für Google und Spotify.

Im Allgemeinen können Sie den Assistenten nur fragen, was er für Sie tun kann. ;-)

Vor Ort laufen

Erstellen Sie eine Datei mit dem Namen config.ts im Verzeichnis packages/frontend/src . Sie können die packages/frontend/src/config.ts.example kopieren und an Ihre Anforderungen einstellen.

 // The following configuration is required:

// By configuring the endpoints below, you can use a server with OpenAI compatible REST API:
export const completionsApiKey = "<The API Key used for /completions endpoint>" ;
export const completionsApiUrl = "https://api.openai.com/v1" ;
export const modelName = "gpt-4o" ;
export const useTools = true ;

export const speechApiKey = "<The API Key used for the TTS endpoint>" ;
export const speechApiUrl = "https://api.openai.com/v1" ;

export const transcriptionApiKey = "<The API Key used for the SST endpoint>" ;
export const transcriptionApiUrl = "https://api.openai.com/v1" ;
export const transcriptionModel = "whisper-1" ;

// All the following API keys are optional, and are only required if you want to use the corresponding features.

// Your picovoice.ai Access Key (wake word detection):
export const PicoVoiceAccessKey = "" ;

// Your openweathermap.org API Key (used for weather tools):
export const OpenWeatherMapApiKey = "" ;

// Your newsapi.org API key (used for some news tools):
export const NewsApiOrgKey = "" ;

export const GoogleApiKey = "<Your googleapis.com API key>" ;
export const GoogleClientId = "XXX.apps.googleusercontent.com" ;
export const GoogleClientSecret = "<Your OAuth2 Client Secret/Key>" ;
export const GoogleCustomSearchEngineId = "<ID of your custom google search engine configured for global search>" ;
// export const GoogleProjectId = "<Your Google Cloud Console project ID>"; // Needed for Google Vertex AI API (Gemini Pro)

export const SpotifyClientId = "<Your Spotify Client ID>" ;

export const MicrosoftClientId = "<Your Azure App Client ID>" ;

Diese Datei wird von Git ignoriert.

Hinweis: Die obige Konfiguration muss derzeit bereitgestellt werden, da sie im Code importiert und als Fallback verwendet wird. Aus der Benutzeroberfläche der Assistenteneinstellungen ist jedoch möglich, eine beliebige Anzahl von Modellen und LLM -Anbietern zu konfigurieren und zwischen ihnen zu wechseln.

Um eines der GPT-4-Modelle zu verwenden, muss Ihre Plattform.openai.com-Konto über Abrechnungsinformationen und eine erfolgreiche Zahlung verfügen. Wenn Ihr Konto nie in Rechnung gestellt wurde, können Sie eine Zahlung über "Kaufkredite" auf der Abrechnungsübersichtseite manuell einleiten. Dies wird die GPT-4-Modelle "freischalten".

Der API -Schlüssel für OpenWeatherMap.org kann für die freie Stufe erfolgen.

In ähnlicher Weise kann der API -Schlüssel für Picovoice.ai frei für den persönlichen Gebrauch erhalten. Es kommt nur mit einer Ratenlimit. Wenn Sie den PicovoiceAccessKey nicht zur Verfügung stellen, wird höchstwahrscheinlich die Erkennung von Wachwort brechen. Theoretisch wird die Browser -Spracherkennungs -API als Fallback verwendet, aber sie wurde seit einiger Zeit nicht mehr getestet.

Um einen API -Schlüssel für die Google -APIs zu erhalten, müssen Sie in der Google Developer -Konsole ein "Projekt" erstellen und die folgenden APIs aktivieren:

Karten JavaScript API
Platziert die API (neu)
Routen API
Richtungen API
Benutzerdefinierte Such -API (Sie müssen eine benutzerdefinierte Suchmaschine erstellen)
Kalender -API (Wenn Sie die Google -Integration aktivieren möchten, siehe unten)
People API (Wenn Sie vorhaben, die Google -Integration zu aktivieren, siehe unten)
Fotosbibliotheks -API (Wenn Sie die Google -Integration aktivieren möchten, siehe unten)

Google -Integration

Für den optionalen Google -Kalender- und Kontaktintegration (in den Assistenteneinstellungen über die Switch Google Integration aktiviert) müssen Sie zusätzlich zum GoogleApiKey eine GoogleClientId bereitstellen. Der Grund dafür ist, dass Sie sich mit Ihrem Google -Konto anmelden müssen, und dies erfordert eine Einrichtung eines OAuth2 -Clients vom Typ Web Application in der Google Cloud -Konsole für Ihr Projekt.

Eine Reihe von Dingen muss in Ihrem Cloud -Projekt konfiguriert werden:

Erstellen Sie eine OAuth 2.0-Client-ID :
- Fügen Sie sowohl http://localhost:5173 als auch http://localhost zu den autorisierten JavaScript -Ursprüngen hinzu.
- Fügen Sie http://localhost:5173/google-callback zu der autorisierten Umleitung-URIS hinzu.
Bearbeiten Sie den OAuth Consent Screen :
- Setzen Sie die Startseite auf http://localhost:5173 (nicht sicher, ob dies tatsächlich erforderlich ist.)
- Konfigurieren Sie die Bereiche und geben Sie ein:
  - https://www.googleapis.com/auth/calendar
  - https://www.googleapis.com/auth/contacts.readonly
  - https://www.googleapis.com/auth/photoslibrary.readonly
    Die Bereiche sind nur verfügbar, wenn Sie die APIs in Ihrem Cloud -Projekt auch aktiviert haben.
- Fügen Sie das Konto hinzu, das Sie als Testbenutzer verwenden möchten.

Spotify -Integration

Für die optionale Spotify -Integration (aktiviert in den Assistenteneinstellungen über die Switch Spotify Integration ) müssen Sie eine SpotifyClientId bereitstellen. Um eine Client -ID zu erhalten, müssen Sie eine Anwendung auf dem Spotify Developer Dashboard registrieren.

Als Website geben Sie http://localhost:5173 . Geben Sie als Umleitungs-URL http://localhost:5173/spotify-callback .

Wenn Sie die Spotify -Integration aktivieren, werden Sie auf eine Spotify -Anmeldeseite umgeleitet, auf der Sie auch den Antragsberechtigungen geben müssen (oder wie Sie Ihre App im Spotify -Entwickler -Dashboard benannt haben). Darüber hinaus funktionieren die eingebetteten Playback -Streaming -Funktionen nur für Spotify -Premium -Benutzer, da für die Web -Wiedergabe -SDK ein Premium -Konto benötigt.

Microsoft -Integration

Für die optionale Microsoft -Integration (aktiviert in den Assistenteneinstellungen über die Switch Microsoft Integration ) müssen Sie eine MicrosoftClientId bereitstellen. Um eine Client -ID zu erhalten, müssen Sie eine Anwendung im Azure -Portal registrieren. Es muss die folgenden Einstellungen vorhanden sein:

Der Anwendungstyp muss Single Page Application sein.
Die Umleitungs-URL muss http://localhost:5173/microsoft-callback sein.
Der Mietertyp muss meriant sein.
Die Scopes müssen User.Read und Calendars.ReadWrite enthalten.

OpenAI -kompatible Server

Es gibt eine Reihe von Diensten, die OpenAI -kompatible REST -Endpunkte bieten. Zum Beispiel gibt es Localai, ein Projekt, mit dem Sie verschiedene LLMs lokal ausführen können. Aber es gibt andere wie LM Studio, vllm und so weiter.

Diese Projekte bieten eine API, die (meistens) als Drop-In-Ersatz für OpenAI verwendet werden kann.

Aus diesem Grund exportiert die Datei config.ts Datei die completionsApiUrl und verwandte Einstellungen wie den API -Schlüssel und den Modellnamen. Dadurch können Sie einen anderen openAI -kompatiblen Server konfigurieren. Ich habe Mistral, Groq und andere getestet. Die Unterstützung für Tools ist jedoch derzeit sehr begrenzt im Vergleich zu dem, was GPT-4-Turbo tun kann. Oft können Sie Streaming und Tools gleichzeitig nicht verwenden. Und die LLMs werden oft überwunden und verstehen einfach nicht zuverlässig, wann Tools verwendet werden sollen und wie sie aufgerufen werden sollen. Mit OpenAIs GPT-4-Turbo können wir 30 und mehr mit nahezu perfekter Zuverlässigkeit verwenden.

Starten Sie den Vite Dev Server

Nach der Vorbereitung der Datei packages/frontend/src/config.ts können Sie ausführen:

yarn install
yarn workspace voice-assistant-frontend dev

Euen Erstellen Sie dieses Projekt nicht und hosten Sie es irgendwo öffentlich aus, da es alle Schlüssel von config.ts enthüllen würde!

Ideen für die nächsten Funktionen

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-03-05
Größe 36.9MB
Kommt von Github

Ähnliche Anwendungen

GLM 4 Voice

2024-11-02
flutter_voice_friend

2024-11-01
Retrieval based Voice Conversion WebUI

2024-11-01
HLS Assistant Movie and TV Free Edition

2023-12-06
Assistant T-App

2023-08-18
GOOGLE VOICE unbegrenzte SMS-Schnittstelle

2009-11-07

voice assistant

Sprachassistent

Um

Vor Ort laufen

Google -Integration

Spotify -Integration

Microsoft -Integration

OpenAI -kompatible Server

Starten Sie den Vite Dev Server

Ideen für die nächsten Funktionen

GLM 4 Voice

flutter_voice_friend

Retrieval based Voice Conversion WebUI

HLS Assistant Movie and TV Free Edition

Assistant T-App

GOOGLE VOICE unbegrenzte SMS-Schnittstelle

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express