Dies ist ein Modul für das MagicMirror².
Wie es funktioniert
Ziel des Moduls ist es, ein benutzerdefiniertes interaktives Widget zu erstellen, das offene KI -Tools verwendet:
Idee ist die folgende:
Um dieses Modul zu verwenden, fügen Sie den folgenden Konfigurationsblock zum Modularray in der Datei config/config.js hinzu:
var config = {
modules : [
{
module : 'MMM-WhisperGPT' ,
config : {
// See below for configurable options
picovoiceKey : 'xxx' ,
picovoiceWord : 'JARVIS' ,
picovoiceSilenceTime : 3 ,
picovoiceSilenceThreshold : 600 ,
audioDeviceIndex : 3 ,
openAiKey : 'xxx' ,
openAiSystemMsg : 'xxx' ,
whisperUrl : '192.168.1.5:9000/asr' ,
whisperMethod : 'openai-whisper' ,
mimic3Url : '192.168.1.6:59125'
}
}
]
} | Option | Erforderlich? | Beschreibung |
|---|---|---|
picovoiceKey | Erforderlich | Picovoice Access Key - Sie müssen sich registrieren, um es zu erhalten - dies wird für das Trigger -Wort verwendet. |
picovoiceWord | Optional | Picovoice Trigger Word, dh Bumblebee, Jarvis usw. Standard für Jarvis. |
picovoiceSilenceTime | Optional | Schweigenperiode - standardmäßig 3 (3 Sekunden). |
picovoiceSilenceThreshold | Optional | Dies ist normalerweise Hintergrundgeräusche * Diese Zahl. Der Standardwert beträgt 1,1 (alias 10%). |
audioDeviceIndex | Optional | Audiogerät - dh 3 - diese werden ausgedruckt, wenn Sie den Debug -Modus verwenden. Standardmäßig 0. |
whisperUrl | Erforderlich | URL (oder IP?) Zu Selbst gehostete Instanz des Flüsterns. |
whisperMethod | Optional | Whisper-Methode: OpenAi-Whisper oder schneller-Whisper. Standardeinstellungen zu: schneller-Whisper. |
whisperLanguage | Optional | Standardeinstellungen zu: en. |
openAiKey | Erforderlich | API -Schlüssel von OpenAI. |
openAiSystemMsg | Optional | System MSG - Wie sich die KI verhalten sollte. |
mimic3Url | Erforderlich | Mimic3 -URL (Server) mit Protokoll, Port, ohne /api /tts |
mimic3Voice | Optional | Mimic3 Voice - Standard: EN_US/CMU -arctic_low%23gka |
debug | Optional | Wenn Sie debuggen möchten, ist Standard: Falsch. |
Picovoice / Porcupine wird für das Wort "Trigger" verwendet. Es ist ein selbst gehosteter kleiner KI / Neural-Netzwerk (NN). Picovoice bietet eine Reihe von Dienstleistungen an, einschließlich einer Lizenz für diese Offline -KI. Es sendet nur Verwendungsstatistiken, nicht die tatsächlichen Audiogespräche.
Whisper ist ein Open-Source-Produkt von OpenAI. Es handelt sich um ein großes Sprachmodell (LLM) AI, das Sprache zu Text übernimmt (Transkription). In meinem persönlichen Fall habe ich es in meinem lokalen Netzwerk selbst gehost.
Ich habe dies verwendet: https://github.com/ahmetoner/whisper-asr-webservice
Chatgpt ist ein weiteres Produkt von OpenAI. Es ist ein großes Sprachmodell (LLM) AI. Sie müssen sich registrieren und einen API -Schlüssel erhalten, um ihn zu verwenden.
Langchain ist eine Bibliothek, die sich um LLMs befindet, die zusätzliche Funktionen ermöglicht, z. B. Langzeitgedächtnis.
MyCrofts MIMIC3 ist ein TTS-System (Text-to-Speech), das auf einem großen Sprachmodell (LLM) basiert. Es bietet realistische TTs, die auf etwas ressourcenbeschränkten Systemen ausgeführt werden können. Ich habe zunächst versucht, es auf meinem Orangepi einzurichten, aber stattdessen installierte ich es mit Flüstern auf demselben Computer und benutze es über das Netzwerk.
Ich habe diesen Docker-compose.yml verwendet
version : ' 3.7 '
services :
mimic3 :
image : mycroftai/mimic3
ports :
- 59125:59125
volumes :
- .:/home/mimic3/.local/share/mycroft/mimic3
stdin_open : true
tty : true mpg123 installieren. Sie können es mit dem Befehl sudo apt-get install mpg123 .lame für die Audio -Codierung installieren. Sie können es mit dem Befehl sudo apt-get install lame installieren.