MMM WhisperGPT Download - MMM WhisperGPT Quellcode Download

MMM WhisperGPT

AI-Quellcode

1.0.0

Herunterladen

Mmm-Whispergpt

Dies ist ein Modul für das MagicMirror².

Wie es funktioniert

Ziel des Moduls ist es, ein benutzerdefiniertes interaktives Widget zu erstellen, das offene KI -Tools verwendet:

Flüstert-selbst gehostetes Modell für die Transkription von Sprach-Text-Transkription.
Langchain - Für die Verarbeitung der Anfragen mit Chatgpt -API verwendet werden.
Picovoice -> Porcupine -wird für Offline -Wortauslöser verwendet (Akzent auf die Privatsphäre).
Auch ... Mimic3 :)

Idee ist die folgende:

Wake Word (Stachelschwein).
... Abfrage aufnehmen (eine sexy Animation anzeigen, wird später durchgeführt)
... Pass zum selbst gehosteten Flüster
... Voice-to-Text transkribieren
Zeigen Sie die Frage als transkribierter Rendertetext (im Modul-Render)
... durchleiten Langchain zu Chatgpt
... Übergeben Sie die Textantwort zurück an das Modul und rendern Sie auf dem Bildschirm
... Verwenden Sie TTS (MIMIC3) - selbst veranstaltet im Netzwerk, um eine WAV -Datei zum Spielen zurückzuwerfen.

Verwenden des Moduls

Um dieses Modul zu verwenden, fügen Sie den folgenden Konfigurationsblock zum Modularray in der Datei config/config.js hinzu:

 var config = {
    modules : [
        {
            module : 'MMM-WhisperGPT' ,
            config : {
                // See below for configurable options
                picovoiceKey : 'xxx' ,
                picovoiceWord : 'JARVIS' ,
                picovoiceSilenceTime : 3 ,
                picovoiceSilenceThreshold : 600 ,
                audioDeviceIndex : 3 ,
                openAiKey : 'xxx' ,
                openAiSystemMsg : 'xxx' ,
                whisperUrl : '192.168.1.5:9000/asr' ,
                whisperMethod : 'openai-whisper' ,
                mimic3Url : '192.168.1.6:59125'
            }
        }
    ]
}

Konfigurationsoptionen

Option	Erforderlich?	Beschreibung
`picovoiceKey`	Erforderlich	Picovoice Access Key - Sie müssen sich registrieren, um es zu erhalten - dies wird für das Trigger -Wort verwendet.
`picovoiceWord`	Optional	Picovoice Trigger Word, dh Bumblebee, Jarvis usw. Standard für Jarvis.
`picovoiceSilenceTime`	Optional	Schweigenperiode - standardmäßig 3 (3 Sekunden).
`picovoiceSilenceThreshold`	Optional	Dies ist normalerweise Hintergrundgeräusche * Diese Zahl. Der Standardwert beträgt 1,1 (alias 10%).
`audioDeviceIndex`	Optional	Audiogerät - dh 3 - diese werden ausgedruckt, wenn Sie den Debug -Modus verwenden. Standardmäßig 0.
`whisperUrl`	Erforderlich	URL (oder IP?) Zu Selbst gehostete Instanz des Flüsterns.
`whisperMethod`	Optional	Whisper-Methode: OpenAi-Whisper oder schneller-Whisper. Standardeinstellungen zu: schneller-Whisper.
`whisperLanguage`	Optional	Standardeinstellungen zu: en.
`openAiKey`	Erforderlich	API -Schlüssel von OpenAI.
`openAiSystemMsg`	Optional	System MSG - Wie sich die KI verhalten sollte.
`mimic3Url`	Erforderlich	Mimic3 -URL (Server) mit Protokoll, Port, ohne /api /tts
`mimic3Voice`	Optional	Mimic3 Voice - Standard: EN_US/CMU -arctic_low%23gka
`debug`	Optional	Wenn Sie debuggen möchten, ist Standard: Falsch.

Was ist Picovoice / Porcupine?

Picovoice / Porcupine wird für das Wort "Trigger" verwendet. Es ist ein selbst gehosteter kleiner KI / Neural-Netzwerk (NN). Picovoice bietet eine Reihe von Dienstleistungen an, einschließlich einer Lizenz für diese Offline -KI. Es sendet nur Verwendungsstatistiken, nicht die tatsächlichen Audiogespräche.

Was ist Flüstern

Whisper ist ein Open-Source-Produkt von OpenAI. Es handelt sich um ein großes Sprachmodell (LLM) AI, das Sprache zu Text übernimmt (Transkription). In meinem persönlichen Fall habe ich es in meinem lokalen Netzwerk selbst gehost.

Ich habe dies verwendet: https://github.com/ahmetoner/whisper-asr-webservice

Was ist Chatgpt

Chatgpt ist ein weiteres Produkt von OpenAI. Es ist ein großes Sprachmodell (LLM) AI. Sie müssen sich registrieren und einen API -Schlüssel erhalten, um ihn zu verwenden.

Was ist Langchain

Langchain ist eine Bibliothek, die sich um LLMs befindet, die zusätzliche Funktionen ermöglicht, z. B. Langzeitgedächtnis.

Was ist Mimic3 (Mycroft)

MyCrofts MIMIC3 ist ein TTS-System (Text-to-Speech), das auf einem großen Sprachmodell (LLM) basiert. Es bietet realistische TTs, die auf etwas ressourcenbeschränkten Systemen ausgeführt werden können. Ich habe zunächst versucht, es auf meinem Orangepi einzurichten, aber stattdessen installierte ich es mit Flüstern auf demselben Computer und benutze es über das Netzwerk.

Ich habe diesen Docker-compose.yml verwendet

 version : ' 3.7 '

services :
  mimic3 :
    image : mycroftai/mimic3
    ports :
      - 59125:59125
    volumes :
      - .:/home/mimic3/.local/share/mycroft/mimic3
    stdin_open : true
    tty : true

Fehlerbehebung

Wenn Ihr Audio nicht funktioniert, überprüfen Sie, ob Sie ALSA oder Pulsaudio verwenden. Möglicherweise müssen Sie mpg123 installieren. Sie können es mit dem Befehl sudo apt-get install mpg123 .
Möglicherweise müssen Sie auch lame für die Audio -Codierung installieren. Sie können es mit dem Befehl sudo apt-get install lame installieren.

Expandieren

Zusätzliche Informationen