Descargar MMM WhisperGPT - Descargar el código fuente de MMM WhisperGPT

MMM WhisperGPT

Código Fuente de IA

1.0.0

Descargar

Mmm-whispergpt

Este es un módulo para MagicMirror².

Cómo funciona https://nikro.me/articles/professional/crafting-our-ai-assistant/

El objetivo del módulo es crear un widget interactivo personalizado que use herramientas de IA abiertas:

Whisper-Modelo autohospedado para la transcripción de voz a texto.
Langchain: destinado a usarse con la API CHATGPT, para procesar las solicitudes.
Picovoice -> Porcupine -se usa para el disparador de palabras fuera de línea (autohostado) (acento en la privacidad).
también ... mimic3 :)

La idea es la siguiente:

Wake Word (puercoespín).
... Registro de la consulta (muestra una animación sexy, se hará más tarde)
... Pase al susurro autohostado
... transcribir de voz a texto
Muestre la pregunta como el texto de renderizado transcrito (en el renderizado del módulo)
... Pase por Langchain a chatgpt
... pase la respuesta textual al módulo y renderice en pantalla
... Use TTS (MIMIC3) - autohospedado en la red, para devolver un archivo WAV para jugar.

Usando el módulo

Para usar este módulo, agregue el siguiente bloque de configuración a la matriz de módulos en el archivo config/config.js :

 var config = {
    modules : [
        {
            module : 'MMM-WhisperGPT' ,
            config : {
                // See below for configurable options
                picovoiceKey : 'xxx' ,
                picovoiceWord : 'JARVIS' ,
                picovoiceSilenceTime : 3 ,
                picovoiceSilenceThreshold : 600 ,
                audioDeviceIndex : 3 ,
                openAiKey : 'xxx' ,
                openAiSystemMsg : 'xxx' ,
                whisperUrl : '192.168.1.5:9000/asr' ,
                whisperMethod : 'openai-whisper' ,
                mimic3Url : '192.168.1.6:59125'
            }
        }
    ]
}

Opciones de configuración

Opción	¿Requerido?	Descripción
`picovoiceKey`	Requerido	Clave de acceso Picovoice: debe registrarse para obtenerla, esto se usa para la palabra de activación.
`picovoiceWord`	Opcional	Picovoice Word de activación, es decir, Bumblebee, Jarvis, etc. Predeterminado a Jarvis.
`picovoiceSilenceTime`	Opcional	Período de silencio: los valores predeterminados a 3 (3 segundos).
`picovoiceSilenceThreshold`	Opcional	Esto suele ser ruido de fondo * este número. El valor predeterminado es 1.1 (también conocido como 10%).
`audioDeviceIndex`	Opcional	Dispositivo de audio - IE 3 - Esos se imprimirán cuando esté utilizando el modo de depuración. El valor predeterminado es 0.
`whisperUrl`	Requerido	URL (¿o IP?) A la instancia autohospedada del susurro.
`whisperMethod`	Opcional	Método Whisper: OpenAi-Whisper o más rápido. El valor predeterminado es: Whaster-Whisper.
`whisperLanguage`	Opcional	Predeterminado es: EN.
`openAiKey`	Requerido	Clave API de OpenAI.
`openAiSystemMsg`	Opcional	MSG del sistema: cómo debe comportarse la IA.
`mimic3Url`	Requerido	MIMIC3 URL (servidor), con protocolo, puerto, sin /API /TTS
`mimic3Voice`	Opcional	MIMIC3 Voice - Predeterminado: EN_US/CMU -ARCIT_LOW%23GKA
`debug`	Opcional	Si desea depurar, el valor predeterminado es: falso.

¿Qué es Picovoice / puercoespín

Picovoice / puercoespine se usa para la palabra "disparador". Es una pequeña IA / Red Neural (NN) autohospedada. Picovoice ofrece una gama de servicios, incluida una licencia para esta IA fuera de línea. Solo envía estadísticas de uso, no las conversaciones de audio reales.

Que es susurro

Whisper es un producto de código abierto de OpenAI. Es una IA de modelo de lenguaje grande (LLM) que maneja el habla a texto (transcripción). En mi caso personal, lo tengo a sí mismo en mi red local.

Usé esto: https://github.com/ahmetoner/whisper-asr-webservice

Que es chatgpt

ChatGPT es otro producto de OpenAI. Es un modelo de lenguaje grande (LLM) ai. Deberá registrarse y obtener una clave API para usarla.

Que es langchain

Langchain es una biblioteca construida alrededor de LLM que permite una funcionalidad adicional, como la memoria a largo plazo.

¿Qué es mimic3 (mycroft)

MIMIC3 de MyCroft es un sistema de texto a voz (TTS) basado en un modelo de idioma grande (LLM). Ofrece TTS realistas que pueden ejecutarse en sistemas con restricciones de recursos. Inicialmente intenté configurarlo en mi OrangePi, pero en su lugar, lo instalé en la misma máquina con Whisper y lo usé a través de la red.

Usé este Docker-Compose.yml

 version : ' 3.7 '

services :
  mimic3 :
    image : mycroftai/mimic3
    ports :
      - 59125:59125
    volumes :
      - .:/home/mimic3/.local/share/mycroft/mimic3
    stdin_open : true
    tty : true

Solución de problemas

Si su audio no funciona, verifique si está utilizando ALSA o PULSEAUDIO. Es posible que deba instalar mpg123 . Puede instalarlo utilizando el comando sudo apt-get install mpg123 .
Es posible que también deba instalar lame para la codificación de audio. Puede instalarlo utilizando el comando sudo apt-get install lame .

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-19
tamaño 129.37KB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Divertida superposición de cine y televisión mmm.

2024-01-05

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo