MMM WhisperGPT下载MMM WhisperGPT源代码下载

MMM WhisperGPT

Ai源码

1.0.0

下载

MMM- Whispergpt

这是MagicMirror²的模块。

https://nikro.me/articles/professional/crafting-our-ai-assistant/

该模块的目标是创建一个使用打开AI工具的自定义交互式小部件：

耳语 - 语音到文本转录的自托模型。
Langchain-旨在与ChatGpt API一起使用，以处理请求。
picovoice->豪猪 - 用于离线（自构托）单词触发（隐私上的重音）。
也... bimic3 :)

想法如下：

唤醒单词（豪猪）。
...记录查询（显示一个性感的动画，以后将进行）
...传递给自主耳语
...转录语音到文本
将问题显示为转录的渲染文本（在模块渲染中）
...通过Langchain到达Chatgpt
...将文本回复传递回模块并在屏幕上渲染
...使用TTS（MIMIC3） - 在网络上进行自托，以返回WAV文件进行播放。

使用模块

要使用此模块，请将以下配置块添加到config/config.js文件中的模块数组：

 var config = {
    modules : [
        {
            module : 'MMM-WhisperGPT' ,
            config : {
                // See below for configurable options
                picovoiceKey : 'xxx' ,
                picovoiceWord : 'JARVIS' ,
                picovoiceSilenceTime : 3 ,
                picovoiceSilenceThreshold : 600 ,
                audioDeviceIndex : 3 ,
                openAiKey : 'xxx' ,
                openAiSystemMsg : 'xxx' ,
                whisperUrl : '192.168.1.5:9000/asr' ,
                whisperMethod : 'openai-whisper' ,
                mimic3Url : '192.168.1.6:59125'
            }
        }
    ]
}

配置选项

选项	必需的？	描述
`picovoiceKey`	必需的	PICOVOICE访问密钥 - 您必须注册才能获得 - 这用于触发单词。
`picovoiceWord`	选修的	picovoice触发单词，即大黄蜂，jarvis等。默认为jarvis。
`picovoiceSilenceTime`	选修的	沉默期 - 默认为3（3秒）。
`picovoiceSilenceThreshold`	选修的	这通常是背景噪声 *这个数字。默认值为1.1（又称10％）。
`audioDeviceIndex`	选修的	音频设备 - IE 3-使用调试模式时，这些设备将被打印出来。默认为0。
`whisperUrl`	必需的	url（或ip？）到耳语的自托人实例。
`whisperMethod`	选修的	耳语方法：openai-旋转或更快的呼吸。默认为：更快。
`whisperLanguage`	选修的	默认为：en。
`openAiKey`	必需的	Openai的API键。
`openAiSystemMsg`	选修的	系统味精 - AI应该如何行事。
`mimic3Url`	必需的	mimic3 URL（服务器），带有协议，端口，无 /api /tts
`mimic3Voice`	选修的	mimic3语音 - 默认值：en_us/cmu -arctic_low％23GKA
`debug`	选修的	如果要调试，默认值为：false。

什么是picovoice /豪猪

picovoice /豪猪用于“触发”单词。这是一个自我托管的小型AI /神经网络（NN）。 Picovoice提供一系列服务，包括该离线AI的许可证。它仅发送用法统计信息，而不是实际的音频对话。

什么是耳语

耳语是Openai的开源产品。这是一个大型语言模型（LLM）AI，可以处理语音到文本（转录）。在我个人的情况下，我在本地网络上进行了自我托管。

我使用了以下方式：https：//github.com/ahmetoner/whisper-asr-webservice

什么是chatgpt

Chatgpt是Openai的另一种产品。这是大型语言模型（LLM）AI。您将需要注册并获取一个API键来使用它。

什么是Langchain

Langchain是围绕LLM构建的库，可提供额外的功能，例如长期记忆。

什么是mimic3（mycroft）

Mycroft的Mimic3是基于大语言模型（LLM）的文本到语音（TTS）系统。它提供的现实TT可以在某种资源限制的系统上运行。我最初尝试将其设置在我的Orangepi上，但是，我用耳语将其安装在同一台计算机上，并通过网络使用它。

我使用了这个docker-compose.yml

 version : ' 3.7 '

services :
  mimic3 :
    image : mycroftai/mimic3
    ports :
      - 59125:59125
    volumes :
      - .:/home/mimic3/.local/share/mycroft/mimic3
    stdin_open : true
    tty : true

故障排除

如果您的音频不起作用 - 检查您是否正在使用ALSA或Pulseaudio。您可能需要安装mpg123 。您可以使用命令sudo apt-get install mpg123安装它。
您可能还需要安装lame以进行音频编码。您可以使用命令sudo apt-get install lame它。

展开

附加信息