MMM WhisperGPT 다운로드 -MMM MMM WhisperGPT 소스 코드 다운로드

MMM WhisperGPT

AI 소스 코드

1.0.0

다운로드

mmm-whispergpt

이것은 MagicMirror²의 모듈입니다.

작동 방식 https://nikro.me/articles/professional/crafting-our-ai-assistant/

모듈의 목표는 Open AI 도구를 사용하는 사용자 정의 대화식 위젯을 만드는 것입니다.

Whisper- 음성-텍스트 전사를위한 자체 주최 모델.
Langchain- 요청을 처리하기 위해 Chatgpt API와 함께 사용하려고합니다.
picovoice-> porcupine- 오프라인 (자조) 단어 방아쇠 (개인 정보에 대한 악센트)에 사용됩니다.
또한 ... MIMIC3 :)

아이디어는 다음과 같습니다.

깨우기 단어 (고슴도치).
... 레코드 쿼리 (섹시한 애니메이션 표시, 나중에 완료됩니다)
... 자체 주최 속삭임으로 전달하십시오
... 음성 텍스트를 전사하십시오
전사 된 렌더링 된 텍스트로 질문을 표시하십시오 (모듈 렌더링)
... Langchain을 통과하여 Chatgpt로 전달하십시오
... 텍스트 회신을 모듈로 다시 전달하고 화면에 렌더링합니다.
... TTS (MIMIC3)를 사용하여 네트워크에서 자체 주최하여 재생할 WAV 파일을 버리십시오.

모듈 사용

이 모듈을 사용하려면 config/config.js 파일의 모듈 배열에 다음 구성 블록을 추가하십시오.

 var config = {
    modules : [
        {
            module : 'MMM-WhisperGPT' ,
            config : {
                // See below for configurable options
                picovoiceKey : 'xxx' ,
                picovoiceWord : 'JARVIS' ,
                picovoiceSilenceTime : 3 ,
                picovoiceSilenceThreshold : 600 ,
                audioDeviceIndex : 3 ,
                openAiKey : 'xxx' ,
                openAiSystemMsg : 'xxx' ,
                whisperUrl : '192.168.1.5:9000/asr' ,
                whisperMethod : 'openai-whisper' ,
                mimic3Url : '192.168.1.6:59125'
            }
        }
    ]
}

구성 옵션

옵션	필수의?	설명
`picovoiceKey`	필수의	Picovoice Access Key- 획득하려면 등록해야합니다. 이것은 트리거 단어에 사용됩니다.
`picovoiceWord`	선택 과목	Picovoice Trigger Word, 즉 Bumblebee, Jarvis 등. Jarvis의 기본값.
`picovoiceSilenceTime`	선택 과목	침묵 기간 - 기본값은 3 초 (3 초)입니다.
`picovoiceSilenceThreshold`	선택 과목	이것은 일반적으로 배경 노이즈 *이 숫자입니다. 기본값은 1.1 (일명 10%)입니다.
`audioDeviceIndex`	선택 과목	오디오 장치 -IE 3- 디버그 모드를 사용할 때 인쇄됩니다. 기본값은 0까지.
`whisperUrl`	필수의	Whisper의 자체 주최 인스턴스에 대한 URL (또는 IP?).
`whisperMethod`	선택 과목	Whisper Method : Openai-Whisper 또는 더 빠른 창자. 기본값 : 더 빠른 창고.
`whisperLanguage`	선택 과목	기본값 : en.
`openAiKey`	필수의	Openai의 API 키.
`openAiSystemMsg`	선택 과목	시스템 메시지 - AI가 어떻게 행동 해야하는지.
`mimic3Url`	필수의	/api /tts가없는 프로토콜, 포트가 포함 된 MIMIC3 URL (Server)
`mimic3Voice`	선택 과목	MIMIC3 음성 - 기본값 : EN_US/CMU -ARCTIC_LOW%23GKA
`debug`	선택 과목	디버그를 원한다면 기본값은 : false입니다.

picovoice / porcupine이란 무엇입니까?

Picovoice / Porcupine은 "트리거"단어에 사용됩니다. 자체 주최하는 소규모 AI / 신경망 (NN)입니다. Picovoice는이 오프라인 AI에 대한 라이센스를 포함하여 다양한 서비스를 제공합니다. 실제 오디오 대화가 아닌 사용 통계 만 보냅니다.

속삭이는 것

Whisper는 OpenAi의 오픈 소스 제품입니다. Speech-to-Text (전사)를 처리하는 큰 언어 모델 (LLM) AI입니다. 내 개인적인 경우, 나는 내 지역 네트워크에서 자체 주최했습니다.

나는 이것을 사용했다 : https://github.com/ahmetoner/whisper-asr-webservice

chatgpt는 무엇입니까?

Chatgpt는 OpenAi의 또 다른 제품입니다. 큰 언어 모델 (LLM) AI입니다. 사용하려면 등록하고 API 키를 가져와야합니다.

Langchain이란 무엇입니까?

Langchain은 장기 메모리와 같은 추가 기능을 허용하는 LLMS를 중심으로 제작 된 라이브러리입니다.

MIMIC3 (MyCroft) 란?

Mycroft의 MIMIC3은 LLM (Large Language Model)을 기반으로 한 TTS (Text-To-Steeech) 시스템입니다. 다소 자원 제한 시스템에서 실행될 수있는 현실적인 TTS를 제공합니다. 처음에는 OrangePi에 설정하려고 시도했지만 대신 Whisper를 사용하여 같은 컴퓨터에 설치하여 네트워크를 통해 사용했습니다.

나는이 docker-compose.yml을 사용했다

 version : ' 3.7 '

services :
  mimic3 :
    image : mycroftai/mimic3
    ports :
      - 59125:59125
    volumes :
      - .:/home/mimic3/.local/share/mycroft/mimic3
    stdin_open : true
    tty : true

문제 해결

오디오가 작동하지 않으면 ALSA 또는 Pulseaudio를 사용하는지 확인하십시오. mpg123 설치해야 할 수도 있습니다. sudo apt-get install mpg123 사용하여 설치할 수 있습니다.
오디오 인코딩을 위해 lame 설치해야 할 수도 있습니다. sudo apt-get install lame 명령을 사용하여 설치할 수 있습니다.

확장하다

추가 정보