นี่คือโมดูลสำหรับMagicMirror²
มันทำงานอย่างไร https://nikro.me/articles/professional/crafting-our-ai-assistant/
เป้าหมายของโมดูลคือการสร้างวิดเจ็ตแบบโต้ตอบที่กำหนดเองที่ใช้เครื่องมือ Open AI:
ความคิดคือสิ่งต่อไปนี้:
ในการใช้โมดูลนี้เพิ่มบล็อกการกำหนดค่าต่อไปนี้ลงในอาร์เรย์โมดูลในไฟล์ config/config.js :
var config = {
modules : [
{
module : 'MMM-WhisperGPT' ,
config : {
// See below for configurable options
picovoiceKey : 'xxx' ,
picovoiceWord : 'JARVIS' ,
picovoiceSilenceTime : 3 ,
picovoiceSilenceThreshold : 600 ,
audioDeviceIndex : 3 ,
openAiKey : 'xxx' ,
openAiSystemMsg : 'xxx' ,
whisperUrl : '192.168.1.5:9000/asr' ,
whisperMethod : 'openai-whisper' ,
mimic3Url : '192.168.1.6:59125'
}
}
]
} | ตัวเลือก | ที่จำเป็น? | คำอธิบาย |
|---|---|---|
picovoiceKey | ที่จำเป็น | Picovoice Access Key - คุณต้องลงทะเบียนเพื่อรับ - ใช้สำหรับ Trigger Word |
picovoiceWord | ไม่จำเป็น | Picovoice Trigger Word เช่น Bumblebee, Jarvis ฯลฯ ค่าเริ่มต้นเป็น Jarvis |
picovoiceSilenceTime | ไม่จำเป็น | ระยะเวลาเงียบ - ค่าเริ่มต้นถึง 3 (3 วินาที) |
picovoiceSilenceThreshold | ไม่จำเป็น | นี่คือเสียงรบกวนพื้นหลัง * หมายเลขนี้ ค่าเริ่มต้นคือ 1.1 (aka 10%) |
audioDeviceIndex | ไม่จำเป็น | อุปกรณ์เสียง - IE 3 - สิ่งเหล่านั้นจะถูกพิมพ์ออกมาเมื่อคุณใช้โหมดดีบั๊ก ค่าเริ่มต้นถึง 0 |
whisperUrl | ที่จำเป็น | URL (หรือ IP?) เป็นอินสแตนซ์ที่โฮสต์ตัวเองของเสียงกระซิบ |
whisperMethod | ไม่จำเป็น | วิธีการกระซิบ: openai-whisper หรือ whisper เร็วขึ้น ค่าเริ่มต้นเป็น: เร็วขึ้น |
whisperLanguage | ไม่จำเป็น | ค่าเริ่มต้นเป็น: en. |
openAiKey | ที่จำเป็น | คีย์ API ของ Openai |
openAiSystemMsg | ไม่จำเป็น | ระบบผงชูรส - AI ควรประพฤติตนอย่างไร |
mimic3Url | ที่จำเป็น | MIMIC3 URL (เซิร์ฟเวอร์) พร้อมโปรโตคอลพอร์ตโดยไม่ต้อง /API /TTS |
mimic3Voice | ไม่จำเป็น | Mimic3 Voice - ค่าเริ่มต้น: en_us/cmu -arctic_low%23gka |
debug | ไม่จำเป็น | หากคุณต้องการดีบักค่าเริ่มต้นคือ: เท็จ |
Picovoice / morcupine ใช้สำหรับคำว่า "ทริกเกอร์" มันเป็นเครือข่าย AI / Neural ขนาดเล็กที่โฮสต์ตัวเอง (NN) Picovoice เสนอบริการที่หลากหลายรวมถึงใบอนุญาตสำหรับ AI ออฟไลน์นี้ มันส่งเฉพาะสถิติการใช้งานไม่ใช่การสนทนาเสียงจริง
Whisper เป็นผลิตภัณฑ์โอเพนซอร์ซจาก OpenAI มันเป็นรูปแบบภาษาขนาดใหญ่ (LLM) AI ที่จัดการกับคำพูดเป็นข้อความ (การถอดความ) ในกรณีส่วนตัวของฉันฉันมีโฮสต์ตัวเองในเครือข่ายท้องถิ่นของฉัน
ฉันใช้สิ่งนี้: https://github.com/ahmetoner/whisper-asr-webservice
CHATGPT เป็นผลิตภัณฑ์อื่นจาก OpenAI มันเป็นรูปแบบภาษาขนาดใหญ่ (LLM) AI คุณจะต้องลงทะเบียนและรับคีย์ API เพื่อใช้งาน
Langchain เป็นห้องสมุดที่สร้างขึ้นรอบ ๆ LLM ที่ช่วยให้สามารถใช้งานได้พิเศษเช่นหน่วยความจำระยะยาว
MIMIC3 ของ MyCroft เป็นระบบแบบ text-to-speech (TTS) ที่ใช้โมเดลภาษาขนาดใหญ่ (LLM) มันมี TTS ที่เป็นจริงที่สามารถทำงานบนระบบที่ จำกัด ทรัพยากรได้บ้าง ตอนแรกฉันพยายามที่จะตั้งค่าบน OrangePi ของฉัน แต่ฉันติดตั้งไว้ในเครื่องเดียวกันด้วย Whisper และใช้งานผ่านเครือข่าย
ฉันใช้ Docker-compose.yml นี้
version : ' 3.7 '
services :
mimic3 :
image : mycroftai/mimic3
ports :
- 59125:59125
volumes :
- .:/home/mimic3/.local/share/mycroft/mimic3
stdin_open : true
tty : true mpg123 คุณสามารถติดตั้งได้โดยใช้คำสั่ง sudo apt-get install mpg123lame สำหรับการเข้ารหัสเสียง คุณสามารถติดตั้งได้โดยใช้คำสั่ง sudo apt-get install lame