هذه وحدة النمط لـ MagicMirror².
كيف تعمل
الهدف من الوحدة النمطية هو إنشاء عنصر واجهة مستخدم تفاعلية مخصصة تستخدم أدوات AI المفتوحة:
الفكرة هي ما يلي:
لاستخدام هذه الوحدة ، أضف كتلة التكوين التالية إلى مجموعة الوحدات النمطية في ملف config/config.js :
var config = {
modules : [
{
module : 'MMM-WhisperGPT' ,
config : {
// See below for configurable options
picovoiceKey : 'xxx' ,
picovoiceWord : 'JARVIS' ,
picovoiceSilenceTime : 3 ,
picovoiceSilenceThreshold : 600 ,
audioDeviceIndex : 3 ,
openAiKey : 'xxx' ,
openAiSystemMsg : 'xxx' ,
whisperUrl : '192.168.1.5:9000/asr' ,
whisperMethod : 'openai-whisper' ,
mimic3Url : '192.168.1.6:59125'
}
}
]
} | خيار | مطلوب؟ | وصف |
|---|---|---|
picovoiceKey | مطلوب | مفتاح الوصول إلى PicoVoice - يجب عليك التسجيل للحصول عليه - يتم استخدام هذا لكلمة الزناد. |
picovoiceWord | خياري | Picovoice Trigger Word ، أي Bumblebee ، Jarvis ، إلخ. الافتراضيات إلى Jarvis. |
picovoiceSilenceTime | خياري | فترة الصمت - الافتراضيات إلى 3 (3 ثوان). |
picovoiceSilenceThreshold | خياري | هذا هو عادة ضوضاء الخلفية * هذا الرقم. القيمة الافتراضية هي 1.1 (ويعرف أيضًا باسم 10 ٪). |
audioDeviceIndex | خياري | جهاز الصوت - أي 3 - سيتم طباعة تلك عند استخدام وضع التصحيح. الافتراضات إلى 0. |
whisperUrl | مطلوب | عنوان URL (أو IP؟) إلى مثيل مستضيف ذاتي الهمس. |
whisperMethod | خياري | طريقة الهمس: Openai-Whisper أو أسرع. الإعدادات الافتراضية إلى: أسرع. |
whisperLanguage | خياري | الإعدادات الافتراضية إلى: en. |
openAiKey | مطلوب | مفتاح API من Openai. |
openAiSystemMsg | خياري | System MSG - كيف يجب أن تتصرف الذكاء الاصطناعي. |
mimic3Url | مطلوب | MIMIC3 url (خادم) ، مع بروتوكول ، منفذ ، بدون /API /TTS |
mimic3Voice | خياري | MIMIC3 الصوت - الافتراضي: EN_US/CMU -ARCTIC_LOW ٪ 23GKA |
debug | خياري | إذا كنت ترغب في تصحيح ، فإن الافتراضي هو: خطأ. |
يتم استخدام picovoice / porcupine للكلمة "الزناد". إنها شبكة صغيرة من الذكاء الاصطناعي / العصبية (NN). يقدم Picovoice مجموعة من الخدمات ، بما في ذلك ترخيص لهذا الذكاء الاصطناعي في وضع عدم الاتصال. إنه يرسل فقط إحصائيات الاستخدام ، وليس محادثات الصوت الفعلية.
Whisper هو منتج مفتوح المصدر من Openai. إنه نموذج لغة كبير (LLM) AI الذي يتعامل مع الكلام إلى النص (النسخ). في حالتي الشخصية ، استضافتها ذاتيًا على شبكتي المحلية.
لقد استخدمت هذا: https://github.com/ahmetoner/whisper-asr-webservice
ChatGPT هو منتج آخر من Openai. إنه نموذج لغة كبير (LLM) AI. ستحتاج إلى التسجيل والحصول على مفتاح API لاستخدامه.
Langchain هي مكتبة مبنية على LLMs تتيح وظائف إضافية ، مثل الذاكرة طويلة الأجل.
MIMIC3 من MyCroft هو نظام نص إلى كلام (TTS) يعتمد على نموذج لغة كبير (LLM). إنه يوفر TTS واقعية يمكن أن تعمل على أنظمة مقيدة إلى حد ما. حاولت في البداية إعداده على OrangePI الخاص بي ، لكن بدلاً من ذلك ، قمت بتثبيته على نفس الجهاز مع الهمس واستخدامه عبر الشبكة.
لقد استخدمت هذا docker-corm.yml
version : ' 3.7 '
services :
mimic3 :
image : mycroftai/mimic3
ports :
- 59125:59125
volumes :
- .:/home/mimic3/.local/share/mycroft/mimic3
stdin_open : true
tty : true mpg123 . يمكنك تثبيته باستخدام الأمر sudo apt-get install mpg123 .lame لتشفير الصوت. يمكنك تثبيته باستخدام الأمر sudo apt-get install lame .