make a smart speaker - make a smart speaker

make a smart speaker

كود الذكاء الاصطناعي

1.0.0

تنزيل

لصنع متحدث ذكي

中文

فيما يلي مجموعة من الموارد لصنع متحدث ذكي. ~~آمل أن نتمكن من جعل المصدر مفتوحًا للاستخدام اليومي.~~ أعتقد أن لدينا موارد كافية لصنع مكبر صوت ذكي مفتوح المصدر. دعونا نفعل ذلك. ألقِ نظرة على تقدم المشروع المسمى smart speaker from scratch على Hackaday. مجموعة الأجهزة الأولى متوفرة الآن.

يشبه المخطط الانسيابي المبسط لمكبر صوت ذكي:

 +---+   +----------------+   +---+   +---+   +---+
|Mic|-->|Audio Processing|-->|KWS|-->|STT|-->|NLU|
+---+   +----------------+   +---+   +---+   +-+-+
                                               |
                                               |
+-------+   +---+   +----------------------+   |
|Speaker|<--|TTS|<--|Knowledge/Skill/Action|<--+
+-------+   +---+   +----------------------+

تتضمن معالجة الصوت إلغاء الصدى الصوتي (AEC) ، والتشكيل ، وقمع الضوضاء (NS) ، إلخ.
يكتشف اكتشاف الكلمات الرئيسية (KWS) كلمة رئيسية (مثل OK Google ، يا سيري) لبدء محادثة.
خطاب إلى نص (STT)
فهم اللغة الطبيعية (NLU) يحول النص الخام إلى بيانات منظمة.
المعرفة/المهارة/العمل - قاعدة المعرفة والإضافات (Alexa Skill ، Google Action) لتوفير إجابة.
رسالة نصية إلى الكلام

KWS + STT + NLU + Skill + TTS

مشاريع نشطة مفتوحة المصدر

Snips-أول 100 ٪ على الجهاز و Private Open Open Open Open Open Open Source
Mycroft - مساعد صوت مفتوح المصدر قابل للاختراق
سيبيا؟ -قابلة للتخصيص للغاية ، مفتوح المصدر ، مساعد صوت عبر الطورة وإطار VUI (HTML + Java + X)
Kalliope - إطار عمل سيساعدك على إنشاء مساعد شخصي خاص بك ، نوعًا ما يشبه MyCroft (كلاهما كتبه Python)
روبوت Dingdang - A ؟؟ روبوت التفاعل الصوتي يعتمد على جاسبر ومصمم مع Raspberry Pi

SDK

خدمة صوتية Amazon Alexa - هي المساعد الصوتي الأكثر استخدامًا على نطاق واسع
- C ++ SDK
- عميل جافا
- عميل بيثون
Google Assistant SDK
إنه يحتوي على أذكى دماغ ، ويمكن إنشاء امتداده المسمى Google Action على بضع خطوات باستخدام DigitalFlow.ai ، كما أن إجراء جهازه مناسب للغاية للأجهزة الذكية المنزلية.
بايدو دويروس
قصاصات
- قم بتثبيت Snips على Raspberry Pi 3 و Linux و OSX و iOS و Android
تركيب Sepia ، Sepia مع Porcupine + Respeaker

KWS

MyCroft Precise-مستمع WRE WAKE RNN خفيف الوزن ،
Snowboy - DNN القائم على الكلمات الساخنة و Wake Word Detection Toolkit
HONK - إعادة تخطيط Pytorch من CNNs TensorFlow من Google لاكتشاف الكلمات الرئيسية
ML-KWS-For-MCU-ربما يكون الوعد الأكثر وعدًا للأجهزة المقيدة للموارد مثل متحكم القشرة M7 Arm Cortex M7
النيص - محرك خفيف الوزن ، عبر منصات لبناء كلمات مخصصة في ثوانٍ

Stt

Mozilla Deepspeech - تنفيذ Tensorflow لهندسة Baidu Deepspeech
كالدي
WAV2LETTER ++-مجموعة أدوات معالجة الكلام سريعة المصدر من فريق الكلام في Facebook AI Research تم تصميمها لتسهيل البحث في النماذج الشاملة للتعرف على الكلام.
Zamia Speech - أدوات مفتوحة ، بيانات ، نماذج (نماذج Kaldi ونماذج Wav2letter ++) للتعرف على الكلام التلقائي. يمكن تشغيله على Raspberry Pi
Abocketsphinx - محرك التعرف على الكلام خفيف الوزن باستخدام HMM + GMM

nlu

راسا نلو
- rasa nlu للصينيين
Snips NLU - مكتبة Python تسمح بتحليل الجمل المكتوبة باللغة الطبيعية وتستخلص المعلومات المنظمة.

TTS

Mozilla TTS - التعلم العميق للنص على الكلام
Mimic - Mycroft's TTS Engine ، استنادًا إلى Flite's CMU (Festival Lite)
Manytts-نظام تخليق نص إلى كلام مفتوح المصدر مكتوبة في Java النقي
ESPEAK -NG - مزج خطاب مفتوح المصدر يدعم 99 لغة ولهجات.
Ekho-محرك النص إلى الكلام الصيني
Wavenet ، تاكوترون 2

معالجة الصوت

إلغاء الصدى الصوتي
- speexdsp ، python ملزمة speexdsp-python
- EC - Echo Delection Daemon استنادًا إلى SPEEXDSP AEC لـ Raspberry PI أو الأجهزة الأخرى التي تعمل على تشغيل Linux.
اتجاه الوصول (DOA) - معظم خوارزميات DOA المستخدمة هي GCC -Phat
- tdoa
- ODAS - ODAs تعني نظام الاختبار المفتوح. هذه مكتبة مخصصة لأداء توطين مصدر الصوت وتتبعه وفصله وما بعد المرشح. يتم ترميز ODAs بالكامل في C ، لمزيد من قابلية النقل ، ويتم تحسينها لتشغيلها بسهولة على الأجهزة المضمنة منخفضة التكلفة. ODAS مجاني ومفتوح المصدر.
شكل شعاع
- beamformit - تصفية ومجموع شعاع
- CGMM Beamforming - تطبيق مرجعي
- MVDR شعاع الشكل
- GSC Beamforming
اكتشاف النشاط الصوتي
- WEBRTC VAD ، PY-WEBRTCVAD
- DNN VAD
ضوضاء suppresion
- NS من معالجة الصوت WEBRTC ، معالجة Python-Webrtc-Audio