لصنع متحدث ذكي
中文
فيما يلي مجموعة من الموارد لصنع متحدث ذكي. آمل أن نتمكن من جعل المصدر مفتوحًا للاستخدام اليومي. أعتقد أن لدينا موارد كافية لصنع مكبر صوت ذكي مفتوح المصدر. دعونا نفعل ذلك. ألقِ نظرة على تقدم المشروع المسمى smart speaker from scratch على Hackaday. مجموعة الأجهزة الأولى متوفرة الآن.
يشبه المخطط الانسيابي المبسط لمكبر صوت ذكي:
+---+ +----------------+ +---+ +---+ +---+
|Mic|-->|Audio Processing|-->|KWS|-->|STT|-->|NLU|
+---+ +----------------+ +---+ +---+ +-+-+
|
|
+-------+ +---+ +----------------------+ |
|Speaker|<--|TTS|<--|Knowledge/Skill/Action|<--+
+-------+ +---+ +----------------------+
- تتضمن معالجة الصوت إلغاء الصدى الصوتي (AEC) ، والتشكيل ، وقمع الضوضاء (NS) ، إلخ.
- يكتشف اكتشاف الكلمات الرئيسية (KWS) كلمة رئيسية (مثل OK Google ، يا سيري) لبدء محادثة.
- خطاب إلى نص (STT)
- فهم اللغة الطبيعية (NLU) يحول النص الخام إلى بيانات منظمة.
- المعرفة/المهارة/العمل - قاعدة المعرفة والإضافات (Alexa Skill ، Google Action) لتوفير إجابة.
- رسالة نصية إلى الكلام
KWS + STT + NLU + Skill + TTS
مشاريع نشطة مفتوحة المصدر
- Snips-أول 100 ٪ على الجهاز و Private Open Open Open Open Open Open Source
- Mycroft - مساعد صوت مفتوح المصدر قابل للاختراق
- سيبيا؟ -قابلة للتخصيص للغاية ، مفتوح المصدر ، مساعد صوت عبر الطورة وإطار VUI (HTML + Java + X)
- Kalliope - إطار عمل سيساعدك على إنشاء مساعد شخصي خاص بك ، نوعًا ما يشبه MyCroft (كلاهما كتبه Python)
- روبوت Dingdang - A ؟؟ روبوت التفاعل الصوتي يعتمد على جاسبر ومصمم مع Raspberry Pi
SDK
خدمة صوتية Amazon Alexa - هي المساعد الصوتي الأكثر استخدامًا على نطاق واسع
- C ++ SDK
- عميل جافا
- عميل بيثون
Google Assistant SDK
إنه يحتوي على أذكى دماغ ، ويمكن إنشاء امتداده المسمى Google Action على بضع خطوات باستخدام DigitalFlow.ai ، كما أن إجراء جهازه مناسب للغاية للأجهزة الذكية المنزلية.
بايدو دويروس
قصاصات
- قم بتثبيت Snips على Raspberry Pi 3 و Linux و OSX و iOS و Android
تركيب Sepia ، Sepia مع Porcupine + Respeaker
KWS
- MyCroft Precise-مستمع WRE WAKE RNN خفيف الوزن ،
- Snowboy - DNN القائم على الكلمات الساخنة و Wake Word Detection Toolkit
- HONK - إعادة تخطيط Pytorch من CNNs TensorFlow من Google لاكتشاف الكلمات الرئيسية
- ML-KWS-For-MCU-ربما يكون الوعد الأكثر وعدًا للأجهزة المقيدة للموارد مثل متحكم القشرة M7 Arm Cortex M7
- النيص - محرك خفيف الوزن ، عبر منصات لبناء كلمات مخصصة في ثوانٍ
Stt
- Mozilla Deepspeech - تنفيذ Tensorflow لهندسة Baidu Deepspeech
- كالدي
- WAV2LETTER ++-مجموعة أدوات معالجة الكلام سريعة المصدر من فريق الكلام في Facebook AI Research تم تصميمها لتسهيل البحث في النماذج الشاملة للتعرف على الكلام.
- Zamia Speech - أدوات مفتوحة ، بيانات ، نماذج (نماذج Kaldi ونماذج Wav2letter ++) للتعرف على الكلام التلقائي. يمكن تشغيله على Raspberry Pi
- Abocketsphinx - محرك التعرف على الكلام خفيف الوزن باستخدام HMM + GMM
nlu
TTS
- Mozilla TTS - التعلم العميق للنص على الكلام
- Mimic - Mycroft's TTS Engine ، استنادًا إلى Flite's CMU (Festival Lite)
- Manytts-نظام تخليق نص إلى كلام مفتوح المصدر مكتوبة في Java النقي
- ESPEAK -NG - مزج خطاب مفتوح المصدر يدعم 99 لغة ولهجات.
- Ekho-محرك النص إلى الكلام الصيني
- Wavenet ، تاكوترون 2
معالجة الصوت
الصوت i/o
- Portaudio ، Pyaudio
- Libsoundio
- alsa
- Pulseaudio
- pipewire