ดาวน์โหลด make a smart speaker - make a smart speaker Source Download

make a smart speaker

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

เพื่อสร้างลำโพงอัจฉริยะ

中文

นี่คือคอลเลกชันของทรัพยากรเพื่อสร้างลำโพงอัจฉริยะ ~~หวังว่าเราจะสามารถทำโอเพ่นซอร์สหนึ่งสำหรับการใช้งานประจำวัน~~ ฉันเชื่อว่าเรามีทรัพยากรเพียงพอที่จะสร้างลำโพงสมาร์ทโอเพนซอร์ส มาทำกันเถอะ ดูความคืบหน้าของโครงการชื่อ smart speaker from scratch บน Hackaday ชุดฮาร์ดแวร์ตัวแรกพร้อมใช้งานแล้ว

ผังงานที่เรียบง่ายของลำโพงอัจฉริยะเป็นเหมือน:

 +---+   +----------------+   +---+   +---+   +---+
|Mic|-->|Audio Processing|-->|KWS|-->|STT|-->|NLU|
+---+   +----------------+   +---+   +---+   +-+-+
                                               |
                                               |
+-------+   +---+   +----------------------+   |
|Speaker|<--|TTS|<--|Knowledge/Skill/Action|<--+
+-------+   +---+   +----------------------+

การประมวลผลเสียงรวมถึงการยกเลิกเสียงสะท้อนเสียง (AEC), beamforming, การปราบปรามเสียงรบกวน (NS) ฯลฯ
การระบุคำหลัก (KWS) ตรวจจับคำหลัก (เช่น OK Google, Hey Siri) เพื่อเริ่มการสนทนา
คำพูดถึงข้อความ (STT)
การทำความเข้าใจภาษาธรรมชาติ (NLU) แปลงข้อความดิบเป็นข้อมูลที่มีโครงสร้าง
ความรู้/ทักษะ/การกระทำ - ฐานความรู้และปลั๊กอิน (ทักษะ Alexa, Google Action) เพื่อให้คำตอบ
ส่งข้อความถึงการพูด

KWS + STT + NLU + ทักษะ + TTS

โครงการโอเพ่นซอร์สที่ใช้งานอยู่

SNIPS-แพลตฟอร์ม AI โอเพนซอร์สออนซอร์ส 100% แรก
MyCroft - ผู้ช่วยเสียงโอเพนซอร์สที่แฮ็กได้
ซีเปีย? -ปรับแต่งได้สูงโอเพนซอร์ซผู้ช่วยข้ามแพลตฟอร์มและเฟรมเวิร์ก VUI (HTML + Java + X)
Kalliope - กรอบการทำงานที่จะช่วยให้คุณสร้างผู้ช่วยส่วนตัวของคุณเองซึ่งคล้ายกับ Mycroft (ทั้งสองเขียนโดย Python)
หุ่นยนต์ Dingdang - A ?? หุ่นยนต์ปฏิสัมพันธ์ด้วยเสียงอิงจากแจสเปอร์และสร้างด้วย Raspberry Pi

SDK

Amazon Alexa Voice Service - เป็นผู้ช่วยเสียงที่ใช้กันอย่างแพร่หลายมากที่สุด
- C ++ SDK
- ลูกค้า Java
- ไคลเอนต์ Python
Google Assistant SDK
มันมีสมองที่ฉลาดที่สุดส่วนขยายที่เรียกว่า Google Action สามารถสร้างขึ้นได้ในไม่กี่ขั้นตอนด้วย DigitalFlow.ai และการกระทำของอุปกรณ์นั้นเหมาะสำหรับอุปกรณ์สมาร์ทที่บ้าน
Baidu Dueros
ซุ่มยิง
- ติดตั้ง Snips บน Raspberry Pi 3, Linux, OSX, iOS และ Android
การติดตั้งซีเปีย, ซีเปียกับเม่น + respeaker

KWS

Mycroft Precise-ผู้ฟังคำพูดที่มีน้ำหนักเบาและใช้งานง่าย
Snowboy - Hotword ที่ใช้ DNN และ Wake Word Detection Toolkit
Honk - การปรับปรุงการปรับแต่ง Pytorch ของ TensorFlow CNNS ของ Google สำหรับการระบุคำหลัก
ML-KWS-for-MCU-อาจเป็นสัญญาที่ดีที่สุดสำหรับอุปกรณ์ที่ จำกัด ทรัพยากรเช่น Microcontroller ARM Cortex M7
MORCUPINE - เครื่องยนต์ที่มีน้ำหนักเบา, ข้ามแพลตฟอร์มเพื่อสร้างคำปลุกแบบกำหนดเองในไม่กี่วินาที

STT

Mozilla Deepspeech - การใช้งาน Tensorflow ของสถาปัตยกรรม Deepspeech ของ Baidu
Kaldi
WAV2LETTER ++-ชุดเครื่องมือการประมวลผลคำพูดแบบโอเพ่นซอร์สที่รวดเร็วและเปิดกว้างจากทีมพูดที่การวิจัย Facebook AI ที่สร้างขึ้นเพื่ออำนวยความสะดวกในการวิจัยในรูปแบบ end-to-end สำหรับการรู้จำเสียงพูด
Zamia Speech - เครื่องมือเปิด, ข้อมูล, โมเดล (โมเดล Kaldi และรุ่น WAV2LETTER ++) สำหรับการรู้จำเสียงพูดอัตโนมัติแบบไม่มีเมฆ มันสามารถทำงานบน Raspberry pi
PocketSphinx - เอ็นจิ้นการจดจำคำพูดที่มีน้ำหนักเบาโดยใช้ HMM + GMM

NLU

Rasa Nlu
- rasa nlu สำหรับภาษาจีน
SNIPS NLU - ห้องสมุด Python ที่อนุญาตให้แยกวิเคราะห์ประโยคที่เขียนด้วยภาษาธรรมชาติและสารสกัดข้อมูลที่มีโครงสร้าง

TTS

Mozilla TTS - การเรียนรู้อย่างลึกซึ้งสำหรับข้อความถึงการพูด
Mimic - Mycroft's TTS Engine ซึ่งขึ้นอยู่กับ Flite ของ CMU (Festival Lite)
Manytts-ระบบการสังเคราะห์แบบโอเพ่นซอร์สแบบโอเพ่น
Espeak -NG - synthesizer คำพูดโอเพ่นซอร์สที่รองรับ 99 ภาษาและสำเนียง
Ekho-เครื่องยนต์ข้อความภาษาจีนเป็นคำพูด
Wavenet, Tacotron 2

การประมวลผลเสียง

การยกเลิกเสียงก้อง
- Speexdsp, python ที่มีผลผูกพัน speexdsp-python
- EC - echo ยกเลิก daemon ตาม SpeexDSP AEC สำหรับ Raspberry Pi หรืออุปกรณ์อื่น ๆ ที่ใช้ Linux
ทิศทางของการมาถึง (DOA) - อัลกอริทึม DOA ที่ใช้มากที่สุดคือ GCC -phat
- tdoa
- ODAS - ODAS ย่อมาจากระบบออดิชั่นแบบเปิด นี่คือห้องสมุดที่ทุ่มเทเพื่อทำการแปลการติดตามการติดตามการแยกและการกรองหลังการกรอง ODAs มีรหัสทั้งหมดใน C เพื่อการพกพามากขึ้นและได้รับการปรับให้เหมาะสมเพื่อทำงานได้อย่างง่ายดายด้วยฮาร์ดแวร์ฝังตัวที่มีต้นทุนต่ำ ODAs ฟรีและโอเพ่นซอร์ส
การสร้างลำแสง
- beamformit - ตัวกรอง & ผลรวม beamforming
- CGMM beamforming - การใช้งานอ้างอิง
- mvdr beamforming
- GSC beamforming
การตรวจจับกิจกรรมเสียง
- Webrtc vad, py-webrtcvad
- dnn vad
เสียงรบกวน
- NS ของการประมวลผลเสียง WEBRTC, Python-WEBRTC-Audio-Processing