เพื่อสร้างลำโพงอัจฉริยะ
中文
นี่คือคอลเลกชันของทรัพยากรเพื่อสร้างลำโพงอัจฉริยะ หวังว่าเราจะสามารถทำโอเพ่นซอร์สหนึ่งสำหรับการใช้งานประจำวัน ฉันเชื่อว่าเรามีทรัพยากรเพียงพอที่จะสร้างลำโพงสมาร์ทโอเพนซอร์ส มาทำกันเถอะ ดูความคืบหน้าของโครงการชื่อ smart speaker from scratch บน Hackaday ชุดฮาร์ดแวร์ตัวแรกพร้อมใช้งานแล้ว
ผังงานที่เรียบง่ายของลำโพงอัจฉริยะเป็นเหมือน:
+---+ +----------------+ +---+ +---+ +---+
|Mic|-->|Audio Processing|-->|KWS|-->|STT|-->|NLU|
+---+ +----------------+ +---+ +---+ +-+-+
|
|
+-------+ +---+ +----------------------+ |
|Speaker|<--|TTS|<--|Knowledge/Skill/Action|<--+
+-------+ +---+ +----------------------+
- การประมวลผลเสียงรวมถึงการยกเลิกเสียงสะท้อนเสียง (AEC), beamforming, การปราบปรามเสียงรบกวน (NS) ฯลฯ
- การระบุคำหลัก (KWS) ตรวจจับคำหลัก (เช่น OK Google, Hey Siri) เพื่อเริ่มการสนทนา
- คำพูดถึงข้อความ (STT)
- การทำความเข้าใจภาษาธรรมชาติ (NLU) แปลงข้อความดิบเป็นข้อมูลที่มีโครงสร้าง
- ความรู้/ทักษะ/การกระทำ - ฐานความรู้และปลั๊กอิน (ทักษะ Alexa, Google Action) เพื่อให้คำตอบ
- ส่งข้อความถึงการพูด
KWS + STT + NLU + ทักษะ + TTS
โครงการโอเพ่นซอร์สที่ใช้งานอยู่
- SNIPS-แพลตฟอร์ม AI โอเพนซอร์สออนซอร์ส 100% แรก
- MyCroft - ผู้ช่วยเสียงโอเพนซอร์สที่แฮ็กได้
- ซีเปีย? -ปรับแต่งได้สูงโอเพนซอร์ซผู้ช่วยข้ามแพลตฟอร์มและเฟรมเวิร์ก VUI (HTML + Java + X)
- Kalliope - กรอบการทำงานที่จะช่วยให้คุณสร้างผู้ช่วยส่วนตัวของคุณเองซึ่งคล้ายกับ Mycroft (ทั้งสองเขียนโดย Python)
- หุ่นยนต์ Dingdang - A ?? หุ่นยนต์ปฏิสัมพันธ์ด้วยเสียงอิงจากแจสเปอร์และสร้างด้วย Raspberry Pi
SDK
Amazon Alexa Voice Service - เป็นผู้ช่วยเสียงที่ใช้กันอย่างแพร่หลายมากที่สุด
- C ++ SDK
- ลูกค้า Java
- ไคลเอนต์ Python
Google Assistant SDK
มันมีสมองที่ฉลาดที่สุดส่วนขยายที่เรียกว่า Google Action สามารถสร้างขึ้นได้ในไม่กี่ขั้นตอนด้วย DigitalFlow.ai และการกระทำของอุปกรณ์นั้นเหมาะสำหรับอุปกรณ์สมาร์ทที่บ้าน
Baidu Dueros
ซุ่มยิง
- ติดตั้ง Snips บน Raspberry Pi 3, Linux, OSX, iOS และ Android
การติดตั้งซีเปีย, ซีเปียกับเม่น + respeaker
KWS
- Mycroft Precise-ผู้ฟังคำพูดที่มีน้ำหนักเบาและใช้งานง่าย
- Snowboy - Hotword ที่ใช้ DNN และ Wake Word Detection Toolkit
- Honk - การปรับปรุงการปรับแต่ง Pytorch ของ TensorFlow CNNS ของ Google สำหรับการระบุคำหลัก
- ML-KWS-for-MCU-อาจเป็นสัญญาที่ดีที่สุดสำหรับอุปกรณ์ที่ จำกัด ทรัพยากรเช่น Microcontroller ARM Cortex M7
- MORCUPINE - เครื่องยนต์ที่มีน้ำหนักเบา, ข้ามแพลตฟอร์มเพื่อสร้างคำปลุกแบบกำหนดเองในไม่กี่วินาที
STT
- Mozilla Deepspeech - การใช้งาน Tensorflow ของสถาปัตยกรรม Deepspeech ของ Baidu
- Kaldi
- WAV2LETTER ++-ชุดเครื่องมือการประมวลผลคำพูดแบบโอเพ่นซอร์สที่รวดเร็วและเปิดกว้างจากทีมพูดที่การวิจัย Facebook AI ที่สร้างขึ้นเพื่ออำนวยความสะดวกในการวิจัยในรูปแบบ end-to-end สำหรับการรู้จำเสียงพูด
- Zamia Speech - เครื่องมือเปิด, ข้อมูล, โมเดล (โมเดล Kaldi และรุ่น WAV2LETTER ++) สำหรับการรู้จำเสียงพูดอัตโนมัติแบบไม่มีเมฆ มันสามารถทำงานบน Raspberry pi
- PocketSphinx - เอ็นจิ้นการจดจำคำพูดที่มีน้ำหนักเบาโดยใช้ HMM + GMM
NLU
TTS
- Mozilla TTS - การเรียนรู้อย่างลึกซึ้งสำหรับข้อความถึงการพูด
- Mimic - Mycroft's TTS Engine ซึ่งขึ้นอยู่กับ Flite ของ CMU (Festival Lite)
- Manytts-ระบบการสังเคราะห์แบบโอเพ่นซอร์สแบบโอเพ่น
- Espeak -NG - synthesizer คำพูดโอเพ่นซอร์สที่รองรับ 99 ภาษาและสำเนียง
- Ekho-เครื่องยนต์ข้อความภาษาจีนเป็นคำพูด
- Wavenet, Tacotron 2
การประมวลผลเสียง
เสียง I/O
- Portaudio, Pyaudio
- libsoundio
- อัลซา
- พูเลียอุดิโอ
- pipewire