make a smart speaker Download - make a smart speaker Source Code Download

make a smart speaker

Kode Sumber AI

1.0.0

Unduh

Untuk membuat speaker yang cerdas

中文

Berikut adalah kumpulan sumber daya untuk membuat speaker yang cerdas. ~~Semoga kita bisa membuat open source satu untuk penggunaan sehari -hari.~~ Saya percaya kami memiliki sumber daya yang cukup untuk membuat speaker pintar open source. Ayo lakukan. Lihatlah kemajuan proyek bernama smart speaker from scratch di Hackaday. Kit perangkat keras pertama tersedia sekarang.

Diagram alur yang disederhanakan dari speaker pintar adalah seperti:

 +---+   +----------------+   +---+   +---+   +---+
|Mic|-->|Audio Processing|-->|KWS|-->|STT|-->|NLU|
+---+   +----------------+   +---+   +---+   +-+-+
                                               |
                                               |
+-------+   +---+   +----------------------+   |
|Speaker|<--|TTS|<--|Knowledge/Skill/Action|<--+
+-------+   +---+   +----------------------+

Pemrosesan audio termasuk pembatalan gema akustik (AEC), Beamforming, Noise Suppression (NS), dll.
Spotting kata kunci (KWS) mendeteksi kata kunci (seperti ok google, hey siri) untuk memulai percakapan.
Pidato ke Teks (STT)
Pemahaman Bahasa Alami (NLU) Mengubah teks mentah menjadi data terstruktur.
Pengetahuan/Keterampilan/Tindakan - Basis Pengetahuan dan Plugin (Keterampilan Alexa, Tindakan Google) untuk memberikan jawaban.
Teks untuk berbicara

KWS + STT + NLU + Keterampilan + TTS

Proyek Sumber Terbuka Aktif

Snips-100% pertama di perangkat AI Open-Device dan Private-by-Design AI Platform AI
Mycroft - Asisten Suara Sumber Terbuka yang Dapat Dihadapi
Sepia? -Sangat mudah disesuaikan, open-source, voice assistant dan vui framework (html + java + x)
Kalliope - Kerangka kerja yang akan membantu Anda membuat asisten pribadi Anda sendiri, mirip dengan Mycroft (keduanya ditulis oleh Python)
Robot Dingdang - A ?? Robot Interaksi Suara Berdasarkan Jasper dan Dibangun dengan Raspberry Pi

SDK

Amazon Alexa Voice Service - adalah asisten suara yang paling banyak digunakan
- C ++ SDK
- Klien Java
- Klien Python
Google Assistant SDK
Ini memiliki otak paling cerdas, ekstensi yang disebut Google Action dapat dibuat pada beberapa langkah dengan DigitalFlow.ai dan aksi perangkatnya sangat cocok untuk perangkat pintar rumah.
Baidu Dueros
Snips
- Instal Snips di Raspberry Pi 3, Linux, OSX, iOS dan Android
Instalasi Sepia, sepia dengan landak + respeaker

KWS

Mycroft Precise-Pendengar Word Wake yang ringan, sederhana
Snowboy - Toolkit Deteksi Hotword dan Wake Word DNN
Honk - Pytorch Reimplementation dari Google's Tensorflow CNNs untuk Spotting Kata Kunci
ML-KWS-FOR-MCU-Mungkin yang paling menjanjikan untuk perangkat yang dibatasi sumber daya seperti Mikrokontroler ARM CORTEX M7
Porcupine - Mesin cross -platform ringan untuk membangun kata bangun khusus dalam hitungan detik

Stt

Mozilla Deepspeech - Implementasi Tensorflow dari Arsitektur Deepspeech Baidu
Kaldi
WAV2LETTER ++-Perangkat pemrosesan pidato open source yang cepat dari tim pidato di Facebook AI Research yang dibangun untuk memfasilitasi penelitian dalam model ujung ke ujung untuk pengenalan suara.
Zamia Speech - Alat terbuka, data, model (model Kaldi dan model WAV2LETTER ++) untuk pengenalan ucapan otomatis tanpa awan. Itu bisa dijalankan di raspberry pi
PocketSphinx - Mesin pengenalan ucapan yang ringan menggunakan HMM + GMM

Nlu

Rasa nlu
- Rasa nlu untuk Cina
Snips NLU - Perpustakaan Python yang memungkinkan untuk menguraikan kalimat yang ditulis dalam bahasa alami dan mengekstrak informasi terstruktur.

Tts

Mozilla TTS - Pembelajaran mendalam untuk teks ke bicara
Mimic - Mesin TTS Mycroft, berdasarkan CMU's Flite (Festival Lite)
ManyTTS-Sistem sintesis teks-ke-speech open-source, multibahasa yang ditulis dalam java murni
Espeak -Ng - Synthesizer ucapan open source yang mendukung 99 bahasa dan aksen.
Ekho-Mesin Teks-ke-Tuan Chinese
Wavenet, Tacotron 2

Pemrosesan audio

Pembatalan gema akustik
- Speexdsp, speexdsp-python yang mengikat python-nya
- EC - Daemon Pembatalan Echo Berdasarkan SPEEXDSP AEC untuk Raspberry Pi atau perangkat lain yang menjalankan Linux.
Arah Kedatangan (DOA) - Algoritma DOA yang paling banyak digunakan adalah GCC -PHAT
- tdoa
- ODAS - ODAS adalah singkatan dari Open Embedded Audition System. Ini adalah perpustakaan yang didedikasikan untuk melakukan lokalisasi sumber suara, pelacakan, pemisahan, dan pasca-penyaringan. ODAS dikodekan sepenuhnya di C, untuk lebih portabilitas, dan dioptimalkan untuk berjalan dengan mudah pada perangkat keras tertanam berbiaya rendah. Odas gratis dan open source.
Berkasnya
- BeamFormit - Filter & Sum Beamforming
- CGMM Beamforming - Implementasi Referensi
- MVDR Beamforming
- GSC Beamforming
Deteksi aktivitas suara
- WEBRTC VAD, PY-WEBRTCVAD
- DNN VAD
Penindasan kebisingan
- NS WEBRTC Audio Processing, Python-Webrtc-Audio-Processing