Untuk membuat speaker yang cerdas
中文
Berikut adalah kumpulan sumber daya untuk membuat speaker yang cerdas. Semoga kita bisa membuat open source satu untuk penggunaan sehari -hari. Saya percaya kami memiliki sumber daya yang cukup untuk membuat speaker pintar open source. Ayo lakukan. Lihatlah kemajuan proyek bernama smart speaker from scratch di Hackaday. Kit perangkat keras pertama tersedia sekarang.
Diagram alur yang disederhanakan dari speaker pintar adalah seperti:
+---+ +----------------+ +---+ +---+ +---+
|Mic|-->|Audio Processing|-->|KWS|-->|STT|-->|NLU|
+---+ +----------------+ +---+ +---+ +-+-+
|
|
+-------+ +---+ +----------------------+ |
|Speaker|<--|TTS|<--|Knowledge/Skill/Action|<--+
+-------+ +---+ +----------------------+
- Pemrosesan audio termasuk pembatalan gema akustik (AEC), Beamforming, Noise Suppression (NS), dll.
- Spotting kata kunci (KWS) mendeteksi kata kunci (seperti ok google, hey siri) untuk memulai percakapan.
- Pidato ke Teks (STT)
- Pemahaman Bahasa Alami (NLU) Mengubah teks mentah menjadi data terstruktur.
- Pengetahuan/Keterampilan/Tindakan - Basis Pengetahuan dan Plugin (Keterampilan Alexa, Tindakan Google) untuk memberikan jawaban.
- Teks untuk berbicara
KWS + STT + NLU + Keterampilan + TTS
Proyek Sumber Terbuka Aktif
- Snips-100% pertama di perangkat AI Open-Device dan Private-by-Design AI Platform AI
- Mycroft - Asisten Suara Sumber Terbuka yang Dapat Dihadapi
- Sepia? -Sangat mudah disesuaikan, open-source, voice assistant dan vui framework (html + java + x)
- Kalliope - Kerangka kerja yang akan membantu Anda membuat asisten pribadi Anda sendiri, mirip dengan Mycroft (keduanya ditulis oleh Python)
- Robot Dingdang - A ?? Robot Interaksi Suara Berdasarkan Jasper dan Dibangun dengan Raspberry Pi
SDK
Amazon Alexa Voice Service - adalah asisten suara yang paling banyak digunakan
- C ++ SDK
- Klien Java
- Klien Python
Google Assistant SDK
Ini memiliki otak paling cerdas, ekstensi yang disebut Google Action dapat dibuat pada beberapa langkah dengan DigitalFlow.ai dan aksi perangkatnya sangat cocok untuk perangkat pintar rumah.
Baidu Dueros
Snips
- Instal Snips di Raspberry Pi 3, Linux, OSX, iOS dan Android
Instalasi Sepia, sepia dengan landak + respeaker
KWS
- Mycroft Precise-Pendengar Word Wake yang ringan, sederhana
- Snowboy - Toolkit Deteksi Hotword dan Wake Word DNN
- Honk - Pytorch Reimplementation dari Google's Tensorflow CNNs untuk Spotting Kata Kunci
- ML-KWS-FOR-MCU-Mungkin yang paling menjanjikan untuk perangkat yang dibatasi sumber daya seperti Mikrokontroler ARM CORTEX M7
- Porcupine - Mesin cross -platform ringan untuk membangun kata bangun khusus dalam hitungan detik
Stt
- Mozilla Deepspeech - Implementasi Tensorflow dari Arsitektur Deepspeech Baidu
- Kaldi
- WAV2LETTER ++-Perangkat pemrosesan pidato open source yang cepat dari tim pidato di Facebook AI Research yang dibangun untuk memfasilitasi penelitian dalam model ujung ke ujung untuk pengenalan suara.
- Zamia Speech - Alat terbuka, data, model (model Kaldi dan model WAV2LETTER ++) untuk pengenalan ucapan otomatis tanpa awan. Itu bisa dijalankan di raspberry pi
- PocketSphinx - Mesin pengenalan ucapan yang ringan menggunakan HMM + GMM
Nlu
Tts
- Mozilla TTS - Pembelajaran mendalam untuk teks ke bicara
- Mimic - Mesin TTS Mycroft, berdasarkan CMU's Flite (Festival Lite)
- ManyTTS-Sistem sintesis teks-ke-speech open-source, multibahasa yang ditulis dalam java murni
- Espeak -Ng - Synthesizer ucapan open source yang mendukung 99 bahasa dan aksen.
- Ekho-Mesin Teks-ke-Tuan Chinese
- Wavenet, Tacotron 2
Pemrosesan audio
Audio I/O.
- PortAudio, Pyaudio
- libsoundio
- Alsa
- Pulseaudio
- Pipewire