Einen klugen Lautsprecher machen
中文
Hier ist eine Sammlung von Ressourcen, um einen intelligenten Sprecher zu erstellen. Ich hoffe, wir können eine Open -Source -Verwendung für den täglichen Gebrauch machen. Ich glaube, wir haben genug Ressourcen, um einen Open -Source -Smart -Lautsprecher zu erstellen. Lass es uns tun. Schauen Sie sich den Fortschritt des Projekts namens smart speaker from scratch auf Hackaday an. Das erste Hardware -Kit ist ab sofort verfügbar.
Das vereinfachte Flussdiagramm eines intelligenten Lautsprechers ist wie:
+---+ +----------------+ +---+ +---+ +---+
|Mic|-->|Audio Processing|-->|KWS|-->|STT|-->|NLU|
+---+ +----------------+ +---+ +---+ +-+-+
|
|
+-------+ +---+ +----------------------+ |
|Speaker|<--|TTS|<--|Knowledge/Skill/Action|<--+
+-------+ +---+ +----------------------+
- Die Audioverarbeitung umfasst akustische Echo -Stornierung (AEC), Beamforming, Rauschunterdrückung (NS) usw.
- Keyword Spoting (KWS) erkennt ein Keyword (z. B. OK Google, Hey Siri), um ein Gespräch zu beginnen.
- Sprache zum Text (STT)
- Das natürliche Sprachverständnis (NLU) wandelt Rohtext in strukturierte Daten um.
- Wissen/Fähigkeiten/Aktion - Wissensbasis und Plugins (Alexa Skill, Google Action), um eine Antwort zu geben.
- Text zur Sprache
KWS + STT + NLU + Fertigkeit + TTs
Aktive Open Source -Projekte
- Snips-die erste 100% -Verblätter- und private By-Design Open-Source Voice AI-Plattform
- Mycroft - ein hackbarer Open -Source -Sprachassistent
- Sepia? .
- Kalliope - Ein Rahmen, der Ihnen hilft, Ihren persönlichen Assistenten zu erstellen, ähnlich wie Mycroft (beide von Python geschrieben)
- Dingdang Roboter - a ?? Voice Interaction Roboter basierend auf Jasper und gebaut mit Raspberry Pi
SDK
Amazon Alexa Voice Service - ist der am häufigsten verwendete Sprachassistent
- C ++ SDK
- Java -Kunde
- Python -Kunde
Google Assistant SDK
Es verfügt über das intelligenteste Gehirn, seine Erweiterung namens Google Action kann in einigen Schritten mit digitalFlow.ai erstellt werden, und seine Geräteaktion eignet sich sehr gut für intelligente Hausgeräte.
Baidu Dueros
Schnitt
- Installieren Sie Snips auf Raspberry Pi 3, Linux, OSX, iOS und Android
SEPIA -Installation, Sepia mit Stachelschwein + Researcher
KWS
- Mycroft Precise-Ein leichtes, einfach zu bedienendes, rnn Wake Word-Hörer
- Snowboy - DNN -basiertes Hotword- und Wake Word -Erkennungs -Toolkit
- Hupen - Pytorch -Neuauflagen von Googles TensorFlow CNNs für Keyword -Spoting
- ML-KWS-FOR-MCU-Möglicherweise das Versprechen für Geräte mit Ressourcenbeschränkungen wie ARM CORTEX M7 Mikrocontroller
- Stachelschwein - Leichte plattformübergreifende Motor, um benutzerdefinierte Weckwörter in Sekunden zu bauen
Stt
- Mozilla Deepspeech - Eine Tensorflow -Implementierung der Deepspeech -Architektur von Baidus
- Kaldi
- WAV2Letter ++-Ein schnelles Open-Source-Sprachverarbeitungs-Toolkit des Sprachteams bei Facebook AI Research, das zur Erleichterung der Forschung in End-to-End-Modellen für die Spracherkennung erstellt wurde.
- ZAMIA Speech - Open Tools, Daten, Modelle (Kaldi -Modelle und WAV2Letter ++ -Modelle) für die automatische Spracherkennung von Cloudless. Es kann auf Raspberry Pi laufen
- Taschensphinx - Eine leichte Spracherkennungsmotor mit HMM + GMM
NLU
TTS
- Mozilla TTS - Deep Learning für Text zur Sprache
- Mimic - Mycrofts TTS -Engine, basierend auf CMUs Flite (Festival Lite)
- ManyTTS-Ein Open-Source-Synthesesystem mit mehrsprachiger Text-zu-Sprache in reinem Java
- ESPEAK -NG - Ein Open -Source -Sprachsynthesizer, der 99 Sprachen und Akzente unterstützt.
- Ekho-chinesischer Text-zu-Sprache-Motor
- Wavenet, Tacotron 2
Audioverarbeitung
Akustische Echo -Stornierung
- Spexdsp, seine Python-Bindung spexdsp-python
- EC - Echo -Stornierungs -Daemon basierend auf SpexdSP AEC für Raspberry Pi oder andere Geräte, die Linux ausgeführt werden.
Ankunftsrichtung (DOA) - Die meisten verwendeten DOA -Algorithmen sind GCC -Phat
- tdoa
- ODAS - ODAS steht für Open Embedded Audition System. Dies ist eine Bibliothek, die sich der Lokalisierung, Verfolgung, Trennung und der Nachfolterung von Soundquelle ausführen soll. ODAS ist vollständig in C codiert, um mehr Portabilität zu erhalten, und ist so optimiert, dass sie auf kostengünstigen eingebetteten Hardware problemlos ausgeführt werden. ODAS ist frei und Open Source.
Strahlforming
- BeamFormit - Filter und Summenstrahlforming
- CGMM Beamforming - eine Referenzimplementierung
- MVDR -Strahlforming
- GSC Beamforming
Sprachaktivitätserkennung
- Webtc vad, py-webrtcvad
- Dnn vad
Rauschunterdrückung
- NS der Webio-Audioverarbeitung, Python-Webrtc-Audio-Verarbeitung
Audio I/O
- Portaudio, Pyaudio
- libsoundio
- Alsa
- Pulsaudio
- Pipewire