make a smart speaker herunterladen - make a smart speaker -Quellcode herunterladen

make a smart speaker

AI-Quellcode

1.0.0

Herunterladen

Einen klugen Lautsprecher machen

中文

Hier ist eine Sammlung von Ressourcen, um einen intelligenten Sprecher zu erstellen. ~~Ich hoffe, wir können eine Open -Source -Verwendung für den täglichen Gebrauch machen.~~ Ich glaube, wir haben genug Ressourcen, um einen Open -Source -Smart -Lautsprecher zu erstellen. Lass es uns tun. Schauen Sie sich den Fortschritt des Projekts namens smart speaker from scratch auf Hackaday an. Das erste Hardware -Kit ist ab sofort verfügbar.

Das vereinfachte Flussdiagramm eines intelligenten Lautsprechers ist wie:

 +---+   +----------------+   +---+   +---+   +---+
|Mic|-->|Audio Processing|-->|KWS|-->|STT|-->|NLU|
+---+   +----------------+   +---+   +---+   +-+-+
                                               |
                                               |
+-------+   +---+   +----------------------+   |
|Speaker|<--|TTS|<--|Knowledge/Skill/Action|<--+
+-------+   +---+   +----------------------+

Die Audioverarbeitung umfasst akustische Echo -Stornierung (AEC), Beamforming, Rauschunterdrückung (NS) usw.
Keyword Spoting (KWS) erkennt ein Keyword (z. B. OK Google, Hey Siri), um ein Gespräch zu beginnen.
Sprache zum Text (STT)
Das natürliche Sprachverständnis (NLU) wandelt Rohtext in strukturierte Daten um.
Wissen/Fähigkeiten/Aktion - Wissensbasis und Plugins (Alexa Skill, Google Action), um eine Antwort zu geben.
Text zur Sprache

KWS + STT + NLU + Fertigkeit + TTs

Aktive Open Source -Projekte

Snips-die erste 100% -Verblätter- und private By-Design Open-Source Voice AI-Plattform
Mycroft - ein hackbarer Open -Source -Sprachassistent
Sepia? .
Kalliope - Ein Rahmen, der Ihnen hilft, Ihren persönlichen Assistenten zu erstellen, ähnlich wie Mycroft (beide von Python geschrieben)
Dingdang Roboter - a ?? Voice Interaction Roboter basierend auf Jasper und gebaut mit Raspberry Pi

SDK

Amazon Alexa Voice Service - ist der am häufigsten verwendete Sprachassistent
- C ++ SDK
- Java -Kunde
- Python -Kunde
Google Assistant SDK
Es verfügt über das intelligenteste Gehirn, seine Erweiterung namens Google Action kann in einigen Schritten mit digitalFlow.ai erstellt werden, und seine Geräteaktion eignet sich sehr gut für intelligente Hausgeräte.
Baidu Dueros
Schnitt
- Installieren Sie Snips auf Raspberry Pi 3, Linux, OSX, iOS und Android
SEPIA -Installation, Sepia mit Stachelschwein + Researcher

KWS

Mycroft Precise-Ein leichtes, einfach zu bedienendes, rnn Wake Word-Hörer
Snowboy - DNN -basiertes Hotword- und Wake Word -Erkennungs -Toolkit
Hupen - Pytorch -Neuauflagen von Googles TensorFlow CNNs für Keyword -Spoting
ML-KWS-FOR-MCU-Möglicherweise das Versprechen für Geräte mit Ressourcenbeschränkungen wie ARM CORTEX M7 Mikrocontroller
Stachelschwein - Leichte plattformübergreifende Motor, um benutzerdefinierte Weckwörter in Sekunden zu bauen

Stt

Mozilla Deepspeech - Eine Tensorflow -Implementierung der Deepspeech -Architektur von Baidus
Kaldi
WAV2Letter ++-Ein schnelles Open-Source-Sprachverarbeitungs-Toolkit des Sprachteams bei Facebook AI Research, das zur Erleichterung der Forschung in End-to-End-Modellen für die Spracherkennung erstellt wurde.
ZAMIA Speech - Open Tools, Daten, Modelle (Kaldi -Modelle und WAV2Letter ++ -Modelle) für die automatische Spracherkennung von Cloudless. Es kann auf Raspberry Pi laufen
Taschensphinx - Eine leichte Spracherkennungsmotor mit HMM + GMM

NLU

Rasa Nlu
- Rasa Nlu für Chinesisch
Snips NLU - Eine Python -Bibliothek, mit der Sätze in natürlicher Sprache analysiert werden können und strukturierte Informationen extrahiert.

TTS

Mozilla TTS - Deep Learning für Text zur Sprache
Mimic - Mycrofts TTS -Engine, basierend auf CMUs Flite (Festival Lite)
ManyTTS-Ein Open-Source-Synthesesystem mit mehrsprachiger Text-zu-Sprache in reinem Java
ESPEAK -NG - Ein Open -Source -Sprachsynthesizer, der 99 Sprachen und Akzente unterstützt.
Ekho-chinesischer Text-zu-Sprache-Motor
Wavenet, Tacotron 2

Audioverarbeitung

Akustische Echo -Stornierung
- Spexdsp, seine Python-Bindung spexdsp-python
- EC - Echo -Stornierungs -Daemon basierend auf SpexdSP AEC für Raspberry Pi oder andere Geräte, die Linux ausgeführt werden.
Ankunftsrichtung (DOA) - Die meisten verwendeten DOA -Algorithmen sind GCC -Phat
- tdoa
- ODAS - ODAS steht für Open Embedded Audition System. Dies ist eine Bibliothek, die sich der Lokalisierung, Verfolgung, Trennung und der Nachfolterung von Soundquelle ausführen soll. ODAS ist vollständig in C codiert, um mehr Portabilität zu erhalten, und ist so optimiert, dass sie auf kostengünstigen eingebetteten Hardware problemlos ausgeführt werden. ODAS ist frei und Open Source.
Strahlforming
- BeamFormit - Filter und Summenstrahlforming
- CGMM Beamforming - eine Referenzimplementierung
- MVDR -Strahlforming
- GSC Beamforming
Sprachaktivitätserkennung
- Webtc vad, py-webrtcvad
- Dnn vad
Rauschunterdrückung
- NS der Webio-Audioverarbeitung, Python-Webrtc-Audio-Verarbeitung