make a smart speaker скачать - make a smart speaker Source Source Code

make a smart speaker

AI Исходный код

1.0.0

Скачать

Сделать умный динамик

中文

Вот коллекция ресурсов, чтобы сделать умный динамик. ~~Надеюсь, мы сможем сделать открытый исходный код для ежедневного использования.~~ Я полагаю, что у нас достаточно ресурсов, чтобы сделать умный динамик с открытым исходным кодом. Давай сделаем это. Взгляните на прогресс проекта под названием smart speaker from scratch на Hackaday. Первый аппаратный комплект теперь доступен.

Упрощенная блок -схема умного динамика похожа на:

 +---+   +----------------+   +---+   +---+   +---+
|Mic|-->|Audio Processing|-->|KWS|-->|STT|-->|NLU|
+---+   +----------------+   +---+   +---+   +-+-+
                                               |
                                               |
+-------+   +---+   +----------------------+   |
|Speaker|<--|TTS|<--|Knowledge/Skill/Action|<--+
+-------+   +---+   +----------------------+

Обработка звука включает в себя отмену акустического эха (AEC), формирование луча, подавление шума (NS) и т. Д.
Ключевое размер слов (KWS) обнаруживает ключевое слово (например, OK Google, Hey Siri), чтобы начать разговор.
Речь к тексту (STT)
Понимание естественного языка (NLU) превращает необработанный текст в структурированные данные.
Знание/мастерство/действие - база знаний и плагины (Alexa Skill, Google Action), чтобы дать ответ.
Текст на речь

KWS + STT + NLU + Skill + TTS

Активные проекты с открытым исходным кодом

Snips-первые 100% на платформе на концерте и частном проживании.
Mycroft - взломанный голосовой помощник с открытым исходным кодом
Сепия? -Высоко настраиваемые, открытый источник, кроссплатформенный голосовой помощник и структура Vui (HTML + Java + X)
Kalliope - структура, которая поможет вам создать своего личного помощника, вроде как Mycroft (оба написаны Python)
Dingdang Robot - A ?? робот с голосовым взаимодействием на основе Jasper и построен с Raspberry Pi

SDK

Amazon Alexa Voice Service - самый широко используемый голосовой помощник
- C ++ SDK
- Java Client
- Python Client
Google Assistant SDK
Он имеет самый умный мозг, его расширение, называемое Google Action, может быть создано на нескольких шагах с DigitalFlow.ai, а его действие устройства очень подходит для домашних интеллектуальных устройств.
Baidu Dueros
Снам
- Установите Snips на Raspberry Pi 3, Linux, OSX, iOS и Android
Установка Sepia, сепия с дикобразом + respeaker

KWS

Mycroft Precise-легкий, простой в использовании, прослушивание Wake Wake
Snowboy - Hotword и Wake Word Detakekit на основе DNN
HONK - ПИТОРЧ
ML-KWS-FOR-MCU-Возможно, самое перспективное для устройств с ограниченными ресурсами, таких как Microcontroller Arm Cortex M7
Дикобраз - легкий кроссплатформенный двигатель для строительства индивидуальных слов в течение секунд

Stt

Mozilla Deeppspeech - тензорфлоу внедрение архитектуры Deepspeech Baidu
Калди
Wav2letter ++-быстрый инструментарий для обработки речи с открытым исходным кодом от речевой команды в Facebook AI Research, созданный для облегчения исследований в сквозных моделях для распознавания речи.
Речь Zamia - Открытые инструменты, данные, модели (модели Kaldi и модели Wav2letter ++) для безоблачного автоматического распознавания речи. Его можно запустить на Raspberry Pi
PocketSphinx - легкий двигатель распознавания речи с использованием HMM + GMM

НЛУ

Раса Нлу
- Rasa Nlu для китайцев
Snips NLU - библиотека Python, которая позволяет анализировать предложения, написанные на естественном языке и извлекать структурированную информацию.

ТТС

Mozilla TTS - глубокое обучение для текста в речь
Mimic - двигатель Mycroft's TTS, основанный на Flite CMU (Festival Lite)
MANTTTS-Многоязычная система синтеза текста в речь с открытым исходным кодом, написанная на Pure Java
Espeak -NG - синтезатор речи с открытым исходным кодом, который поддерживает 99 языков и акцентов.
Ekho-китайский двигатель текста в речь
Wavenet, Tacotron 2

Аудио -обработка

Акустическая отмена эха
- Speexdsp, его привязка Python speexdsp-python
- EC - Демон отмены эха на основе SPEEXDSP AEC для Raspberry PI или других устройств под управлением Linux.
Направление прибытия (DOA) - большинство используемых алгоритмов DOA - GCC -Phat
- TDOA
- ODAS - ODAS обозначает открытую систему прослушивания. Это библиотека, посвященная выполнению локализации, отслеживания, отслеживания, разделения и постфильтрации источника звука. ODAS полностью кодируется в C, для большей переносимости и оптимизирован для легковой работы на недорогих встроенных оборудовании. Одас бесплатный и открытый исходный код.
Формирование луча
- Beamformit - Формирование фильтра и суммы луча
- Формирование луча CGMM - эталонная реализация
- MVDR LEAMER
- GSC Beaming
Обнаружение голосовой активности
- Webrtc Vad, py-webrtcvad
- DNN VAD
Шумосост
- NS of Webrtc Audio обработка, Python-Webrtc-Audio-обработка