Сделать умный динамик
中文
Вот коллекция ресурсов, чтобы сделать умный динамик. Надеюсь, мы сможем сделать открытый исходный код для ежедневного использования. Я полагаю, что у нас достаточно ресурсов, чтобы сделать умный динамик с открытым исходным кодом. Давай сделаем это. Взгляните на прогресс проекта под названием smart speaker from scratch на Hackaday. Первый аппаратный комплект теперь доступен.
Упрощенная блок -схема умного динамика похожа на:
+---+ +----------------+ +---+ +---+ +---+
|Mic|-->|Audio Processing|-->|KWS|-->|STT|-->|NLU|
+---+ +----------------+ +---+ +---+ +-+-+
|
|
+-------+ +---+ +----------------------+ |
|Speaker|<--|TTS|<--|Knowledge/Skill/Action|<--+
+-------+ +---+ +----------------------+
- Обработка звука включает в себя отмену акустического эха (AEC), формирование луча, подавление шума (NS) и т. Д.
- Ключевое размер слов (KWS) обнаруживает ключевое слово (например, OK Google, Hey Siri), чтобы начать разговор.
- Речь к тексту (STT)
- Понимание естественного языка (NLU) превращает необработанный текст в структурированные данные.
- Знание/мастерство/действие - база знаний и плагины (Alexa Skill, Google Action), чтобы дать ответ.
- Текст на речь
KWS + STT + NLU + Skill + TTS
Активные проекты с открытым исходным кодом
- Snips-первые 100% на платформе на концерте и частном проживании.
- Mycroft - взломанный голосовой помощник с открытым исходным кодом
- Сепия? -Высоко настраиваемые, открытый источник, кроссплатформенный голосовой помощник и структура Vui (HTML + Java + X)
- Kalliope - структура, которая поможет вам создать своего личного помощника, вроде как Mycroft (оба написаны Python)
- Dingdang Robot - A ?? робот с голосовым взаимодействием на основе Jasper и построен с Raspberry Pi
SDK
Amazon Alexa Voice Service - самый широко используемый голосовой помощник
- C ++ SDK
- Java Client
- Python Client
Google Assistant SDK
Он имеет самый умный мозг, его расширение, называемое Google Action, может быть создано на нескольких шагах с DigitalFlow.ai, а его действие устройства очень подходит для домашних интеллектуальных устройств.
Baidu Dueros
Снам
- Установите Snips на Raspberry Pi 3, Linux, OSX, iOS и Android
Установка Sepia, сепия с дикобразом + respeaker
KWS
- Mycroft Precise-легкий, простой в использовании, прослушивание Wake Wake
- Snowboy - Hotword и Wake Word Detakekit на основе DNN
- HONK - ПИТОРЧ
- ML-KWS-FOR-MCU-Возможно, самое перспективное для устройств с ограниченными ресурсами, таких как Microcontroller Arm Cortex M7
- Дикобраз - легкий кроссплатформенный двигатель для строительства индивидуальных слов в течение секунд
Stt
- Mozilla Deeppspeech - тензорфлоу внедрение архитектуры Deepspeech Baidu
- Калди
- Wav2letter ++-быстрый инструментарий для обработки речи с открытым исходным кодом от речевой команды в Facebook AI Research, созданный для облегчения исследований в сквозных моделях для распознавания речи.
- Речь Zamia - Открытые инструменты, данные, модели (модели Kaldi и модели Wav2letter ++) для безоблачного автоматического распознавания речи. Его можно запустить на Raspberry Pi
- PocketSphinx - легкий двигатель распознавания речи с использованием HMM + GMM
НЛУ
ТТС
- Mozilla TTS - глубокое обучение для текста в речь
- Mimic - двигатель Mycroft's TTS, основанный на Flite CMU (Festival Lite)
- MANTTTS-Многоязычная система синтеза текста в речь с открытым исходным кодом, написанная на Pure Java
- Espeak -NG - синтезатор речи с открытым исходным кодом, который поддерживает 99 языков и акцентов.
- Ekho-китайский двигатель текста в речь
- Wavenet, Tacotron 2
Аудио -обработка
Аудио/вывод
- Портаудио, Пяудио
- Libsounco
- Alsa
- Pulseaudio
- Трубопровод