make a smart speaker 다운로드 - make a smart speaker

make a smart speaker

AI 소스 코드

1.0.0

다운로드

스마트 스피커를 만들기 위해

中文

다음은 스마트 스피커를 만들기위한 리소스 모음입니다. ~~매일 사용하기 위해 오픈 소스를 만들 수 있기를 바랍니다.~~ 오픈 소스 스마트 스피커를 만들 수있는 충분한 리소스가 있다고 생각합니다. 하자. Hackaday smart speaker from scratch 라는 프로젝트의 진행 상황을 살펴보십시오. 첫 번째 하드웨어 키트를 사용할 수 있습니다.

스마트 스피커의 단순화 된 흐름도는 다음과 같습니다.

 +---+   +----------------+   +---+   +---+   +---+
|Mic|-->|Audio Processing|-->|KWS|-->|STT|-->|NLU|
+---+   +----------------+   +---+   +---+   +-+-+
                                               |
                                               |
+-------+   +---+   +----------------------+   |
|Speaker|<--|TTS|<--|Knowledge/Skill/Action|<--+
+-------+   +---+   +----------------------+

오디오 처리에는 AEC (Acoustic Echo Cancellation), 빔 포밍, 노이즈 억제 (NS) 등이 포함됩니다.
KWS (Keyword Spotting)는 대화를 시작하기 위해 키워드 (예 : OK Google, Hey Siri)를 감지합니다.
텍스트 연설 (stt)
자연어 이해 (NLU)는 원시 텍스트를 구조화 된 데이터로 변환합니다.
지식/기술/액션 - 지식 기반 및 플러그인 (Alexa Skill, Google 액션)을위한 답변을 제공합니다.
연설에 텍스트

KWS + STT + NLU + SKILL + TTS

활성 오픈 소스 프로젝트

SNIPS- 최초의 100% OP-DEVICE 및 PRIATION-BY DESIGN Open-Source Voice AI 플랫폼
Mycroft- 해킹 가능한 오픈 소스 음성 어시스턴트
세피아? -고도로 사용자 정의 가능, 오픈 소스, 크로스 플랫폼 음성 어시스턴트 및 VUI 프레임 워크 (HTML + Java + X)
KALLIOPE- MyCroft와 유사한 자신의 개인 비서를 만드는 데 도움이되는 프레임 워크 (Python에 의해 작성됨)
Dingdang Robot -A ?? 재스퍼를 기반으로 한 음성 상호 작용 로봇 및 Raspberry Pi로 제작되었습니다.

SDK

Amazon Alexa Voice Service- 가장 널리 사용되는 음성 어시스턴트입니다.
- C ++ SDK
- 자바 클라이언트
- 파이썬 클라이언트
Google Assistant SDK
그것은 가장 현명한 두뇌를 가지고 있으며, Google 액션이라고하는 확장은 DigitalFlow.ai를 사용하여 몇 단계로 만들 수 있으며 장치 작업은 홈 스마트 장치에 매우 적합합니다.
바이두 듀에 로스
스네니
- Raspberry Pi 3, Linux, OSX, iOS 및 Android에 Snips 설치
세피아 설치, 고슴도치 + respeaker가있는 세피아

KWS

MyCroft PRECISE- 가볍고 사용하기 쉬운 RNN 웨이크 워드 리스너
Snowboy -DNN 기반 Hotword 및 Wak Word Detection Toolkit
Honk -Pytorch Keyword Spotting을위한 Google의 Tensorflow CNNS의 재 구현
ML-KWS-MCU- 아마도 ARM Cortex M7 Microcontroller와 같은 자원 제약 장치에 대한 가장 약속 일 수 있습니다.
PORCUPINE- 몇 초 만에 사용자 정의 웨이크 단어를 구축하기위한 가벼운 크로스 플랫폼 엔진

stt

Mozilla DeepSpeech -Baidu의 DeepSpeech 아키텍처의 텐서 플로 구현
칼디
WAV2LETTER ++-Facebook AI Research의 Speech Team의 빠른 오픈 소스 음성 처리 툴킷.
Zamia Speech- 클라우드가없는 자동 음성 인식을위한 열린 도구, 데이터, 모델 (Kaldi 모델 및 Wav2letter ++ 모델). Raspberry Pi에서 실행할 수 있습니다
Pocketsphinx- hmm + gmm을 사용한 가벼운 음성 인식 엔진

NLU

라사 NLU
- 중국어를위한 라사 NLU
Snips NLU- 자연 언어로 작성된 문장을 구문 분석하고 구조화 된 정보를 추출 할 수있는 파이썬 라이브러리.

TTS

Mozilla tts- 텍스트에 대한 딥 러닝
MIMIC -CMU의 FLITE (Festival Lite)를 기반으로 한 MyCroft의 TTS 엔진
Manytts- 순수한 자바로 작성된 오픈 소스, 다국어 텍스트 음성 연사 합성 시스템
ESPEAK -NG- 99 개 언어와 악센트를 지원하는 오픈 소스 음성 합성기.
Ekho- 중국어 텍스트 음성 연설 엔진
Wavenet, 타코트론 2

오디오 처리

음향 에코 취소
- speexDSP, 파이썬 바인딩 speexDSP-python
- EC -Raspberry Pi 또는 Linux를 실행하는 다른 장치를위한 SpeexDSP AEC를 기반으로 한 Echo Cancelation 데몬.
도착 방향 (DOA) - 가장 많이 사용되는 DOA 알고리즘은 GCC -Phat입니다.
- tdoa
- ODAS -ODAS는 공개 임베디드 오디션 시스템을 나타냅니다. 사운드 소스 현지화, 추적, 분리 및 필터링을 수행하기위한 도서관입니다. ODA는 더 많은 휴대 성을 위해 C로 완전히 코딩되며 저비용 임베디드 하드웨어에서 쉽게 실행하도록 최적화됩니다. Odas는 무료이며 오픈 소스입니다.
빔 포밍
- Beamformit -Filter & Sum Beamforming
- CGMM BEAMFORMING- 참조 구현
- MVDR BEAMFORMING
- GSC 빔 포밍
음성 활동 감지
- webrtc vad, py-webrtcvad
- DNN VAD
소음 공급
- WEBRTC 오디오 프로세싱의 NS, Python-Webrtc-Audio-Processing