스마트 스피커를 만들기 위해
中文
다음은 스마트 스피커를 만들기위한 리소스 모음입니다. 매일 사용하기 위해 오픈 소스를 만들 수 있기를 바랍니다. 오픈 소스 스마트 스피커를 만들 수있는 충분한 리소스가 있다고 생각합니다. 하자. Hackaday smart speaker from scratch 라는 프로젝트의 진행 상황을 살펴보십시오. 첫 번째 하드웨어 키트를 사용할 수 있습니다.
스마트 스피커의 단순화 된 흐름도는 다음과 같습니다.
+---+ +----------------+ +---+ +---+ +---+
|Mic|-->|Audio Processing|-->|KWS|-->|STT|-->|NLU|
+---+ +----------------+ +---+ +---+ +-+-+
|
|
+-------+ +---+ +----------------------+ |
|Speaker|<--|TTS|<--|Knowledge/Skill/Action|<--+
+-------+ +---+ +----------------------+
- 오디오 처리에는 AEC (Acoustic Echo Cancellation), 빔 포밍, 노이즈 억제 (NS) 등이 포함됩니다.
- KWS (Keyword Spotting)는 대화를 시작하기 위해 키워드 (예 : OK Google, Hey Siri)를 감지합니다.
- 텍스트 연설 (stt)
- 자연어 이해 (NLU)는 원시 텍스트를 구조화 된 데이터로 변환합니다.
- 지식/기술/액션 - 지식 기반 및 플러그인 (Alexa Skill, Google 액션)을위한 답변을 제공합니다.
- 연설에 텍스트
KWS + STT + NLU + SKILL + TTS
활성 오픈 소스 프로젝트
- SNIPS- 최초의 100% OP-DEVICE 및 PRIATION-BY DESIGN Open-Source Voice AI 플랫폼
- Mycroft- 해킹 가능한 오픈 소스 음성 어시스턴트
- 세피아? -고도로 사용자 정의 가능, 오픈 소스, 크로스 플랫폼 음성 어시스턴트 및 VUI 프레임 워크 (HTML + Java + X)
- KALLIOPE- MyCroft와 유사한 자신의 개인 비서를 만드는 데 도움이되는 프레임 워크 (Python에 의해 작성됨)
- Dingdang Robot -A ?? 재스퍼를 기반으로 한 음성 상호 작용 로봇 및 Raspberry Pi로 제작되었습니다.
SDK
Amazon Alexa Voice Service- 가장 널리 사용되는 음성 어시스턴트입니다.
- C ++ SDK
- 자바 클라이언트
- 파이썬 클라이언트
Google Assistant SDK
그것은 가장 현명한 두뇌를 가지고 있으며, Google 액션이라고하는 확장은 DigitalFlow.ai를 사용하여 몇 단계로 만들 수 있으며 장치 작업은 홈 스마트 장치에 매우 적합합니다.
바이두 듀에 로스
스네니
- Raspberry Pi 3, Linux, OSX, iOS 및 Android에 Snips 설치
세피아 설치, 고슴도치 + respeaker가있는 세피아
KWS
- MyCroft PRECISE- 가볍고 사용하기 쉬운 RNN 웨이크 워드 리스너
- Snowboy -DNN 기반 Hotword 및 Wak Word Detection Toolkit
- Honk -Pytorch Keyword Spotting을위한 Google의 Tensorflow CNNS의 재 구현
- ML-KWS-MCU- 아마도 ARM Cortex M7 Microcontroller와 같은 자원 제약 장치에 대한 가장 약속 일 수 있습니다.
- PORCUPINE- 몇 초 만에 사용자 정의 웨이크 단어를 구축하기위한 가벼운 크로스 플랫폼 엔진
stt
- Mozilla DeepSpeech -Baidu의 DeepSpeech 아키텍처의 텐서 플로 구현
- 칼디
- WAV2LETTER ++-Facebook AI Research의 Speech Team의 빠른 오픈 소스 음성 처리 툴킷.
- Zamia Speech- 클라우드가없는 자동 음성 인식을위한 열린 도구, 데이터, 모델 (Kaldi 모델 및 Wav2letter ++ 모델). Raspberry Pi에서 실행할 수 있습니다
- Pocketsphinx- hmm + gmm을 사용한 가벼운 음성 인식 엔진
NLU
TTS
- Mozilla tts- 텍스트에 대한 딥 러닝
- MIMIC -CMU의 FLITE (Festival Lite)를 기반으로 한 MyCroft의 TTS 엔진
- Manytts- 순수한 자바로 작성된 오픈 소스, 다국어 텍스트 음성 연사 합성 시스템
- ESPEAK -NG- 99 개 언어와 악센트를 지원하는 오픈 소스 음성 합성기.
- Ekho- 중국어 텍스트 음성 연설 엔진
- Wavenet, 타코트론 2
오디오 처리
오디오 I/O
- Portaudio, Pyaudio
- libsoundio
- 알사
- Pulseaudio
- 파이프 워리