SimplesPeechLoop : 두 개의 모질라 프로젝트를 사용하는 음성 인식 및 텍스트 음성 연설을 연결하는 매우 기본적인 데모 :
심해
TTS
현지에서 실행되는 음성 인식으로 말하는 것을 듣고 텍스트-토회를 사용하여 몇 가지 (제한된) 응답을 제공하는 봇입니다.
https://www.youtube.com/watch?v=cdu6oz1bnoy를 참조하십시오
경고 : DeepSpeech ( v0.7.0 ) 및 TTS를 모두 설치 해야하는데,이를 설정하려면 일정량의 기술이 필요할 수 있습니다 (각 프로젝트의 DEVS의 노력 덕분에 더 쉬워지고 있지만).
어느 쪽을 설정하는지에 대한 문제가 발생하면 가장 좋은 방법은 설치 지침을 신중하게 읽어 놓아 두지 않도록하는 것입니다. 그리고 명백한 잠재적 문제를 배제했다고 확신한다면 관련 낙담 포럼에서이를 제기하는 것입니다 (당신 이 한 일에 대한 명확한 세부 사항을 제공하십시오.
심해 담론
TTS 담론
5 가지 기본 조치가 있습니다.
Echoing : 이것은 기본값입니다. 음성 인식이 당신이 말하는 것을 들었다고 생각하는 모든 것에 반향을 일으킬 것입니다.
"___에 대해 말해줘": "말해줘"이후에 오는 단어에 대한 위키 백과 문서를 찾아 요약을 다시 읽을 것이다. 좋은 예는 요소와 같은 것들입니다. 예를 들어 "Iron에 대한 말을 말하십시오"는이 페이지에서 파생 된 요약을 반환합니다 : https://en.wikipedia.org/wiki/iron
"로봇 노이즈 만들기": 파일 robot_noise.wav 파일을 재생할 것입니다 ( 이것은 지금까지 내 말 모델에서는 적어도 지금까지 내 연설 모델로 자주 멍청 할 수 있습니다! ) [현재 댓글을 달았습니다].
"일시 중지": 20 초 동안 듣는 일시 중지됩니다 (따라서 끊임없는 반향을 멈 춥니 다 !!)
"정지": 앱이 실행을 중지하게됩니다
코드를 살펴보면 더 추가 할 수 있어야합니다. 더 복잡한 것은 이런 종류의 간단한 루프를 넘어서 더 정교한 접근을 원할 것입니다.
버전이 진행됨에 따라 지원 프로젝트의 API에 변경 사항이있는 경우 여기에서 계속 작동하도록 코드를 조정해야 할 수도 있습니다. DeepSpeech의 버전 0.51에서 작동해야합니다. TTS가 볼트로 고정 된 DeepSpeech 예제 Repo의 VAD 데모의 적응 된 버전과 몇 가지 간단한 트릭이 적응하여 몇 가지 간단한 트릭입니다.
그것은 작은 방식으로 도움이되기를 희망하면서 "그대로" 공유됩니까?
Mac / Windows에 적응하려고하면 Linux에서만 테스트했습니다.
오디오 설정 : 스피커 나 헤드폰에 연결된 마이크와 오디오를 연결했는지 확인하십시오!
DeepSpeech와 TTS를 모두 설치하십시오 - 해당 프로젝트를 직접 참조하는 것이 가장 좋습니다. 각각의 가상 환경에서 수행하는 것이 좋습니다 (Demo.py는 DeepSpeech One에서 실행되며 TTS 서버는 TTS 1에서 실행됩니다). Demo.py의 요구 사항 (DeepSpeech 환경에서)을 설치해야합니다. 메모리에서 요청, Colorful 및 Pyaudio 입니다 (그러나 파일을 확인하십시오). DeepSpeech는 v0.7.0을 해제해야합니다.
TTS 서버 시작 - 일반적으로 로컬로 실행할 수도 있습니다. Demo.py의 엔드 포인트가 일치하도록 업데이트되었는지 확인하십시오 (현재 http://0.0.0.0:5002/api/tts로 설정).
실행 Demo.py -Python Demo.py -d 7 -m ../models/your_model_folder/
매개 변수는 DeepSpeech 예제 Repo의 VAD 데모와 동일합니다.
-D 는 마이크의 채널입니다 ( show_alsa_channels.py 로 ALSA 채널을 확인할 수 있습니다).
-M은 사용하려는 DeepSpeech 모델의 디렉토리의 위치입니다 (예 : 훈련 / 미세 조정 또는 미리 훈련 된 것)