SimpleSpeechloop:使用两个Mozilla项目,将语音识别和文本到语音的非常基本的演示:
深史
TTS
这是一个机器人,可以通过本地运行的语音识别来聆听您所说的话,然后使用文本到语音进行一些(有限的)响应
在此处查看演示视频:https://www.youtube.com/watch?v=cdu6oz1bnoy
警告:确实要求您同时使用DeepSpeech( v0.7.0 )和TTS的工作装置,这可能需要一定数量的技能来设置(尽管由于各自项目的开发人员的努力,这变得越来越容易,更容易。
如果您遇到问题遇到问题,最好的方法是仔细阅读安装说明,以确保您没有错过任何东西,并且如果您有信心排除了明显的潜在问题,然后将其提高到相关的劝告论坛上(给出了您所做的清晰详细信息 -请记住,如果您在此部分含糊不清,则其他人将无法为您提供帮助。
深语言话语
TTS话语
有五个基本动作:
回声:这是默认值 - 无论演讲识别认为您所说的话,它都会回应回声
“告诉我___”:它将查找一个Wikipedia文档,其中包括“告诉我”之后的单词并回复摘要。一个很好的例子是诸如元素之类的东西,例如“告诉我有关铁”返回此页面的摘要:https://en.wikipedia.org/wiki/iron
“制作机器人噪音”:它将播放file robot_noise.wav (至少到目前为止我的演讲模型可能经常出现杂物! )[目前已评论]
“暂停”:它将暂停聆听20秒(因此它阻止了不断的回声!!)
“停止”:这将导致应用程序停止运行
通过查看代码,您应该能够添加更多。对于更复杂的任何事情,您还希望除了这种简单的循环外更复杂的方法。
请注意,如果随着其版本的进度,任何一个支持项目的API都存在更改,则您可能需要在此处对代码进行调整以使其保持正常工作。它应该与DeepSpeech版本0.51一起使用。它实际上是来自DeepSpeech示例回购的VAD演示的适应性版本,带有TTS螺栓固定,还有一些简单的技巧,可以让它回头说些什么。
它可以“按照”共享,希望它以某种方式有所帮助吗?
我只在Linux上测试了它 - 如果您尝试将其适应Mac / Windows,则最幸运!
音频设置:确保您有一个工作的麦克风和音频插入扬声器或耳机!
同时安装DeepSpeech和TTS - 最好直接参考这些项目。建议您在每个的虚拟环境中进行此操作(Demo.py是从DeepSpeech One运行的,并且TTS服务器由TTS运行)。您也需要安装Demo.py的要求(在深层环境中) - 从内存中,这些是请求,彩色和pyaudio (但是请检查文件以确保)。 DeepSpeech应发布v0.7.0。
启动TTS服务器- 通常,您不妨在本地运行。只需确保更新demo.py中的终点以匹配(当前设置为http://0.0.0.0.0:5002/api/tts)
运行demo.py -python demo.py -d 7 -m ../models/your_model_folder/
这些参数与DeepSpeech示例回购中的VAD演示相同。
-d是麦克风的频道(您可以使用show_alsa_channels.py检查ALSA频道)
-m是您计划使用的DeepSpeech模型目录的位置(例如,您已经训练 /微调或预培训的一个)位置