3D声音国际象棋
使用有限的词汇模型使用Coqui STT学习和教学语音AI的多语音驱动的3D国际象棋游戏。
请注意:此存储库还没有准备好生产。截至2022年4月1日,它在Alpha和Beta版本之间。
当前功能:
- 单用户服务器用于文本STT推理(nodejs)的语音服务(即它在单个核心免费节点上工作 - 但我们支持服务器池)
- 3D前端(仅具有某些按钮和输出区域的多语言界面)
- 目前支持的语言:de(德语),EN(英语),TR(土耳其语)
- 你与自己对抗:)

我们已经打开了一个由服务器池支持的测试站点,用于我们的测试。
内容摘要
- 声学模型创造:示例笔记本模型(TODO)
- 语言模型创作:所有用于创建域特定语言模型的文件
- 语音总结反应:前端 - react&three.js实施
- 语音总容 - 服务器:服务器 - 简单的单个连接nodejs实现
如何安装
托多
如何贡献
- 用您的语言创建新的声学和语言模型
- 如果需要
- 翻译资源文件(Messages.json)
- 测试;想法,问题的反馈;提交和公关
如何添加我的语言?
- 获取有关您语言的国际象棋术语的信息(如果您还不知道 - Wikipedia和YouTube会有所帮助)。
- 在国际象棋句子发生器中检查现有的句子/编程。
- 复制适当的句子生成器,将其重命名为您的语言代码,然后翻译/适应。
- 查找兼容的Coqui STT声学模型(.tflite文件)或从Mozilla Common Voice数据集中训练一个模型。
- 翻译资源文件(Messages.json)
- 测试您在本地分叉的服务器/客户端上测试结果,并在需要时改进模型。
- 提出拉动请求(PR)以添加您的声学模型(.tflite),语言模型(.scorer)到Voice-Chess-Server/voice DIR,添加生成的JSON语言文件和翻译的消息。
如果您不能做些,请打开一个问题,以便我们可以提供帮助。
其他信息
当前的声学和语言模型
详细信息可以在此处找到。
使用的开源项目
- 语音:Coqui Stt,Coqui示例,Kenlm,Mozilla Common语音数据集。
- 3D UI:三。js&React三纤维(带Drei和Zustand)
- 国际象棋:国际象棋数据和控件(无AI或GUI)。
客户端和服务器语音相关的代码是从COQUI示例Web_microphone_websocket改编的。
历史信息
该项目的第一个版本是在3月8日至15日之间在2022年Mozilla Festival的Coqui.ai的“ hack the Planet” Hackathon中创建的。
主要想法是在一周内实施启用演讲的应用程序。一群人投票赞成实施语音控制的游戏(TIC-TAC-TOE),但这个想法成为了多种语音驱动的3D国际象棋。组成了一个团队,实施国际象棋申请成为目标。团队成员是Bö,JF,KM,MK。
这是一开始的两部分申请:
- 服务器部件是一个node.js应用程序,它可以执行实际的stt
- 客户端是一个react.js应用程序,它记录句子并通过socket.io传达到服务器进行转录,验证它,用三个。JS在浏览器上显示,并在Chess.js的帮助下。
由于时间范围有限和个人时间限制,该小组保持期望也有限。
- UI部分保持最低,但起作用。例如,没有手动播放,增强的UI功能等。
- 选择了一种语言样本,但可以通过其他语言进行扩展。
- 国际象棋有许多指挥格式。为了简化整个工作流程,用户被迫在此版本中使用单一格式:
"Move <piece> from <fromCell> to <targetCell>".
这里的“零件”是国际象棋名称,例如King,Bishop等,“ Cell”是董事会坐标Col Row(列:AZ,行:1-8)。
- 经过几次英语和土耳其语试验后,我们发现对单个字母字符的认可不够强大(几乎不可能),因此我们使用了北约字母:Alpha,Bravo,... Hotel。除北约命名外,其他措辞被翻译成各自的语言。
- 包括对以下语言的支持: - 德语,英语,法语,印地语,俄罗斯,土耳其语
在项目持续时间结束时,已经为英语和土耳其语提供了一个半工程软件。
您可以在此处观看初始项目演示视频。
而且,正如演讲结束时所承诺的那样,我们继续在这里开发并将其开源。