
查看演示•入门•请求功能•
星期六项目是人声计算的工具箱。它提供了为现代LLM构建优雅的人声接口的工具。该项目的目的是培养一个像志趣相投的人的社区,他们想提出我们在科幻电影中已承诺的技术数十年。它的目标是高度模块化和灵活,同时与特定的AI模型保持脱钩。这可以在发布新的AI技术时进行无缝升级。
星期六的项目由工具组成。工具是一种抽象,可封装人声计算堆栈的特定部分。有2个主要结构包括一个工具:
引擎- 引擎封装了工具的域特异性功能。无论使用的推理后端如何,该逻辑都应保持相同。例如,在STT工具的情况下,发动机包含语音活动检测算法以及一些自定义缓冲逻辑。这使后端可以轻松更改,而无需重写代码。
后端- 后端实际运行了AI推理。这通常是一个薄的包装器,但可以更灵活和升级。还可以将后端写入与HTTP服务器接口,以允许使用简单的语言Inter-OP。
该项目包含3种主要工具。这3个主要工具是STT,TTT和TTS。
STT工具是系统的耳朵,对传入音频进行语音到文本推断。
TTT工具是系统的大脑,一旦音频转换为文本,就可以执行文本对文本推理。
TTS工具是系统的口,对TTT工具证明的文本进行文本到语音推断。
这是主演示当前工作原理的图。

此仓库中的演示是您自己的个人,自主的贾维斯(Jarvis),就像助手一样。
免责声明:我仅在M1 Pro和Max处理器上进行了测试。我们正在做很多本地推论,因此演示需要大量的处理能力。您的里程可能非常在不同的操作系统和硬件上。如果您遇到问题,请打开一个问题。
为了运行演示,有一些先决条件。
为了运行演示,Golang,Python,Make和C Crumper需要使用。
该演示需要运行3个进程:
pkg-config和opus需要2个系统库。在MacOS上,这些可以与Brew一起安装: brew install opus pkg-configmecab和espeak需要2个系统库。在MacOS上,它们可以与Brew一起安装: brew install mecab espeak注意:目前,您启动流程的顺序很重要。在启动客户端之前,必须启动RTC服务器和TTS服务器。
从项目运行的根部make rtc
make rtc首次设置:首次运行TTS服务器时,您需要安装依赖项。考虑为此使用虚拟环境。
cd tts/servers/coqui-tts
pip install -r requirements.txt从项目运行的根部make tts
客户需要whisper.cpp cgo
从项目make client的根源
make client目前,路线图上的主要内容是获得TTT推断,可以在本地使用Llama.cpp之类的东西运行。在发布此内容时,我没有很好的互联网,也无法下载使此工作所需的模型权重。
我的路线图上的第二大项目正在继续改善设置和配置过程。
我的路线图上的最后一件事是继续在星期六建立应用程序,我希望有更多的人会和我一起建立应用程序,因为这是改进项目并发现需要添加的新功能的第一方法。
加入不和谐以保持最新状态!
该项目由以下开源软件包构建:
我非常来自完美,并且在安装过程中肯定会有错误和我所忽略的东西。请添加问题,并可以随时伸出援手,如果有什么尚不清楚的话。另外,我们有不和谐。
贡献是使开源社区成为学习,启发和创造的惊人场所的原因。您所做的任何贡献都非常感谢。
git checkout -b feature/AmazingFeaturegit commit -m 'Add some AmazingFeature'git push origin feature/AmazingFeature麻省理工学院
如果您喜欢该项目并想在财务上支持它,请随时给我买咖啡
github @grvydev·twitter @grvydev·email [email protected]