
查看演示•入門•請求功能•
星期六項目是人聲計算的工具箱。它提供了為現代LLM構建優雅的人聲接口的工具。該項目的目的是培養一個像志趣相投的人的社區,他們想提出我們在科幻電影中已承諾的技術數十年。它的目標是高度模塊化和靈活,同時與特定的AI模型保持脫鉤。這可以在發布新的AI技術時進行無縫升級。
星期六的項目由工具組成。工具是一種抽象,可封裝人聲計算堆棧的特定部分。有2個主要結構包括一個工具:
引擎- 引擎封裝了工具的域特異性功能。無論使用的推理後端如何,該邏輯都應保持相同。例如,在STT工具的情況下,發動機包含語音活動檢測算法以及一些自定義緩衝邏輯。這使後端可以輕鬆更改,而無需重寫代碼。
後端- 後端實際運行了AI推理。這通常是一個薄的包裝器,但可以更靈活和升級。還可以將後端寫入與HTTP服務器接口,以允許使用簡單的語言Inter-OP。
該項目包含3種主要工具。這3個主要工具是STT,TTT和TTS。
STT工具是系統的耳朵,對傳入音頻進行語音到文本推斷。
TTT工具是系統的大腦,一旦音頻轉換為文本,就可以執行文本對文本推理。
TTS工具是系統的口,對TTT工具證明的文本進行文本到語音推斷。
這是主演示當前工作原理的圖。

此倉庫中的演示是您自己的個人,自主的賈維斯(Jarvis),就像助手一樣。
免責聲明:我僅在M1 Pro和Max處理器上進行了測試。我們正在做很多本地推論,因此演示需要大量的處理能力。您的里程可能非常在不同的操作系統和硬件上。如果您遇到問題,請打開一個問題。
為了運行演示,有一些先決條件。
為了運行演示,Golang,Python,Make和C Crumper需要使用。
該演示需要運行3個進程:
pkg-config和opus需要2個系統庫。在MacOS上,這些可以與Brew一起安裝: brew install opus pkg-configmecab和espeak需要2個系統庫。在MacOS上,它們可以與Brew一起安裝: brew install mecab espeak注意:目前,您啟動流程的順序很重要。在啟動客戶端之前,必須啟動RTC服務器和TTS服務器。
從項目運行的根部make rtc
make rtc首次設置:首次運行TTS服務器時,您需要安裝依賴項。考慮為此使用虛擬環境。
cd tts/servers/coqui-tts
pip install -r requirements.txt從項目運行的根部make tts
客戶需要whisper.cpp cgo
從項目make client的根源
make client目前,路線圖上的主要內容是獲得TTT推斷,可以在本地使用Llama.cpp之類的東西運行。在發布此內容時,我沒有很好的互聯網,也無法下載使此工作所需的模型權重。
我的路線圖上的第二大項目正在繼續改善設置和配置過程。
我的路線圖上的最後一件事是繼續在星期六建立應用程序,我希望有更多的人會和我一起建立應用程序,因為這是改進項目並發現需要添加的新功能的第一方法。
加入不和諧以保持最新狀態!
該項目由以下開源軟件包構建:
我非常來自完美,並且在安裝過程中肯定會有錯誤和我所忽略的東西。請添加問題,並可以隨時伸出援手,如果有什麼尚不清楚的話。另外,我們有不和諧。
貢獻是使開源社區成為學習,啟發和創造的驚人場所的原因。您所做的任何貢獻都非常感謝。
git checkout -b feature/AmazingFeaturegit commit -m 'Add some AmazingFeature'git push origin feature/AmazingFeature麻省理工學院
如果您喜歡該項目並想在財務上支持它,請隨時給我買咖啡
github @grvydev·twitter @grvydev·email [email protected]