
Demo anzeigen • Erste Schritte • Features anfordern •
Project Saturday ist eine Toolbox für Vocal Computing. Es bietet Werkzeuge zum Aufbau eleganter Vokalschnittstellen für moderne LLMs. Das Ziel dieses Projekts ist es, eine Gemeinschaft gleichgesinnter Personen zu fördern, die die Technologie hervorbringen wollen, die uns seit Jahrzehnten in Science-Fiction-Filmen versprochen wird. Ziel ist es, sehr modular und flexibel zu sein und gleichzeitig von bestimmten KI -Modellen entkoppelt zu bleiben. Dies ermöglicht nahtlose Upgrades, wenn eine neue KI -Technologie veröffentlicht wird.
Das Projekt Samstag besteht aus Werkzeugen. Ein Tool ist eine Abstraktion, die einen bestimmten Teil des Stapels des Vocal Computing zusammenfasst. Es gibt 2 Hauptkonstrukte, die ein Werkzeug umfassen:
Engine - Ein Motor verkauft die domänenspezifische Funktionalität eines Tools. Diese Logik sollte unabhängig vom verwendeten Inferenz -Backend gleich bleiben. Beispielsweise enthält der Motor im Fall des STT -Tools den Algorithmus zur Erkennung der Sprachaktivität zusammen mit einer benutzerdefinierten Pufferlogik. Auf diese Weise kann das Backend leicht geändert werden, ohne den Code neu zu schreiben.
Backend - Ein Backend ist das, was die KI -Inferenz tatsächlich ausführt. Dies ist normalerweise ein dünner Verpackung, ermöglicht jedoch mehr Flexibilität und einfache Upgrade. Ein Backend kann auch an die Schnittstelle mit einem HTTP-Server geschrieben werden, um eine einfache Sprache zu ermöglichen.
Dieses Projekt enthält 3 Hauptarten von Werkzeugen. Die 3 Hauptwerkzeuge sind STT, TTT und TTS.
STT-Tools sind die Ohren des Systems und führen Sprach-zu-Text-Inferenz für eingehende Audio durch.
TTT-Tools sind das Gehirn des Systems und führen eine Inferenz für Text zu Text aus, sobald das Audio in Text umgewandelt wurde.
TTS-Tools sind der Mund des Systems und führen eine Inferenz von Text zu Sprache im Text aus, das vom TTT-Tool beweist.
Hier ist ein Diagramm, wie die Hauptdemo derzeit funktioniert.

Die Demo, die in diesem Repo kommt, ist Ihr persönlicher, selbst gehosteter Jarvis-Assistent.
Haftungsausschluss : Ich habe dies nur auf M1 Pro- und Max -Prozessoren getestet. Wir machen eine Menge lokaler Schlussfolgerung, sodass die Demo einiges an Verarbeitungsleistung erfordert. Ihre Kilometerleistung kann sehr auf verschiedenen Betriebssystemen und Hardware. Wenn Sie auf Probleme stoßen, öffnen Sie bitte ein Problem.
Um die Demo zu leiten, gibt es einige Voraussetzungen.
Um die Demo zu leiten, sind Golang, Python, Make und ein C -Komplizierter erforderlich.
Es gibt 3 Prozesse, die für die Demo ausgeführt werden müssen:
pkg-config und opus zu verwenden. Auf macOS können diese mit Brew installiert werden: brew install opus pkg-configmecab und espeak benötigt werden. Auf macOS können sie mit Brew installiert werden: brew install mecab espeakHinweis : Derzeit ist die Reihenfolge, in der Sie die Prozesse starten, von Bedeutung. Sie müssen den RTC -Server und den TTS -Server starten , bevor Sie den Client starten.
make rtc aus der Wurzel des Projektlaufs
make rtcErstes Setup : Wenn Sie den TTS -Server zum ersten Mal ausführen, müssen Sie die Abhängigkeiten installieren. Erwägen Sie dafür eine virtuelle Umgebung.
cd tts/servers/coqui-tts
pip install -r requirements.txt Aus der Wurzel des Projektlaufs make tts
Der Kunde benötigt whisper.cpp und die Verwendung von cgo , das Skript sollte sich jedoch für Sie darum kümmern.
Aus der Wurzel des Projektlaufs make client
make clientDie Hauptsache auf der Roadmap ist, dass TTT -Inferenz mit so etwas wie Lama.cpp vor Ort läuft. Zum Zeitpunkt der Veröffentlichung habe ich kein großartiges Internet und kann die Modellgewichte nicht herunterladen, die erforderlich sind, um dies zum Laufen zu bringen.
Der zweitgrößte Artikel auf meiner Roadmap verbessert weiterhin den Einrichtungs- und Konfigurationsprozess.
Die letzte Sache auf meiner Roadmap ist, weiterhin Bewerbungen mit Samstag zu erstellen. Ich hoffe, dass mehr Menschen zusammen mit mir aufbauen, da dies die Nummer 1 ist, um das Projekt zu verbessern und neue Funktionen aufzudecken, die hinzugefügt werden müssen.
Schließen Sie sich der Zwietracht an, um auf dem Laufenden zu bleiben!
Dieses Projekt wird mit den folgenden Open -Source -Paketen erstellt:
Ich bin sehr von Perfect und es wird zwangsläufig Fehler und Dinge geben, die ich im Installationsprozess übersehen habe. Bitte fügen Sie Probleme hinzu und können Sie sich gerne wenden, wenn etwas unklar ist. Außerdem haben wir eine Zwietracht.
Beiträge machen die Open -Source -Community zu einem erstaunlichen Ort, um zu lernen, zu inspirieren und zu kreieren. Alle Beiträge, die Sie leisten, werden sehr geschätzt .
git checkout -b feature/AmazingFeaturegit commit -m 'Add some AmazingFeature'git push origin feature/AmazingFeatureMIT
Wenn Sie das Projekt mögen und finanziell unterstützen möchten, können Sie mir gerne einen Kaffee kaufen
Github @grvydev · twitter @grvydev · per E -Mail an [email protected] per E -Mail