Auf der Suche nach der JS/TS -Bibliothek? Schauen Sie sich Agenten an
Wir arbeiten mit OpenAI mit einer neuen MultimodalAgent API im Rahmen der Agenten zusammen. Diese Klasse wickelt Openai's Echtzeit-API vollständig ab, abstraktiert das RAW-Drahtprotokoll ab und bietet einen Ultra-Latenz-WEBRTC-Transport zwischen GPT-4O und den Geräten Ihrer Benutzer. Dieselbe Stack Powers hat in der ChatGPT -App erweitert.
Mit dem Agenten-Framework können Sie KI-gesteuerte Serverprogramme erstellen, die in Echtzeit sehen, hören und sprechen können. Ihr Agent verbindet sich über eine LiveKit -Sitzung mit Endbenutzergeräten. Während dieser Sitzung kann Ihr Agent Text, Audio-, Bilder oder Video -Streaming vom Gerät eines Benutzers verarbeiten und ein KI -Modell eine beliebige Kombination derselben Modalitäten wie Ausgabe generieren und an den Benutzer zurückstream.
So installieren Sie die Core Agents Library:
pip install livekit-agentsDas Framework enthält eine Vielzahl von Plugins, die es einfach machen, Streaming -Eingaben oder Ausgaben zu erzeugen. Beispielsweise gibt es Plugins zum Konvertieren von Text-zu-Sprach oder zum Ausführen von Inferenz mit beliebten LLMs. So können Sie ein Plugin installieren:
pip install livekit-plugins-openaiDie folgenden Plugins sind heute verfügbar:
| Plugin | Merkmale |
|---|---|
| LiveKit-Plugins-Anthropic | Llm |
| LiveKit-Plugins-Assemblyai | Stt |
| LiveKit-Plugins-Azure | Stt, tts |
| LiveKit-Plugins-Deepgram | Stt |
| LiveKit-Plugins-Cartesien | TTS |
| LiveKit-Plugins-Elevenlabs | TTS |
| LiveKit-Plugins-Playht | TTS |
| LiveKit-Plugins-Google | Stt, tts |
| LiveKit-Plugins-nltk | Dienstprogramme für die Arbeit mit Text |
| LiveKit-Plugins-Rag | Versorgungsunternehmen für die Durchführung von Lappen |
| LiveKit-Plugins-Openai | LLM, STT, TTS, Assistants API, Echtzeit -API |
| LiveKit-Plugins-Silero | Vad |
Dokumentation zum Framework und der Verwendung
| Beschreibung | Demo -Link | Code -Link |
|---|---|---|
| Ein grundlegender Sprachagent, der eine Pipeline von STT, LLM und TTS verwendet | Demo | Code |
| Sprachagent mit der neuen OpenAI -Echtzeit -API | Demo | Code |
| Super Fast Voice Agent mit Cerebras gehostet Lama 3.1 | Demo | Code |
| Sprachagent verwendet das Sonic -Modell von Cartesia | Demo | N / A |
| Agent, der das aktuelle Wetter über den Funktionsaufruf nachsieht | N / A | Code |
| Sprachagent, der eine Lappenbasis durchführt | N / A | Code |
| Video Agent, der einen Stream von RGB -Frames veröffentlicht | N / A | Code |
| Transkriptionsagent, der Textunterschriften aus der Rede eines Benutzers generiert | N / A | Code |
| Ein Chat -Agent, den Sie schreiben können, der mit generierter Sprache reagiert | N / A | Code |
| LOCALHOST Multi-Agent-Konferenzanruf | N / A | Code |
| Moderation Agent, der Hive verwendet, um Spam/missbräuchliches Video zu erkennen | N / A | Code |
Der Rahmen der Agenten wird in einem sich schnell entwickelnden Bereich aktiv entwickelt. Wir begrüßen und schätzen Beiträge jeglicher Art, sei es Feedback, Fehler, Funktionen, neue Plugins und Tools oder eine bessere Dokumentation. Sie können Probleme unter diesem Repo einreichen, eine PR eröffnen oder mit uns in LiveKits Slack -Community chatten.
| Livekit -Ökosystem | |
|---|---|
| Echtzeit -SDKs | Browser · iOS/macOS/Visionos · Android · Flattern · Reagieren Sie native · Rost · Knoten.js · Python · Einheit · Einheit (WebGL) |
| Server -APIs | Node.js · Golang · Ruby · Java/Kotlin · Python · Rost · Php (Gemeinschaft) |
| UI -Komponenten | Reagieren · Android komponieren · Swiftui |
| Agenten Frameworks | Python · Knoten.js · Spielplatz |
| Dienstleistungen | LiveKit Server · Ausgang · Eindringung · SIP |
| Ressourcen | Dokumente · Beispiel Apps · Cloud · Selbstveranstaltung · CLI |