Vous cherchez la bibliothèque JS / TS? Découvrez AgentsJS
Nous nous associons à OpenAI sur une nouvelle API MultimodalAgent dans le cadre Agents. Cette classe enveloppe complètement l'API d'Openai en temps réel, résume le protocole de fil brut et fournit un transport de la latence ultra-low de la latence entre GPT-4O et les appareils de vos utilisateurs. Cette même pile alimente la voix avancée dans l'application Chatgpt.
Le framework Agents vous permet de créer des programmes de serveurs pilotés par AI qui peuvent voir, entendre et parler en temps réel. Votre agent se connecte avec les périphériques d'utilisateur final via une session LiveKit. Au cours de cette session, votre agent peut traiter le texte, l'audio, les images ou le streaming vidéo à partir de l'appareil d'un utilisateur et demander à un modèle d'IA de générer n'importe quelle combinaison de ces mêmes modalités que la sortie et de les remettre à l'utilisateur.
Pour installer la bibliothèque des agents de base:
pip install livekit-agentsLe framework comprend une variété de plugins qui facilitent le traitement des entrées de streaming ou de génération de sortie. Par exemple, il existe des plugins pour convertir du texte à la dissection ou une inférence avec les LLM populaires. Voici comment installer un plugin:
pip install livekit-plugins-openaiLes plugins suivants sont disponibles aujourd'hui:
| Plugin | Caractéristiques |
|---|---|
| livekit-plugins-anthropic | LLM |
| livekit-plugins-assemblyai | STT |
| livekit-plugins-azure | STT, TTS |
| livekit-plugins-hepgram | STT |
| livekit-plugins-cartesie | Tts |
| livekit-plugins-elevenlabs | Tts |
| livekit-plugins-playht | Tts |
| Livekit-Plugins-Google | STT, TTS |
| livekit-plugins-nltk | Utilitaires pour travailler avec du texte |
| livekit-plugins-rag | Utilitaires pour effectuer un chiffon |
| livekit-plugins-openai | LLM, STT, TTS, API Assistants, API en temps réel |
| livekit-plugins-siléro | Vad |
La documentation sur le cadre et comment l'utiliser peut être trouvée ici
| Description | Lien de démonstration | Lien de code |
|---|---|---|
| Un agent vocal de base utilisant un pipeline de STT, LLM et TTS | démo | code |
| Agent vocal utilisant la nouvelle API en temps réel OpenAI | démo | code |
| Agent vocal super rapide utilisant cerebras hébergé Llama 3.1 | démo | code |
| Agent vocal utilisant le modèle sonique de Cartesia | démo | N / A |
| Agent qui regarde la météo actuelle via l'appel de fonction | N / A | code |
| Agent vocal qui effectue une recherche basée sur des chiffons | N / A | code |
| Agent vidéo qui publie un flux de cadres RVB | N / A | code |
| Agent de transcription qui génère des légendes de texte à partir du discours d'un utilisateur | N / A | code |
| Un agent de chat que vous pouvez envoyer un SMS qui répondra avec un discours généré | N / A | code |
| Conférence téléphonique multi-agents localhost | N / A | code |
| Agent de modération qui utilise Hive pour détecter le spam / vidéo abusive | N / A | code |
Le cadre des agents est en cours de développement actif dans un domaine en évolution rapide. Nous accueillons et apprécions les contributions de toute nature, que ce soit des commentaires, des bugfixes, des fonctionnalités, de nouveaux plugins et outils, ou une meilleure documentation. Vous pouvez déposer des problèmes dans le cadre de ce dépôt, ouvrir un PR ou discuter avec nous dans la communauté Slack de Livekit.
| Écosystème livekit | |
|---|---|
| SDK en temps réel | Navigateur · IOS / MacOS / VisionOS · Android · Flutter · React Native · Rust · Node.js · Python · Unity · Unity (webgl) |
| API du serveur | Node.js · Golang · Ruby · Java / Kotlin · Python · Rust · Php (communauté) |
| Composants de l'interface utilisateur | React · Android compose · swiftui |
| Cadres d'agents | Python · Node.js · terrain de jeu |
| Services | Serveur livekit · sortie · entrée · girouette |
| Ressources | Docs · Exemples d'applications · Cloud · Hosting auto-hébergement · CLI |