¿Buscas la biblioteca JS/TS? Echa un vistazo a AgentsJs
Nos estamos asociando con OpenAI en una nueva API MultimodalAgent en el marco de los agentes. Esta clase envuelve por completo la API real de OpenAI, abstrae el protocolo de alambre sin procesar y proporciona un transporte de WEBRTC de latencia ultra bajo entre GPT-4O y los dispositivos de sus usuarios. Esta misma pila de potencia avanzó la voz en la aplicación ChatGPT.
El marco de los agentes le permite construir programas de servidor impulsados por AI que puedan ver, escuchar y hablar en tiempo real. Su agente se conecta con dispositivos de usuario final a través de una sesión de LiveKit. Durante esa sesión, su agente puede procesar texto, audio, imágenes o transmisión de video desde el dispositivo de un usuario, y hacer que un modelo de IA genere cualquier combinación de esas mismas modalidades que la salida, y transmitirlos nuevamente al usuario.
Para instalar la biblioteca de agentes centrales:
pip install livekit-agentsEl marco incluye una variedad de complementos que facilitan procesar la entrada de transmisión o generar salida. Por ejemplo, hay complementos para convertir texto a voz o ejecutar inferencia con LLMS populares. Así es como puede instalar un complemento:
pip install livekit-plugins-openaiLos siguientes complementos están disponibles hoy:
| Complemento | Características |
|---|---|
| LiveKit-Plugins-Antrópico | LLM |
| LiveKit-Plugins-Assemyai | Stt |
| LiveKit-Plugins-Azure | STT, TTS |
| LiveKit-Plugins-Depgram | Stt |
| LiveKit-Plugins-Cartesia | TTS |
| LiveKit-Plugins-Elevenlabs | TTS |
| LiveKit-Plugins-Playht | TTS |
| LiveKit-Plugins-Google | STT, TTS |
| liveKit-plugins-nltk | Servicios públicos para trabajar con texto |
| LiveKit-Plugins-Rag | Servicios públicos para realizar trapo |
| LiveKit-Plugins-Openai | LLM, STT, TTS, Asistentes API, API de tiempo real |
| LiveKit-Plugins-Silero | Vad |
La documentación en el marco y cómo usarlo se puede encontrar aquí
| Descripción | Enlace de demostración | Enlace de código |
|---|---|---|
| Un agente de voz básico que usa una tubería de STT, LLM y TTS | manifestación | código |
| Agente de voz que usa la nueva API de Operai RealTime | manifestación | código |
| Agente de voz súper rápido usando cerebras alojadas en Llama 3.1 | manifestación | código |
| Agente de voz que usa el modelo sónico de Cartesia | manifestación | N / A |
| Agente que busca el clima actual a través de la llamada de función | N / A | código |
| Agente de voz que realiza una búsqueda a base de trapo | N / A | código |
| Agente de video que publica una transmisión de marcos RGB | N / A | código |
| Agente de transcripción que genera subtítulos de texto a partir del discurso de un usuario | N / A | código |
| Un agente de chat que puede enviar un mensaje de texto que responderá con el discurso generado | N / A | código |
| Conferencia telefónica de múltiples agentes localeshost | N / A | código |
| Agente de moderación que usa Hive para detectar spam/video abusivo | N / A | código |
El marco de los agentes está en desarrollo activo en un campo en rápida evolución. Agradecemos y apreciamos las contribuciones de cualquier tipo, ya sea comentarios, correcciones de errores, características, nuevos complementos y herramientas, o mejor documentación. Puede presentar problemas bajo este repositorio, abrir un PR o chatear con nosotros en la comunidad Slack de LiveKit.
| Ecosistema LiveKit | |
|---|---|
| SDKS en tiempo real | Navegador · iOS/MacOS/VisionOS · Android · Flutter · React Native · Rust · Node.js · Python · Unity · Unity (WebGL) |
| API del servidor | Node.js · Golang · Ruby · Java/Kotlin · Python · Rust · Php (Comunidad) |
| Componentes de la interfaz de usuario | React · Android Compose · Swiftui |
| Marcos de agentes | Python · node.js · parque infantil |
| Servicios | Server LiveKit · Egras · Ingress · SIP |
| Recursos | Docs · Aplicaciones de ejemplo · Cloud · Autohostante · CLI |