Procurando a biblioteca JS/TS? Confira agentesjs
Estamos em parceria com o OpenAI em uma nova API MultimodalAgent na estrutura de agentes. Essa classe envolve completamente a API em tempo real do OpenAI, abstrava o protocolo de arame bruto e fornece um transporte WebRTC de latência ultra baixa entre o GPT-4O e os dispositivos de seus usuários. Essa mesma pilha alimenta a voz avançada no aplicativo ChatGPT.
A estrutura dos agentes permite criar programas de servidores orientados a IA que possam ver, ouvir e falar em tempo real. Seu agente se conecta com dispositivos de usuário final através de uma sessão LiveKit. Durante essa sessão, seu agente pode processar texto, áudio, imagens ou streaming de vídeo a partir do dispositivo de um usuário e ter um modelo de IA gerar qualquer combinação dessas mesmas modalidades da saída e transmitir -as de volta ao usuário.
Para instalar a biblioteca dos principais agentes:
pip install livekit-agentsA estrutura inclui uma variedade de plugins que facilitam o processamento de entrada de streaming ou gerar saída. Por exemplo, existem plug-ins para converter o texto em fala ou a inferência na LLMS popular. Veja como você pode instalar um plugin:
pip install livekit-plugins-openaiOs seguintes plugins estão disponíveis hoje:
| Plugin | Características |
|---|---|
| LIVEKIT-PLUGINS-ANTHROPO | Llm |
| LiveKit-Plugins-ASSEMMBLOS | STT |
| LiveKit-Plugins-Azure | STT, TTS |
| LiveKit-Plugins-Deepgram | STT |
| LiveKit-Plugins-cartesia | TTS |
| LiveKit-Plugins-Elevenlabs | TTS |
| LIVEKIT-PLUGINS-PLAYHT | TTS |
| LiveKit-Plugins-Google | STT, TTS |
| LIVEKIT-PLUGINS-NLTK | Utilitários para trabalhar com texto |
| LiveKit-Plugins-rag | Utilitários para realizar pano |
| LIVEKIT-PLUGINS-Openai | LLM, STT, TTS, API de assistentes, API em tempo real |
| LiveKit-Plugins-Silero | Vad |
Documentação sobre a estrutura e como usá -la pode ser encontrada aqui
| Descrição | Link de demonstração | Link de código |
|---|---|---|
| Um agente de voz básico usando um pipeline de STT, LLM e TTS | demonstração | código |
| Agente de voz usando a nova API em tempo real do Openai | demonstração | código |
| Agente de voz super rápido usando cerebras hospedado llama 3.1 | demonstração | código |
| Agente de voz usando o modelo sonoro de Cartesia | demonstração | N / D |
| Agente que procura o clima atual via chamada de função | N / D | código |
| Agente de voz que executa uma pesquisa baseada em rano | N / D | código |
| Agente de vídeo que publica um fluxo de quadros RGB | N / D | código |
| Agente de transcrição que gera legendas de texto a partir do discurso de um usuário | N / D | código |
| Um agente de bate -papo que você pode enviar uma mensagem de texto que responderá com o discurso gerado | N / D | código |
| LocalHost Multi-Agent Conference Call | N / D | código |
| Agente de moderação que usa o Hive para detectar spam/vídeo abusivo | N / D | código |
A estrutura dos agentes está sob desenvolvimento ativo em um campo em rápida evolução. Congratulamo -nos com e apreciamos contribuições de qualquer tipo, seja feedback, bugs, recursos, novos plugins e ferramentas ou melhor documentação. Você pode arquivar problemas sob este repositório, abrir um PR ou conversar conosco na comunidade Slack do LiveKit.
| Ecossistema LiveKit | |
|---|---|
| SDKs em tempo real | Navegador · iOS/macOS/Visionos · Android · Flutter · React Native · Rust · Node.js · Python · Unidade · Unidade (Webgl) |
| APIs do servidor | Node.js · Golang · Ruby · Java/Kotlin · Python · Rust · Php (Comunidade) |
| Componentes da interface do usuário | Reação · composição Android · SwiftUi |
| Estruturas de agentes | Python · node.js · playground |
| Serviços | Servidor LiveKit · Egress · Ingressão · SIP |
| Recursos | DOCS · Exemplo de aplicativos · Cloud · Auto-hospedagem · CLI |