Ищете библиотеку JS/TS? Проверьте агенты
Мы сотрудничаем с OpenAI на новом MultimodalAgent API в рамках агентов. Этот класс полностью завершает API в реальном времени Openai, выпускает протокол необработанной проволоки и обеспечивает ультра-низкую задержку транспорта между GPT-4O и устройствами ваших пользователей. Этот же стек способствует расширенному голосу в приложении CHATGPT.
Структура агентов позволяет создавать серверные программы, управляемые AI, которые могут видеть, слышать и говорить в режиме реального времени. Ваш агент подключается с устройствами конечных пользователей через сеанс LiveKit. Во время этого сеанса ваш агент может обрабатывать текст, аудио, изображения или потоковую передачу видео с устройства пользователя, и модель ИИ генерирует любую комбинацию тех же модальностей, что и вывод, и передавать их обратно к пользователю.
Чтобы установить библиотеку основных агентов:
pip install livekit-agentsФреймворк включает в себя множество плагинов, которые позволяют легко обрабатывать потоковой вход или генерировать выход. Например, есть плагины для преобразования текста в речь или выполнения вывода с популярными LLMS. Вот как вы можете установить плагин:
pip install livekit-plugins-openaiСледующие плагины доступны сегодня:
| Плагин | Функции |
|---|---|
| Livekit-Plugins-Anpropic | LLM |
| LiveKit-Plugins-Assemblyai | Stt |
| Livekit-Plugins-azure | STT, TTS |
| LiveKit-Plugins-Deepgram | Stt |
| LiveKit-Plugins-Cartesia | ТТС |
| LiveKit-Plugins-ElevenLabs | ТТС |
| LiveKit-Plugins-Playht | ТТС |
| LiveKit-Plugins-Google | STT, TTS |
| LiveKit-Plugins-Nltk | Утилиты для работы с текстом |
| LiveKit-Plugins-Rag | Утилиты для выполнения тряпки |
| LiveKit-Plugins-Openai | LLM, STT, TTS, Assistants API, API в реальном времени |
| LiveKit-Plugins-Silero | Вал |
Документация на структуре и о том, как его использовать, можно найти здесь
| Описание | Демо ссылка | Кодовая ссылка |
|---|---|---|
| Основной голосовой агент, использующий трубопровод STT, LLM и TTS | демо | код |
| Голосовой агент с использованием нового API Openai Realtime | демо | код |
| Super Fast Voice Agent с использованием Cerebras Host Llama 3.1 | демо | код |
| Голосовой агент с использованием звуковой модели Cartesia | демо | N/a |
| Агент, который просматривает текущую погоду с помощью вызова функции | N/a | код |
| Голосовой агент, который выполняет поиск на основе тряпки | N/a | код |
| Видеогент, который публикует поток кадров RGB | N/a | код |
| Агент транскрипции, который генерирует текстовые подписи из речи пользователя | N/a | код |
| Агент чата, который вы можете написать, кто ответит сгенерированной речью | N/a | код |
| Многоагентная конференц-звонка Localhost | N/a | код |
| Агент модерации, который использует Hive для обнаружения спама/оскорбительного видео | N/a | код |
Структура агентов находится в активной разработке в быстро развивающейся области. Мы приветствуем и ценим любые вклады, будь то обратная связь, ошибки, функции, новые плагины и инструменты или лучшую документацию. Вы можете подать проблемы в соответствии с этим репо, открыть PR или пообщаться с нами в Slack Community Livekit.
| Живая экосистема | |
|---|---|
| В реальном времени SDK | Браузер · IOS/macOS/Visionos · Android · Flutter · React Native · Rust · Node.js · Python · Unity · Unity (Webgl) |
| Серверные API | Node.js · Golang · Ruby · Java/Kotlin · Python · Rust · Php (сообщество) |
| Компоненты пользовательского интерфейса | React · Android Compose · swiftui |
| Агенты фреймворки | Python · node.js · детская площадка |
| Услуги | LiveKit Server · Egress · Ingress · SIP |
| Ресурсы | Документы · Пример приложения · Облако · самостоятельное управление · CLI |