Mencari Perpustakaan JS/TS? Lihatlah AgentsJS
Kami bermitra dengan OpenAI pada API MultimodalAgent baru dalam kerangka agen. Kelas ini benar-benar membungkus API realtime Openai, abstrak jauh dari protokol kawat mentah, dan memberikan transportasi WebRTC latensi yang sangat rendah antara GPT-4O dan perangkat pengguna Anda. Tumpukan yang sama ini kekuatan canggih di aplikasi chatgpt.
Kerangka kerja agen memungkinkan Anda untuk membangun program server yang digerakkan AI yang dapat melihat, mendengar, dan berbicara secara realtime. Agen Anda terhubung dengan perangkat pengguna akhir melalui sesi LiveKit. Selama sesi itu, agen Anda dapat memproses teks, audio, gambar, atau streaming video dari perangkat pengguna, dan meminta model AI menghasilkan kombinasi dari modalitas yang sama dengan output, dan streaming kembali ke pengguna.
Untuk menginstal perpustakaan agen inti:
pip install livekit-agentsKerangka kerja mencakup berbagai plugin yang memudahkan untuk memproses input streaming atau menghasilkan output. Misalnya, ada plugin untuk mengonversi teks-ke-speech atau menjalankan inferensi dengan LLM populer. Inilah cara Anda dapat menginstal plugin:
pip install livekit-plugins-openaiPlugin berikut tersedia hari ini:
| Plugin | Fitur |
|---|---|
| LiveKit-Plugins-Anthropic | Llm |
| liveKit-plugins-assemblyai | Stt |
| LiveKit-Plugins-Azure | STT, TTS |
| LiveKit-Plugins-Deepgram | Stt |
| LiveKit-Plugins-Cartesia | Tts |
| LiveKit-Plugins-Elevenlabs | Tts |
| liveKit-plugins-playht | Tts |
| LiveKit-Plugins-Google | STT, TTS |
| liveKit-plugins-nltk | Utilitas untuk bekerja dengan teks |
| LiveKit-Plugins-Rag | Utilitas untuk melakukan kain |
| LiveKit-Plugins-Openai | LLM, STT, TTS, Asisten API, Realtime API |
| LiveKit-Plugins-Silero | Vad |
Dokumentasi tentang kerangka kerja dan cara menggunakannya dapat ditemukan di sini
| Keterangan | Tautan demo | Tautan kode |
|---|---|---|
| Agen suara dasar menggunakan pipa STT, LLM, dan TTS | demo | kode |
| Agen Suara Menggunakan API Realtime OpenAi Baru | demo | kode |
| Agen Suara Super Fast Menggunakan Cerebras Hosted Llama 3.1 | demo | kode |
| Agen Suara Menggunakan Model Sonik Cartesia | demo | N/a |
| Agen yang mencari cuaca saat ini melalui panggilan fungsi | N/a | kode |
| Agen suara yang melakukan pencarian berbasis kain | N/a | kode |
| Agen video yang menerbitkan aliran bingkai RGB | N/a | kode |
| Agen transkripsi yang menghasilkan teks teks dari pidato pengguna | N/a | kode |
| Agen obrolan Anda dapat mengirim pesan teks yang akan merespons kembali dengan pidato yang dihasilkan | N/a | kode |
| Panggilan konferensi multi-agen localhost | N/a | kode |
| Agen moderasi yang menggunakan sarang untuk mendeteksi video spam/kasar | N/a | kode |
Kerangka kerja agen sedang dalam pengembangan aktif di bidang yang berkembang pesat. Kami menyambut dan menghargai kontribusi dalam bentuk apa pun, baik itu umpan balik, perbaikan bug, fitur, plugin dan alat baru, atau dokumentasi yang lebih baik. Anda dapat mengajukan masalah di bawah repo ini, membuka PR, atau mengobrol dengan kami di komunitas Slack LiveKit.
| Ekosistem LiveKit | |
|---|---|
| SDK realtime | Browser · IOS/MacOS/Visionos · Android · Flutter · React Native · Rust · Node.js · Python · Unity · Unity (WebGL) |
| API Server | Node.js · Golang · Ruby · Java/Kotlin · Python · Rust · PHP (Komunitas) |
| Komponen UI | Bereaksi · Android Compose · SwiftUi |
| Kerangka kerja agen | Python · node.js · taman bermain |
| Layanan | LiveKit Server · Egress · Ingress · SIP |
| Sumber daya | Docs · Contoh aplikasi · cloud · tuan rumah mandiri · cli |