寻找JS/TS库?查看代理
我们正在与OpenAI合作,在代理框架中使用新的MultimodalAgent API。该课程完全包装OpenAI的实时API,抽象了原线协议,并在GPT-4O和您的用户设备之间提供了超低的延迟WEBRTC传输。同样的堆栈为ChatGpt应用程序中的高级语音提供动力。
代理框架使您可以构建可以实时看到,听到和讲话的AI驱动服务器程序。您的代理通过LiveKit会话与最终用户设备连接。在该会话中,您的代理可以从用户的设备处理文本,音频,图像或视频流,并使AI模型生成与输出相同模式的任何组合,并将其流回用户。
安装核心代理库:
pip install livekit-agents该框架包括各种插件,使得易于处理流式输入或生成输出。例如,有用于转换文本到语音或使用流行LLM的推断的插件。这是您可以安装插件的方法:
pip install livekit-plugins-openai如今可用以下插件:
| 插件 | 特征 |
|---|---|
| LiveKit-Plugins-Manthropic | LLM |
| LiveKit-Plugins-Assemblyai | stt |
| LiveKit-Plugins-azure | Stt,TTS |
| LiveKit-Plugins-Deepgram | stt |
| LiveKit-Plugins-Cartesia | TTS |
| LiveKit-Plugins-Extrabs | TTS |
| LiveKit-Plugins-Playht | TTS |
| LiveKit-Plugins-Google | Stt,TTS |
| LiveKit-Plugins-nltk | 处理文本的实用程序 |
| LiveKit-Plugins-rag | 执行抹布的实用程序 |
| LiveKit-Plugins-Openai | LLM,STT,TTS,助手API,实时API |
| LiveKit-Plugins-Silero | vad |
有关框架以及如何使用的文档可以在此处找到
| 描述 | 演示链接 | 代码链接 |
|---|---|---|
| 使用STT,LLM和TTS的管道的基本语音代理 | 演示 | 代码 |
| 语音代理使用新的OpenAI实时API | 演示 | 代码 |
| 超快速的语音代理使用脑托管Llama 3.1 | 演示 | 代码 |
| 使用Cartesia的声音模型的语音代理 | 演示 | N/A。 |
| 通过功能通话来查找当前天气的代理商 | N/A。 | 代码 |
| 语音代理执行基于抹布的查找 | N/A。 | 代码 |
| 发布RGB帧流的视频代理 | N/A。 | 代码 |
| 从用户的语音中生成文本字幕的转录代理 | N/A。 | 代码 |
| 您可以发短信的聊天代理,将通过生成的语音回复 | N/A。 | 代码 |
| Local主机多代理电话会议 | N/A。 | 代码 |
| 使用Hive检测垃圾邮件/滥用视频的节制代理 | N/A。 | 代码 |
代理框架在快速发展的领域正在积极发展。我们欢迎并欣赏任何形式的贡献,无论是反馈,错误福音,功能,新插件和工具,还是更好的文档。您可以在此存储库下提交问题,打开PR或在LiveKit的Slack社区中与我们聊天。
| Livekit生态系统 | |
|---|---|
| 实时SDK | 浏览器·ios/macos/visionos·android·颤动·反应本机 |
| 服务器API | node.js·golang·Ruby·Java/Kotlin·Python·Rust·Php(社区) |
| UI组件 | 反应·Android组成·Swiftui |
| 代理框架 | python ·node.js·操场 |
| 服务 | LiveKit服务器·出口·入口·SIP |
| 资源 | 文档·示例应用程序·云·自我托管·CLI |