从抹布聊天机器人到代码助手到复杂的代理管道及以后,构建LLM系统,可以通过跟踪,评估和仪表板来更好,更快,更便宜。
网站•松弛社区• Twitter •文档

OPIK是一个用于评估,测试和监视LLM应用程序的开源平台。由彗星建造。
您可以使用OPIK:
发展:
跟踪:在开发和生产过程中跟踪所有LLM的呼叫和痕迹(快速启动,集成
注释:通过使用Python SDK或UI记录反馈分数来注释LLM调用。
游乐场::及时的操场上尝试不同的提示和模型
评估:自动化LLM应用程序的评估过程:
数据集和实验:存储测试用例和运行实验(数据集,评估您的LLM应用程序)
LLM作为法官指标:使用OPIK的LLM作为法官指标
CI/CD集成:使用我们的Pytest集成作为CI/CD管道的一部分进行评估
生产监控:
日志所有生产轨迹:OPIK旨在支持大量痕迹,从而易于监视您的生产应用程序。即使是小型部署也可以每天摄入超过4000万个痕迹!
监视仪表板:在OPIK仪表板上查看您的反馈分数,跟踪计数和令牌。
在线评估指标:通过OPIK的在线评估指标,使用LLM作为法官指标轻松评分所有生产轨迹,并确定生产LLM应用程序的任何问题
提示
如果您正在寻找OPIK今天没有的功能,请提出一个新功能请求
OPIK可作为完全开源的本地安装或使用Comet.com作为托管解决方案提供。开始使用OPIK的最简单方法是在Comet.com上创建一个免费的彗星帐户。
如果您想自助OPIK,可以通过克隆存储库并使用Docker组成的平台来做到这一点:
# Clone the Opik repository
git clone https://github.com/comet-ml/opik.git
# Navigate to the opik/deployment/docker-compose directory
cd opik/deployment/docker-compose
# Start the Opik platform
docker compose up --detach
# You can now visit http://localhost:5173 on your browser!有关不同部署选项的更多信息,请参阅我们的部署指南:
| 安装方法 | 文档链接 |
|---|---|
| 本地实例 | |
| Kubernetes |
首先,您需要首先安装Python SDK:
pip install opik SDK安装后,您可以通过运行opik configure命令来配置它:
opik configure这将允许您通过设置正确的本地服务器地址或通过设置API键使用云平台来本地配置OPIK
提示
您也可以从Python代码调用opik.configure(use_local=True)方法,以配置SDK以在本地安装上运行。
现在,您准备使用Python SDK开始记录轨迹。
最简单的入门方法是使用我们的集成之一。 OPIK支持:
| 一体化 | 描述 | 文档 | 在Colab中尝试 |
|---|---|---|---|
| Openai | 所有OpenAI LLM调用的日志跟踪 | 文档 | |
| Litellm | 使用OpenAI格式调用任何LLM型号 | 文档 | |
| Langchain | 所有Langchain LLM调用的日志跟踪 | 文档 | |
| 草垛 | 所有Haystack调用的日志跟踪 | 文档 | |
| 人类 | 所有人类LLM调用的日志跟踪 | 文档 | |
| 基岩 | 所有基岩LLM通话的日志跟踪 | 文档 | |
| Crewai | 所有crewai呼叫的日志跟踪 | 文档 | |
| DeepSeek | 所有DeepSeek LLM调用的日志跟踪 | 文档 | |
| DSPY | 所有DSPY运行的日志跟踪 | 文档 | |
| 双子座 | 所有Gemini LLM调用的日志跟踪 | 文档 | |
| 谷 | 所有GROQ LLM调用的日志跟踪 | 文档 | |
| 护栏 | 所有护栏验证的日志跟踪 | 文档 | |
| Langgraph | 所有langgraph执行的日志跟踪 | 文档 | |
| Llamaindex | 所有LlamainDex LLM通话的日志迹线 | 文档 | |
| 霍拉马 | 所有Ollama LLM调用的日志跟踪 | 文档 | |
| prepibase | 微调并提供开源大语模型 | 文档 | |
| 拉加斯 | 您检索增强发电(RAG)管道的评估框架 | 文档 | |
| WATSONX | 所有WATSONX LLM调用的日志跟踪 | 文档 |
提示
如果您使用的框架未列出上面的框架,请随时打开问题或提交与集成的PR。
如果您不使用上面的任何框架,也可以使用track功能装饰器来记录轨迹:
import opik
opik . configure ( use_local = True ) # Run locally
@ opik . track
def my_llm_function ( user_question : str ) -> str :
# Your LLM code here
return "Hello" 提示
轨道装饰器可以与我们的任何集成结合使用,也可以用于跟踪嵌套功能调用。
Python Opik SDK包括许多LLM作为法官指标,以帮助您评估LLM应用程序。在指标文档中了解有关它的更多信息。
要使用它们,只需导入相关度量标准并使用score函数:
from opik . evaluation . metrics import Hallucination
metric = Hallucination ()
score = metric . score (
input = "What is the capital of France?" ,
output = "Paris" ,
context = [ "France is a country in Europe." ]
)
print ( score )OPIK还包括许多预构建的启发式指标以及创建自己的能力。在指标文档中了解有关它的更多信息。
OPIK允许您通过数据集和实验在开发过程中评估LLM应用程序。
您还可以使用我们的Pytest集成作为CI/CD管道的一部分进行评估。
如果您觉得OPIK有用,请考虑给我们一颗星星!您的支持有助于我们发展社区并继续改善产品。
有很多方法可以为OPIK做出贡献:
要了解有关如何为OPIK做出贡献的更多信息,请参阅我们的贡献指南。