aimon python sdk
v0.8.0
AIMON可帮助开发人员更自信,可靠地构建,运输和监视LLM应用程序,以借助其最先进的多模型系统来检测LLM质量问题。它可以无缝地进行离线评估和持续的生产监控。 Aimon提供快速,可靠和具有成本效益的幻觉检测。它还支持其他重要的质量指标,例如完整性,简洁性和毒性。阅读我们的博客文章以获取更多详细信息。
加入我们的社区懈怠

以下是当前可用和路线图上可用的质量指标的列表。请联系以表达您对其中任何一个的兴趣。
| 公制 | 地位 |
|---|---|
| 模型幻觉(通过和句子级别) | ✓ |
| 完整性 | ✓ |
| 简明 | ✓ |
| 毒性 | ✓ |
| 指示依从性 | ✓ |
AIMON支持上述指标的异步仪器或同步检测。使用这些步骤开始使用AIMON SDK和产品。
pip install aimon来安装AIMON SDK。 from aimon import Detect
detect = Detect ( values_returned = [ 'context' , 'generated_text' ], config = { "hallucination" : { "detector_name" : "default" }})
@ detect
def my_llm_app ( context , query ):
# my_llm_model is the function that generates text using the LLM model
generated_text = my_llm_model ( context , query )
return context , generated_textanalyze_prod Decorator。
为了证明我们系统的有效性,我们将其基准为幻觉检测任务的流行行业基准。下表显示了我们的结果。
一些关键要点:
✅AIMON比GPT-4涡轮增压便宜10倍。
✅AIMON比GPT-4涡轮增压快4倍。
✅AIMON提供了完全托管的API的便利性,其中包括烘焙性解释性。
✅支持最高32,000个令牌的上下文长度(计划在不久的将来进一步扩展这一点)。
总体而言,AIMON在基准测试中便宜了10倍,比GPT-4更便宜,比GPT-4更接近甚至更好,这是离线和在线检测幻觉的合适选择。
| 公制 | Aimon依靠V1 | GPT-4 Turbo(llm-as-a-a-Gudge) |
|---|---|---|
| 上下文长度 | 32,000 | 128,000 |
| 真正的数据集精度/召回 | 0.808 / 0.922 | 0.810 / 0.926 |
| 摘要(测试)平衡精度 | 0.778 | 0.756 |
| Summac(测试)AUC | 0.809 | 0.780 |
| 幻觉准确性的任何规模排名测试 | 0.665 | 0.741 |
| 幻觉相关的任何规模排名测试。准确性 | 0.804 | 0.855 |
| avg。潜伏期 | 417ms | 1800ms |
| 成本(所有基准数据集中的1500万令牌)不包括免费层 | $ 15 | $ 158 |
| 完全托管 | ✅ | ✅ |
| 解释性 | 自动句子级得分 | 详细的推理以及其他及时的工程 |
这些指标缺乏行业标准的基准数据集。我们将很快发布评估数据集。敬请关注! ⌛
有关详细信息,请参阅网站aimon.ai。
加入我们的Slack社区,进行有关生成AI可靠性的最新更新和讨论。