aimon python sdk
v0.8.0
AIMON可幫助開發人員更自信,可靠地構建,運輸和監視LLM應用程序,以藉助其最先進的多模型系統來檢測LLM質量問題。它可以無縫地進行離線評估和持續的生產監控。 Aimon提供快速,可靠和具有成本效益的幻覺檢測。它還支持其他重要的質量指標,例如完整性,簡潔性和毒性。閱讀我們的博客文章以獲取更多詳細信息。
加入我們的社區懈怠

以下是當前可用和路線圖上可用的質量指標的列表。請聯繫以表達您對其中任何一個的興趣。
| 公制 | 地位 |
|---|---|
| 模型幻覺(通過和句子級別) | ✓ |
| 完整性 | ✓ |
| 簡明 | ✓ |
| 毒性 | ✓ |
| 指示依從性 | ✓ |
AIMON支持上述指標的異步儀器或同步檢測。使用這些步驟開始使用AIMON SDK和產品。
pip install aimon來安裝AIMON SDK。 from aimon import Detect
detect = Detect ( values_returned = [ 'context' , 'generated_text' ], config = { "hallucination" : { "detector_name" : "default" }})
@ detect
def my_llm_app ( context , query ):
# my_llm_model is the function that generates text using the LLM model
generated_text = my_llm_model ( context , query )
return context , generated_textanalyze_prod Decorator。
為了證明我們系統的有效性,我們將其基準為幻覺檢測任務的流行行業基準。下表顯示了我們的結果。
一些關鍵要點:
✅AIMON比GPT-4渦輪增壓便宜10倍。
✅AIMON比GPT-4渦輪增壓快4倍。
✅AIMON提供了完全託管的API的便利性,其中包括烘焙性解釋性。
✅支持最高32,000個令牌的上下文長度(計劃在不久的將來進一步擴展這一點)。
總體而言,AIMON在基準測試中便宜了10倍,比GPT-4更便宜,比GPT-4更接近甚至更好,這是離線和在線檢測幻覺的合適選擇。
| 公制 | Aimon依靠V1 | GPT-4 Turbo(llm-as-a-a-Gudge) |
|---|---|---|
| 上下文長度 | 32,000 | 128,000 |
| 真正的數據集精度/召回 | 0.808 / 0.922 | 0.810 / 0.926 |
| 摘要(測試)平衡精度 | 0.778 | 0.756 |
| Summac(測試)AUC | 0.809 | 0.780 |
| 幻覺準確性的任何規模排名測試 | 0.665 | 0.741 |
| 幻覺相關的任何規模排名測試。準確性 | 0.804 | 0.855 |
| avg。潛伏期 | 417ms | 1800ms |
| 成本(所有基準數據集中的1500萬令牌)不包括免費層 | $ 15 | $ 158 |
| 完全託管 | ✅ | ✅ |
| 解釋性 | 自動句子級得分 | 詳細的推理以及其他及時的工程 |
這些指標缺乏行業標準的基準數據集。我們將很快發布評估數據集。敬請關注! ⌛
有關詳細信息,請參閱網站aimon.ai。
加入我們的Slack社區,進行有關生成AI可靠性的最新更新和討論。