AIMON ช่วยให้นักพัฒนาสร้างจัดส่งและตรวจสอบแอพ LLM อย่างมั่นใจและเชื่อถือได้มากขึ้นด้วยระบบหลายรุ่นที่ทันสมัยสำหรับการตรวจจับปัญหาคุณภาพ LLM มันช่วยได้อย่างราบรื่นกับการประเมินแบบออฟไลน์และการตรวจสอบการผลิตอย่างต่อเนื่อง AIMON เสนอการตรวจจับภาพหลอนที่รวดเร็วเชื่อถือได้และคุ้มค่า นอกจากนี้ยังสนับสนุนตัวชี้วัดคุณภาพที่สำคัญอื่น ๆ เช่นความสมบูรณ์ความกระชับและความเป็นพิษ อ่านโพสต์บล็อกของเราสำหรับรายละเอียดเพิ่มเติม
เข้าร่วมชุมชนของเราใน Slack

ต่อไปนี้เป็นรายการตัวชี้วัดคุณภาพที่มีอยู่ในปัจจุบันและบนแผนงานของเรา โปรดติดต่อเพื่อแสดงความสนใจในสิ่งเหล่านี้
| ตัวชี้วัด | สถานะ |
|---|---|
| โมเดลภาพหลอน (ระดับและระดับประโยค) | |
| ความสมบูรณ์ | |
| ความกระชับ | |
| ความเป็นพิษ | |
| การปฏิบัติตามคำแนะนำ |
AIMON สนับสนุนการใช้เครื่องมือแบบอะซิงโครนัสหรือการตรวจจับแบบซิงโครนัสสำหรับตัวชี้วัดที่กล่าวถึงข้างต้น ใช้ขั้นตอนเหล่านี้เพื่อเริ่มต้นด้วยการใช้ AIMON SDK และผลิตภัณฑ์
pip install aimon ในเทอร์มินัลของคุณ from aimon import Detect
detect = Detect ( values_returned = [ 'context' , 'generated_text' ], config = { "hallucination" : { "detector_name" : "default" }})
@ detect
def my_llm_app ( context , query ):
# my_llm_model is the function that generates text using the LLM model
generated_text = my_llm_model ( context , query )
return context , generated_textanalyze_prod Decorator
เพื่อแสดงให้เห็นถึงประสิทธิภาพของระบบของเราเราได้ทำการเปรียบเทียบกับมาตรฐานอุตสาหกรรมยอดนิยมสำหรับงานตรวจจับภาพหลอน ตารางด้านล่างแสดงผลลัพธ์ของเรา
ประเด็นสำคัญสองสามข้อ:
✅ AIMON มี ราคาถูกกว่า GPT-4 Turbo 10 เท่า
✅ AIMON เร็วกว่า GPT-4 Turbo 4x
✅ AIMON ให้ความสะดวกสบายของ API ที่โฮสต์อย่างเต็มที่ซึ่งรวมถึงความสามารถในการอธิบายอบ
✅การสนับสนุนสำหรับความยาวบริบทสูงถึง 32,000 โทเค็น (โดยมีแผนที่จะขยายสิ่งนี้เพิ่มเติมในอนาคตอันใกล้)
โดยรวมแล้ว AIMON มีราคาถูกกว่า 10 เท่าเร็วขึ้น 4 เท่าและใกล้เคียงหรือ ดีกว่า GPT-4 บนเกณฑ์มาตรฐานทำให้เป็นตัวเลือกที่เหมาะสมสำหรับการตรวจจับภาพหลอนทั้งออฟไลน์และออนไลน์
| ตัวชี้วัด | AIMON พึ่งพา v1 | GPT-4 Turbo (LLM-AS-A-Judge) |
|---|---|---|
| ความยาวบริบท | 32,000 | 128,000 |
| ชุดข้อมูลจริง/การเรียกคืนจริง | 0.808 / 0.922 | 0.810 / 0.926 |
| ความแม่นยำที่สมดุล (ทดสอบ) | 0.778 | 0.756 |
| ซัมมแมค (ทดสอบ) AUC | 0.809 | 0.780 |
| การทดสอบการจัดอันดับใด ๆ เพื่อความแม่นยำของภาพหลอน | 0.665 | 0.741 |
| การทดสอบการจัดอันดับใด ๆ สำหรับภาพหลอน ความแม่นยำ | 0.804 | 0.855 |
| avg. ความหน่วงแฝง | 417ms | 1800ms |
| ค่าใช้จ่าย (15m tokens ในชุดข้อมูลมาตรฐานทั้งหมด) ไม่รวมระดับฟรี | $ 15 | $ 158 |
| โฮสต์อย่างเต็มที่ | ||
| ความสามารถในการอธิบายได้ | คะแนนระดับประโยคอัตโนมัติ | การให้เหตุผลโดยละเอียดพร้อมวิศวกรรมที่รวดเร็วเพิ่มเติม |
มีการขาดชุดข้อมูลมาตรฐานมาตรฐานอุตสาหกรรมสำหรับตัวชี้วัดเหล่านี้ เราจะเผยแพร่ชุดข้อมูลการประเมินเร็ว ๆ นี้ คอยติดตาม!
อ้างถึงเว็บไซต์ AIMON.AI สำหรับรายละเอียด
เข้าร่วมชุมชน Slack ของเราสำหรับการอัปเดตและการอภิปรายล่าสุดเกี่ยวกับความน่าเชื่อถือของ AI Generative