ไลบรารีการประเมิน LLM TypeScript
Evalkit เป็นห้องสมุดโอเพนซอร์ซที่ออกแบบมาสำหรับนักพัฒนา TypeScript เพื่อประเมินและปรับปรุงประสิทธิภาพของแบบจำลองภาษาขนาดใหญ่ (LLMS) ด้วยความมั่นใจ ตรวจสอบให้แน่ใจว่าโมเดล AI ของคุณมีความน่าเชื่อถือถูกต้องและน่าเชื่อถือ
คลิกที่นี่เพื่อนำทางไปยังเอกสาร Evalkit อย่างเป็นทางการ
ในเอกสารคุณสามารถค้นหาข้อมูลเกี่ยวกับวิธีการใช้ Evalkit สถาปัตยกรรมรวมถึงบทเรียนและสูตรอาหารสำหรับกรณีการใช้งานที่หลากหลายและผู้ให้บริการ LLM
| คุณสมบัติ | ความพร้อม | เอกสาร |
|---|---|---|
| ตัวชี้วัดการตรวจจับอคติ | - | |
| ตัวชี้วัดการเชื่อมโยงกัน | - | |
| Dynamic Metric (G-Eval) | - | |
| ตัวชี้วัดความซื่อสัตย์ | - | |
| ตัวชี้วัดภาพหลอน | - | |
| ตัวชี้วัดการตรวจจับความตั้งใจ | - | |
| ตัวชี้วัดความคล้ายคลึงกันแบบความหมาย | - | |
| ตัวชี้วัดความคล้ายคลึงกันแบบความหมาย | - | |
| การรายงาน | - | - |
กำลังมองหาเมทริก/ฟีเจอร์ที่ไม่ได้ระบุไว้ที่นี่? เปิดปัญหาและแจ้งให้เราทราบ!
ปัจจุบัน Evalkit ส่งออกแพ็คเกจหลักที่มีฟังก์ชั่นที่เกี่ยวข้องกับการประเมินทั้งหมด ติดตั้งแพ็คเกจโดยเรียกใช้คำสั่งต่อไปนี้:
npm install --save-dev @evalkit/coreเรายินดีต้อนรับการมีส่วนร่วมจากชุมชน! โปรดส่งคำขอดึงหรือสร้างปัญหาสำหรับข้อเสนอแนะหรือข้อเสนอแนะคุณสมบัติ
ซอร์สโค้ดของที่เก็บนี้มีอยู่ภายใต้ใบอนุญาต Apache 2.0