จาก RAG chatbots ไปจนถึงผู้ช่วยโค้ดไปจนถึงท่อเอเจนต์ที่ซับซ้อนและอื่น ๆ สร้างระบบ LLM ที่ทำงานได้ดีขึ้นเร็วขึ้นและราคาถูกกว่าด้วยการติดตามการประเมินและแดชบอร์ด
เว็บไซต์ • ชุมชนหย่อน • Twitter • เอกสารประกอบ

Opik เป็นแพลตฟอร์มโอเพนซอร์ซสำหรับการประเมินการทดสอบและการตรวจสอบแอปพลิเคชัน LLM สร้างโดยดาวหาง
คุณสามารถใช้ opik สำหรับ:
การพัฒนา:
การติดตาม: ติดตามการโทรและร่องรอย LLM ทั้งหมดในระหว่างการพัฒนาและการผลิต (Quickstart, Integrations
คำอธิบายประกอบ: หมายเหตุประกอบการโทร LLM ของคุณโดยการบันทึกคะแนนความคิดเห็นโดยใช้ Python SDK หรือ UI
สนามเด็กเล่น:: ลองพรอมต์และโมเดลที่แตกต่างกันในสนามเด็กเล่น
การประเมินผล : ทำให้กระบวนการประเมินผลของแอปพลิเคชัน LLM ของคุณเป็นไปโดยอัตโนมัติ:
ชุดข้อมูลและการทดลอง : จัดเก็บกรณีทดสอบและเรียกใช้การทดลอง (ชุดข้อมูลประเมินแอปพลิเคชัน LLM ของคุณ)
LLM เป็นตัวชี้วัดผู้พิพากษา : ใช้ LLM ของ Opik เป็นตัวชี้วัดผู้พิพากษาสำหรับปัญหาที่ซับซ้อนเช่นการตรวจจับภาพหลอนการกลั่นกรองและการประเมิน RAG (ความเกี่ยวข้องของคำตอบความแม่นยำของบริบท
การรวม CI/CD : เรียกใช้การประเมินผลเป็นส่วนหนึ่งของไปป์ไลน์ CI/CD ของคุณโดยใช้การรวม pytest ของเรา
การตรวจสอบการผลิต :
บันทึกร่องรอยการผลิตทั้งหมดของคุณ : Opik ได้รับการออกแบบมาเพื่อรองรับร่องรอยที่มีปริมาณมากทำให้ง่ายต่อการตรวจสอบแอปพลิเคชันการผลิตของคุณ แม้แต่การปรับใช้ขนาดเล็กก็สามารถนำไปสู่การติดตามมากกว่า 40 ล้านร่องรอยต่อวัน!
การตรวจสอบแดชบอร์ด : ทบทวนคะแนนความคิดเห็นของคุณจำนวนการติดตามและโทเค็นเมื่อเวลาผ่านไปในแผงควบคุม Opik
ตัวชี้วัดการประเมินออนไลน์ : ให้คะแนนร่องรอยการผลิตทั้งหมดของคุณได้อย่างง่ายดายโดยใช้ LLM เป็นตัวชี้วัดผู้พิพากษาและระบุปัญหาใด ๆ กับแอปพลิเคชันการผลิต LLM ของคุณเนื่องจากการประเมินผลการประเมินออนไลน์ของ Opik
เคล็ดลับ
หากคุณกำลังมองหาคุณสมบัติที่ Opik ไม่มีวันนี้โปรดเพิ่มคำขอคุณสมบัติใหม่
Opik มีให้บริการในการติดตั้งแบบโอเพนซอร์สแบบเต็มรูปแบบหรือใช้ Comet.com เป็นโซลูชันที่โฮสต์ วิธีที่ง่ายที่สุดในการเริ่มต้นใช้งาน Opik คือการสร้างบัญชีดาวหางฟรีที่ Comet.com
หากคุณต้องการเป็นเจ้าภาพ Opik คุณสามารถทำได้โดยการโคลนนิ่งที่เก็บและเริ่มต้นแพลตฟอร์มโดยใช้ Docker Compose:
# Clone the Opik repository
git clone https://github.com/comet-ml/opik.git
# Navigate to the opik/deployment/docker-compose directory
cd opik/deployment/docker-compose
# Start the Opik platform
docker compose up --detach
# You can now visit http://localhost:5173 on your browser!สำหรับข้อมูลเพิ่มเติมเกี่ยวกับตัวเลือกการปรับใช้ที่แตกต่างกันโปรดดูคู่มือการปรับใช้ของเรา:
| วิธีการติดตั้ง | ลิงค์เอกสาร |
|---|---|
| อินสแตนซ์ท้องถิ่น | |
| Kubernetes |
ในการเริ่มต้นคุณจะต้องติดตั้ง Python SDK ก่อน:
pip install opik เมื่อติดตั้ง SDK แล้วคุณสามารถกำหนดค่าได้โดยเรียกใช้คำสั่ง opik configure :
opik configureสิ่งนี้จะช่วยให้คุณกำหนดค่า OPIK ในพื้นที่โดยการตั้งค่าที่อยู่เซิร์ฟเวอร์ท้องถิ่นที่ถูกต้องหรือหากคุณใช้แพลตฟอร์มคลาวด์โดยการตั้งค่าคีย์ API
เคล็ดลับ
นอกจากนี้คุณยังสามารถโทรหาวิธี opik.configure(use_local=True) จากรหัส Python ของคุณเพื่อกำหนดค่า SDK เพื่อทำงานบนการติดตั้งในพื้นที่
ตอนนี้คุณพร้อมที่จะเริ่มการบันทึกร่องรอยโดยใช้ Python SDK
วิธีที่ง่ายที่สุดในการเริ่มต้นคือการใช้หนึ่งในการบูรณาการของเรา Opik รองรับ:
| การรวมเข้าด้วยกัน | คำอธิบาย | เอกสาร | ลองใน colab |
|---|---|---|---|
| Openai | บันทึกการติดตามสำหรับการโทร OpenAI LLM ทั้งหมด | เอกสาร | |
| Litellm | เรียกรุ่น LLM ใด ๆ โดยใช้รูปแบบ openai | เอกสาร | |
| คนขี้เกียจ | ล็อกร่องรอยสำหรับการโทร LANCHAIN LLM ทั้งหมด | เอกสาร | |
| กองหญ้า | ล็อกร่องรอยสำหรับการโทรหากองอยู่ทั้งหมด | เอกสาร | |
| มานุษยวิทยา | บันทึกการติดตามสำหรับการโทร LLM มานุษยวิทยาทั้งหมด | เอกสาร | |
| หิน | ล็อกร่องรอยสำหรับการโทร LLM ทั้งหมด | เอกสาร | |
| ลูกเรือ | บันทึกการติดตามสำหรับการโทรลูกเรือทั้งหมด | เอกสาร | |
| ลึกล้ำ | ล็อกร่องรอยสำหรับการโทร Deepseek LLM ทั้งหมด | เอกสาร | |
| dspy | บันทึกการติดตามสำหรับ DSPY ทั้งหมด | เอกสาร | |
| ราศีเมถุน | ล็อกร่องรอยสำหรับการโทร LLM ของราศีเมถุน | เอกสาร | |
| การทำ | บันทึกการติดตามสำหรับการโทร GROQ LLM ทั้งหมด | เอกสาร | |
| รั้ว | บันทึกการติดตามสำหรับการตรวจสอบความถูกต้องทั้งหมด | เอกสาร | |
| เสียงดัง | บันทึกการติดตามสำหรับการประหารชีวิต Langgraph ทั้งหมด | เอกสาร | |
| llamainedex | ล็อกร่องรอยสำหรับการโทร lllamainedex ทั้งหมด | เอกสาร | |
| โอลลา | บันทึกการติดตามสำหรับการโทร Ollama LLM ทั้งหมด | เอกสาร | |
| predibase | ปรับแต่งและให้บริการแบบจำลองภาษาขนาดใหญ่โอเพนซอร์ซ | เอกสาร | |
| Ragas | เฟรมเวิร์กการประเมินผลสำหรับท่อเติม (RAG) | เอกสาร | |
| วัตสัน | บันทึกการติดตามสำหรับการโทร Watsonx LLM ทั้งหมด | เอกสาร |
เคล็ดลับ
หากเฟรมเวิร์กที่คุณใช้ไม่ได้ระบุไว้ข้างต้นอย่าลังเลที่จะเปิดปัญหาหรือส่ง PR พร้อมการรวมเข้าด้วยกัน
หากคุณไม่ได้ใช้เฟรมเวิร์กใด ๆ ด้านบนคุณยังสามารถใช้เทศกาลแทร็กฟังก์ track เพื่อบันทึกการติดตาม:
import opik
opik . configure ( use_local = True ) # Run locally
@ opik . track
def my_llm_function ( user_question : str ) -> str :
# Your LLM code here
return "Hello" เคล็ดลับ
มัณฑนากรแทร็กสามารถใช้ร่วมกับการบูรณาการใด ๆ ของเราและยังสามารถใช้ในการติดตามการโทรฟังก์ชั่นซ้อนกัน
Python Opik SDK มีจำนวน LLM เป็นตัวชี้วัดผู้พิพากษาเพื่อช่วยคุณประเมินแอปพลิเคชัน LLM ของคุณ เรียนรู้เพิ่มเติมเกี่ยวกับเรื่องนี้ในเอกสารการวัด
หากต้องการใช้เพียงการนำเข้าเมตริกที่เกี่ยวข้องและใช้ฟังก์ชั่น score :
from opik . evaluation . metrics import Hallucination
metric = Hallucination ()
score = metric . score (
input = "What is the capital of France?" ,
output = "Paris" ,
context = [ "France is a country in Europe." ]
)
print ( score )Opik ยังมีตัวชี้วัดฮิวริสติกที่สร้างไว้ล่วงหน้าจำนวนมากรวมถึงความสามารถในการสร้างของคุณเอง เรียนรู้เพิ่มเติมเกี่ยวกับเรื่องนี้ในเอกสารการวัด
Opik ช่วยให้คุณประเมินแอปพลิเคชัน LLM ของคุณในระหว่างการพัฒนาผ่านชุดข้อมูลและการทดลอง
นอกจากนี้คุณยังสามารถเรียกใช้การประเมินผลเป็นส่วนหนึ่งของไปป์ไลน์ CI/CD ของคุณโดยใช้การรวม pytest ของเรา
หากคุณพบว่า Opik มีประโยชน์โปรดพิจารณาให้เราเป็นดารา! การสนับสนุนของคุณช่วยให้เราเติบโตชุมชนของเราและปรับปรุงผลิตภัณฑ์ต่อไป
มีหลายวิธีในการมีส่วนร่วมใน OPIK:
หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับวิธีการมีส่วนร่วมใน OPIK โปรดดูแนวทางการสนับสนุนของเรา