AI data-centric ที่ยอดเยี่ยมที่ยอดเยี่ยม
เครื่องมือโอเพ่นซอร์สสำหรับ AI ที่เน้นข้อมูลเป็นศูนย์กลางบนข้อมูลที่ไม่มีโครงสร้าง
Renumics Spotlight | เครื่องมือ CURATION สำหรับข้อมูลที่ไม่มีโครงสร้างซึ่งเชื่อมต่อสแต็กของคุณกับระบบนิเวศ AI ที่เน้นข้อมูลเป็นศูนย์กลาง | | | | อาร์คิลล่า | Argilla ช่วยผู้เชี่ยวชาญด้านโดเมนและทีมข้อมูลเพื่อสร้างชุดข้อมูล NLP ที่ดีขึ้นในเวลาที่น้อยลง | | |
การวิเคราะห์ข้อมูลเชิงสำรวจ (EDA)| ชื่อ | ชนิดข้อมูล | คำอธิบาย | สมุดบันทึก |
|---|
| เข้าใจการแจกแจง | ภาพ | ใช้ไลบรารี HuggingFace Transformers เพื่อคำนวณการฝังภาพและสำรวจชุดข้อมูลตามแผนที่ความคล้ายคลึงกันและ MetData เพิ่มเติม | |
การทำความสะอาด| ชื่อ | ชนิดข้อมูล | คำอธิบาย | สมุดบันทึก |
|---|
| ตรวจจับรายการซ้ำ | ไม่เชื่อเรื่องพระเจ้า | ใช้ห้องสมุดรบกวนเพื่อตรวจจับเพื่อนบ้านที่ใกล้ที่สุดในพื้นที่ฝังตัวและตรวจสอบจุดข้อมูลที่ซ้ำกัน / ใกล้ซ้ำ | | | ตรวจจับค่าผิดปกติ | ไม่เชื่อเรื่องพระเจ้า | ใช้ไลบรารี CleanLab เพื่อคำนวณคะแนนค่าผิดปกติตามโมเดลเอาต์พุต (EMBEDDINGS ความน่าจะเป็น) และตรวจสอบผู้สมัครที่มีค่าผิดปกติ | | | ตรวจจับปัญหาภาพ | ภาพ | ใช้ไลบรารี CleanVision เพื่อแยกปัญหาภาพทั่วไป (ความสว่าง, blurr, อัตราส่วนภาพ, SNR และซ้ำ) และระบุส่วนที่สำคัญผ่านการตรวจสอบด้วยตนเอง | |
คำอธิบายประกอบ| ชื่อ | ชนิดข้อมูล | คำอธิบาย | สมุดบันทึก |
|---|
| ค้นหาความไม่สอดคล้องของฉลาก | ไม่เชื่อเรื่องพระเจ้า | ใช้ไลบรารี CleanLab เพื่อคำนวณธงข้อผิดพลาดของป้ายกำกับตามความน่าจะเป็นของโมเดลและตรวจสอบส่วนข้อมูลที่สำคัญด้วยตนเอง | |
การสร้างแบบจำลอง| ชื่อ | ชนิดข้อมูล | คำอธิบาย | สมุดบันทึก |
|---|
| ตรวจจับการรั่วไหล | ไม่เชื่อเรื่องพระเจ้า | ใช้ระยะทางเพื่อนบ้านที่ใกล้ที่สุดเพื่อระบุผู้สมัครสำหรับการรั่วไหลของข้อมูลและตรวจสอบด้วยตนเอง | |
การตรวจสอบความถูกต้อง| ชื่อ | ชนิดข้อมูล | คำอธิบาย | สมุดบันทึก |
|---|
| ตรวจสอบขอบเขตการตัดสินใจ | ไม่เชื่อเรื่องพระเจ้า | คำนวณคะแนนขอบเขตการตัดสินใจตามอัตราส่วนความแน่นอนและตรวจสอบผลลัพธ์ในพล็อตกระจาย | |
การตรวจ| ชื่อ | ชนิดข้อมูล | คำอธิบาย | สมุดบันทึก |
|---|
| ตรวจจับข้อมูลดริฟท์ | ไม่เชื่อเรื่องพระเจ้า | คำนวณระยะทางโคไซน์ของเพื่อนบ้าน K-nearest ในพื้นที่ฝังตัวเป็นระยะทางดริฟท์และตรวจสอบส่วนที่สำคัญ | |
การอ่านเพิ่มเติม เพื่อให้โฟกัสที่เป็นประโยชน์และเพื่อป้องกันการทำงานที่ซ้ำกันเราได้แยกหัวข้อบางอย่างออกจากรายการนี้ อ่านเพิ่มเติมเกี่ยวกับพวกเขาที่นี่: - เครื่องมือ DCAI สำหรับข้อมูลตาราง มีรายการที่ยอดเยี่ยมสำหรับทีม YDATA ที่ดูแลรักษาไว้
- เครื่องมือการติดฉลาก แม้ว่าการติดฉลากเป็นส่วนหนึ่งของเวิร์กโฟลว์ DCAI แต่เราอ้างถึงรายการที่ยอดเยี่ยมของทีม ZenML ในหัวข้อนั้น
- เครื่องมือ MLOPS เราไม่รวมหัวข้อทั้งหมดที่ชัดเจนจากขอบเขต DCAI และอ้างถึงรายการที่ยอดเยี่ยมของ MLOPS สำหรับเครื่องมือเหล่านี้
- งานวิจัย เรามุ่งเน้นไปที่เครื่องมือโอเพ่นซอร์สที่เปิดกว้างอุตสาหกรรมตรวจสอบรายการนี้เพื่อดูมุมมองเชิงวิจัยเกี่ยวกับ DCAI
ขยาย
|