data centric ai Download - data centric ai Source Download

data centric ai

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

AI ข้อมูลเป็นศูนย์กลาง

เรากำลังรวบรวมรายการทรัพยากรและความคืบหน้าใน AI ที่เน้นข้อมูลเป็นศูนย์กลางโดยมีทิศทางที่น่าตื่นเต้นในอดีตปัจจุบันและอนาคต บล็อกนี้พูดถึงการเดินทางของเราไปยัง AI ที่เน้นข้อมูลเป็นศูนย์กลางและเราแสดงให้เห็นว่าทำไมเราถึงตื่นเต้นกับข้อมูลเป็นมุมมองสำหรับ AI ในบล็อกนี้

ในขณะที่ AI ได้ให้ความสำคัญกับแบบจำลอง แต่ประสบการณ์ในโลกแห่งความเป็นจริงของผู้ที่นำแบบจำลองมาใช้ในการผลิตคือข้อมูลมักจะมีความสำคัญมากกว่า เป้าหมายของที่เก็บนี้คือการรวมประสบการณ์นี้ไว้ในที่เดียวที่ทุกคนที่ต้องการเข้าใจและมีส่วนร่วมในพื้นที่นี้

เราเป็นเพียงจุดเริ่มต้นเท่านั้นและคุณสามารถช่วยได้โดยมีส่วนร่วมใน GitHub นี้! ขอบคุณทุกคนที่มีส่วนร่วมจนถึงตอนนี้

ฉันจะช่วยได้อย่างไร?

หากคุณสนใจในพื้นที่นี้และต้องการรับฟังเพิ่มเติมเข้าร่วมรายชื่อผู้รับจดหมายของเรา! เราขอขอบคุณหากคุณสามารถกรอกแบบฟอร์มสั้น ๆ นี้เพื่อช่วยให้เราเข้าใจได้ดีขึ้นว่าคุณสนใจอะไร

ข้อเสนอแนะ (สนใจในชั้นเรียน?)

เรากำลังสร้างชั้นเรียนที่ Stanford เกี่ยวกับข้อมูล AI ที่เน้นข้อมูลเป็นศูนย์กลางและเราชอบความคิดเห็นของคุณ หากคุณสนใจที่จะเรียนรู้เพิ่มเติมโปรดกรอกแบบฟอร์มนี้

หากคุณมีแนวคิดเกี่ยวกับวิธีที่เราสามารถทำให้พื้นที่เก็บข้อมูลนี้ดีขึ้นโปรดส่งปัญหาพร้อมคำแนะนำ

การบริจาค

เราต้องการให้ทรัพยากรนี้เติบโตขึ้นพร้อมกับการมีส่วนร่วมจากผู้อ่านและผู้ที่ชื่นชอบข้อมูล หากคุณต้องการบริจาคให้กับพื้นที่เก็บข้อมูลของ GitHub นี้โปรดอ่านแนวทางการสนับสนุนของเรา

สารบัญ

พื้นหลัง
การเขียนโปรแกรมข้อมูลและการกำกับดูแลที่อ่อนแอ
การเพิ่มข้อมูล
การดูแลตนเอง
จุดสิ้นสุดของ modelitis
การประเมินอย่างละเอียด
ความทนทาน
การทำความสะอาดข้อมูล
Mlops
การเลือกข้อมูล
ข้อมูลความเป็นส่วนตัว (กำลังก่อสร้าง)
การไหลของข้อมูล (ระหว่างการก่อสร้าง)
การเรียนรู้แบบหลายงานและหลายโดเมน (กำลังก่อสร้าง)
แนวโน้มที่เกิดขึ้นใหม่
แอปพลิเคชัน
กรณีศึกษา
รายการที่ยอดเยี่ยม

พื้นหลัง

บริเวณนี้เป็นต้นขั้วคุณสามารถช่วยได้โดยการปรับปรุง

มีความตื่นเต้นมากมายเกี่ยวกับการทำความเข้าใจวิธีการเรียนรู้ของเครื่องเพื่อทำงานในกรณีการใช้งานจริง AI ที่เน้นข้อมูลเป็นศูนย์กลางรวบรวมมุมมองเฉพาะเกี่ยวกับความคืบหน้านี้สามารถเกิดขึ้นได้: โดยมุ่งเน้นไปที่การทำให้ผู้ปฏิบัติงานเข้าใจโปรแกรมและวนซ้ำในชุดข้อมูลได้ง่ายขึ้นแทนที่จะใช้เวลากับโมเดล

การเขียนโปรแกรมข้อมูลและการกำกับดูแลที่อ่อนแอ

การเขียนโปรแกรมข้อมูลและพื้นที่การกำกับดูแลที่อ่อนแอ

ระบบการเรียนรู้ของเครื่องจักรที่ทันสมัยหลายแห่งต้องการชุดข้อมูลขนาดใหญ่ที่มีป้ายกำกับให้ประสบความสำเร็จ แต่การผลิตชุดข้อมูลดังกล่าวใช้เวลานานและมีราคาแพง แต่แหล่งที่มาของการกำกับดูแลที่อ่อนแอกว่าเช่น crowdsourcing การกำกับดูแลที่อยู่ห่างไกลและฮิวริสติกของผู้เชี่ยวชาญด้านโดเมนเช่นรูปแบบ Hearst ได้ถูกนำมาใช้มาตั้งแต่ยุค 90

อย่างไรก็ตามสิ่งเหล่านี้ส่วนใหญ่ได้รับการยกย่องจากกลุ่ม AI และ AI/ML เป็นเทคนิคเฉพาะกิจหรือเทคนิคที่แยกได้ ความพยายามในการรวมและรวมสิ่งเหล่านี้เข้ากับมุมมองศูนย์ข้อมูลเริ่มต้นอย่างจริงจังด้วยการเขียนโปรแกรมข้อมูล AKA การติดฉลากเป็นโปรแกรมซึ่งเป็นตัวเป็นตนในการดำน้ำตอนนี้เป็นโครงการโอเพนซอร์ซและ บริษัท ที่เจริญรุ่งเรือง ในวิธีการข้อมูล AI ที่เน้นข้อมูลของ Snorkel ผู้ใช้ระบุฟังก์ชั่นการติดฉลากหลายรายการซึ่งแต่ละรายการแสดงถึงการประมาณการที่มีเสียงดังของฉลากความจริงพื้นดิน เนื่องจากฟังก์ชั่นการติดฉลากเหล่านี้แตกต่างกันไปตามความแม่นยำและความครอบคลุมของชุดข้อมูลและอาจมีความสัมพันธ์กันจึงถูกรวมเข้าด้วยกันและ denoised ผ่านแบบจำลองกราฟิกตัวแปรแฝง ความท้าทายทางเทคนิคคือการเรียนรู้ความถูกต้องและพารามิเตอร์สหสัมพันธ์ในรุ่นนี้และใช้เพื่ออนุมานฉลากที่แท้จริงที่จะใช้สำหรับงานดาวน์สตรีม

การเขียนโปรแกรมข้อมูลสร้างขึ้นบนสายงานที่ยาวนานในการประมาณค่าพารามิเตอร์ในแบบจำลองกราฟิกตัวแปรแฝง คอนกรีตแบบจำลองการกำเนิดสำหรับการกระจายร่วมของฟังก์ชั่นการติดฉลากและฉลากจริงที่ไม่ได้ตรวจสอบ (แฝง) ได้เรียนรู้ รูปแบบฉลากนี้อนุญาตให้มีการรวมแหล่งที่มาของสัญญาณที่หลากหลายในขณะที่ช่วยให้พวกเขามีความแม่นยำที่แตกต่างกันและความสัมพันธ์ที่อาจเกิดขึ้น

โพสต์บล็อกดำน้ำนี้มีภาพรวมของการกำกับดูแลที่อ่อนแอรวมถึงวิธีการเปรียบเทียบกับวิธีการอื่น ๆ เพื่อรับข้อมูลที่มีป้ายกำกับมากขึ้นและความท้าทายในการสร้างแบบจำลองทางเทคนิค บันทึกการบรรยายของ Stanford CS229 เหล่านี้ให้บทสรุปทางทฤษฎีเกี่ยวกับวิธีการใช้แบบจำลองกราฟิกในการกำกับดูแลที่อ่อนแอ

การเพิ่มข้อมูล

หน้าพื้นที่เพิ่มข้อมูล

ความท้าทายที่สำคัญเมื่อรูปแบบการเรียนรู้ของเครื่องฝึกอบรมคือการรวบรวมชุดข้อมูลขนาดใหญ่และหลากหลายที่จับความแปรปรวนที่สังเกตได้ในโลกแห่งความเป็นจริงอย่างเพียงพอ เนื่องจากค่าใช้จ่ายในการรวบรวมและการติดฉลากชุดข้อมูลการเพิ่มข้อมูลจึงกลายเป็นทางเลือกราคาถูกและมีแนวโน้ม

แนวคิดหลักในการเพิ่มข้อมูลคือการแปลงตัวอย่างในชุดข้อมูลที่มีอยู่เพื่อสร้างตัวอย่างเพิ่มเติมเพิ่มเติมที่สามารถเพิ่มลงในชุดข้อมูลได้ ตัวอย่างเพิ่มเติมเหล่านี้มักจะเพิ่มความหลากหลายของข้อมูลที่เห็นโดยแบบจำลองและให้การดูแลเพิ่มเติมกับโมเดล รากฐานของการเพิ่มข้อมูลเกิดขึ้นในการแพร่กระจายแทนเจนต์ซึ่งนำเสนอเทคนิคเพื่อสร้างแบบจำลองที่เรียนรู้ที่ไม่เปลี่ยนแปลงด้วยความเคารพต่อการเปลี่ยนแปลงของข้อมูล

ความสำเร็จในช่วงต้นในการเสริมเช่น Alexnet มุ่งเน้นไปที่การกระตุ้นค่าคงที่ในตัวจําแนกภาพโดยการสร้างตัวอย่างที่สนับสนุนการแปลหรือการหมุน ความสำเร็จเหล่านี้ทำให้การเสริมเป็นส่วนหนึ่งของท่อสำหรับงานที่หลากหลายเช่นภาพการจำแนกและการจำแนกประเภทข้อความการแปลเครื่อง ฯลฯ

ทางเลือกของการเปลี่ยนแปลงที่ใช้ในการเสริมเป็นข้อพิจารณาที่สำคัญเนื่องจากมันเป็นตัวกำหนดค่าคงที่ที่เรียนรู้จากแบบจำลองและพฤติกรรมของมันเมื่อพบความหลากหลายของตัวอย่างการทดสอบ ในขณะที่การเสริมฮิวริสติกยังคงเป็นที่นิยม แต่ก็เป็นสิ่งสำคัญที่จะสามารถควบคุมและตั้งโปรแกรมการเพิ่มท่อส่งได้อย่างระมัดระวังมากขึ้น Tanda เริ่มต้นการศึกษาปัญหาการเขียนโปรแกรมเพิ่มท่อโดยการเลือกการเลือกการแปลงข้อมูล พื้นที่นี้ได้เห็นการเติบโตอย่างรวดเร็วด้วยความเข้าใจทางทฤษฎีที่ลึกซึ้งยิ่งขึ้นและการใช้งานจริงเช่น autoaugment สายงานที่เพิ่งตั้งขึ้นใหม่ได้ใช้ประโยชน์จากแบบจำลองการกำเนิดแบบมีเงื่อนไขเพื่อเรียนรู้-ย้ายมากกว่าที่ระบุ-การเปลี่ยนแปลงเหล่านี้ขยายกระบวนทัศน์การเขียนโปรแกรมนี้ต่อไป

การดูแลตนเอง

หน้าพื้นที่การดูแลตนเอง

ความต้องการชุดข้อมูลขนาดใหญ่ที่มีป้ายกำกับมีวิธีการกระตุ้นให้เกิดการเป็นตัวแทนแฝงของพื้นที่อินพุตล่วงหน้าโดยใช้ข้อมูลที่ไม่มีป้ายกำกับและใช้การเป็นตัวแทนที่มีความรู้มากมายในงานดาวน์สตรีม เนื่องจากการเป็นตัวแทนอนุญาตให้ถ่ายโอนความรู้ไปยังงานดาวน์สตรีมงานเหล่านี้ต้องการข้อมูลที่มีป้ายกำกับน้อยกว่า กระบวนทัศน์นี้เรียกว่า "การดูแลตนเอง" ได้ปฏิวัติวิธีการฝึกอบรม (และรถไฟก่อน) แบบจำลองเหล่านี้ซึ่งเพิ่งเรียกว่า "โมเดลพื้นฐาน" โดยโครงการริเริ่มของสแตนฟอร์ดเกี่ยวกับการทำความเข้าใจระบบนิเวศที่ดูแลตนเองได้เปลี่ยนโฟกัสออกจากข้อมูลที่มีป้ายกำกับด้วยมือเพื่อทำความเข้าใจว่าข้อมูลใดที่ป้อนเข้ากับโมเดลเหล่านี้

เนื่องจากข้อมูลที่ดูแลตนเองมักจะถูกรวบรวมจากแหล่งข้อมูลสาธารณะขนาดใหญ่ (เช่น Wikipedia) มันสามารถมีอคติความนิยมที่หางยาวของสิ่งที่หายากไม่ได้แสดงในข้อมูลการฝึกอบรม เป็น orr et. อัล แสดงโมเดลยอดนิยมบางรุ่น (เช่นเบิร์ต) พึ่งพาการท่องจำบริบทและดิ้นรนเพื่อแก้ไขหางยาวนี้เนื่องจากพวกเขาไม่สามารถมองเห็นสิ่งที่หายากพอเวลาพอที่จะจดจำรูปแบบที่หลากหลายที่เกี่ยวข้อง ปัญหาหางยาวแม้จะแพร่กระจายไปยังงานดาวน์สตรีมเช่นงานดึงจากอำพัน ทิศทางในอนาคตที่น่าตื่นเต้นอย่างหนึ่งที่อยู่ที่จุดตัดของ AI และการวิจัยเป็นเวลาหลายปีจากชุมชนการจัดการข้อมูลเพื่อจัดการกับหางยาวคือการรวมความรู้ที่มีโครงสร้างเข้ากับโมเดล ความรู้ที่มีโครงสร้างเป็นแนวคิดหลักที่อยู่เบื้องหลังความสำเร็จของหางของ Bootleg ซึ่งเป็นระบบสำหรับความไม่ลงรอยกันของเอนทิตีที่มีชื่อ

จุดสิ้นสุดของ modelitis

ส่วนท้ายของหน้า Modelitis Area

ในอดีตช่วงเวลา "Kid in a Candy Shop" สำหรับนักวิจัย ML กำลังสร้างและปรับแต่งโมเดลโดยใช้เครื่องมือเช่น Pytorch หรือ Jax โมเดลใหม่ออกมาในแต่ละวันและสถาปัตยกรรมโมเดลที่ปรับแต่งเหล่านี้และพารามิเตอร์ที่ปรับแต่งอย่างประณีตได้รับผลลัพธ์ที่ทันสมัย อย่างไรก็ตามความบ้าคลั่งของโมเดลอักเสบนี้กำลังจะสิ้นสุดลง

เมื่อเร็ว ๆ นี้นักวิจัยได้ตระหนักถึงสองสิ่ง: (1) กำไรเพิ่มขึ้นมาจากการทำความเข้าใจข้อมูลอย่างลึกซึ้งมากกว่าการปรับแต่งแบบจำลอง (ดูงานที่น่าตื่นเต้นทั้งหมดในการเพิ่มข้อมูล) และ (2) แบบจำลองที่กำหนดเองนั้นยากที่จะรักษาและขยายในการผลิต สิ่งแวดล้อม. สิ่งนี้ส่งผลให้แพลตฟอร์มการสร้างแบบจำลองเช่น Ludwig และ Overton ที่บังคับใช้สถาปัตยกรรมสินค้าโภคภัณฑ์และย้ายไปยังระบบ ML ที่สามารถสร้างได้อย่างชัดเจน Molino และRé 2021 และพวกเขาแสดงให้เห็นว่าโมเดล Commoditiy เหล่านี้ดีกว่ารุ่นก่อนที่ได้รับการปรับ! ผลลัพธ์นี้ได้รับการสนับสนุนเพิ่มเติมโดย Kaplan และคณะซึ่งแสดงให้เห็นว่าสถาปัตยกรรมมีความสำคัญน้อยกว่าข้อมูล

แนวโน้มนี้ซึ่งเรากำลังเรียกว่าจุดสิ้นสุดของ Modelitis กำลังก้าวไปสู่มุมมองข้อมูลเป็นศูนย์กลางของการสร้างแบบจำลอง คำถามเปลี่ยนจาก“ วิธีการสร้างโมเดลที่ดีที่สุด” เป็น“ คุณป้อนแบบจำลองอย่างไร”

การประเมิน

หน้าการประเมินผล

การประเมินแบบจำลองเป็นส่วนสำคัญของกระบวนการพัฒนาแบบจำลองในการเรียนรู้ของเครื่อง เป้าหมายของการประเมินคือการเข้าใจคุณภาพของแบบจำลองและคาดการณ์ว่าจะทำงานได้ดีในอนาคตหรือไม่

ในขณะที่การประเมินผลเป็นปัญหาแบบคลาสสิกในการเรียนรู้ของเครื่อง แต่วิธีการ AI ที่เน้นข้อมูลเป็นศูนย์กลางได้เร่งการเปลี่ยนแปลงไปสู่ การประเมินผลอย่างละเอียด : การก้าวไปไกลกว่ามาตรการมาตรฐานของประสิทธิภาพเฉลี่ยเช่นความแม่นยำและคะแนน F1 เพื่อวัดประสิทธิภาพของประชากรที่น่าสนใจ สิ่งนี้ช่วยให้ความเข้าใจที่ละเอียดยิ่งขึ้นเกี่ยวกับประสิทธิภาพของโมเดลและช่วยให้ผู้ใช้มีความคิดที่ชัดเจนยิ่งขึ้นเกี่ยวกับความสามารถของแบบจำลอง การเปลี่ยนแปลงนี้เป็นส่วนเสริมของความสนใจที่เพิ่มขึ้นในการทำความเข้าใจความทนทานของแบบจำลองเนื่องจากการเข้าถึงการประเมินผลอย่างละเอียดช่วยให้สามารถเพิ่มความสามารถในการสร้างแบบจำลองที่แข็งแกร่งมากขึ้น

วิธีการประเมินผลอย่างละเอียดรวมถึงการวัดประสิทธิภาพในชุดย่อยข้อมูลที่สำคัญที่เรียกว่าชิ้นความแปรปรวนหรือความไวต่อการแปลงข้อมูลและความต้านทานต่อการก่อกวนของฝ่ายตรงข้าม ในขณะที่การประเมินส่วนใหญ่คือการระบุผู้ใช้สายงานสำคัญพบว่าแบบจำลองมักจะมีประสิทธิภาพต่ำกว่า ชั้นที่ซ่อน อยู่ซึ่งผู้สร้างแบบจำลองในการประเมินผลซึ่งอาจมีผลกระทบอย่างลึกซึ้งต่อความสามารถในการปรับใช้และใช้แบบจำลอง สิ่งนี้กระตุ้นให้เกิดการทำงานในอนาคตในการค้นพบชั้นที่ซ่อนอยู่เหล่านี้โดยอัตโนมัติหรือโดยทั่วไปการค้นหาโหมดความล้มเหลวที่เป็นไปได้ทั้งหมดของแบบจำลองโดยการวิเคราะห์ชุดข้อมูลและโมเดลอย่างเป็นระบบร่วมกัน

อีกแง่มุมที่สำคัญของการประเมินผลที่ละเอียดคือการตรวจสอบข้อมูลและแบบจำลองเพื่อคาดการณ์วัดและลดการเสื่อมสภาพของประสิทธิภาพเนื่องจากการเปลี่ยนแปลงการกระจาย ซึ่งรวมถึงการระบุและแยกจุดข้อมูลที่อาจถือว่าเป็นค่าผิดปกติการประมาณประสิทธิภาพของข้อมูลที่ไม่มีป้ายกำกับที่สตรีมมิ่งไปยังโมเดลที่ปรับใช้และสร้างบทสรุปที่หลากหลายว่าการกระจายข้อมูลอาจเปลี่ยนไปอย่างไรเมื่อเวลาผ่านไป

ความทนทาน

หน้าพื้นที่ความทนทาน

ข้อสันนิษฐานมาตรฐานอย่างหนึ่งสำหรับการปรับใช้รูปแบบการเรียนรู้ของเครื่องได้สำเร็จคือการแจกแจงเวลาทดสอบนั้นคล้ายกับที่พบและเป็นตัวแทนในระหว่างการฝึกอบรม อย่างไรก็ตามในความเป็นจริงสมมติฐานนี้ไม่ค่อยถือ: เราไม่ค่อยคาดหวังว่าจะปรับใช้โมเดลในการตั้งค่าที่ตรงกับการแจกแจงการฝึกอบรมของพวกเขา รูปแบบการฝึกอบรมที่แข็งแกร่งในการเปลี่ยนการกระจายเป็นความท้าทายหลักอีกประการหนึ่งในการปรับปรุงการเรียนรู้ของเครื่องจักรในป่าซึ่งเรายืนยันว่าสามารถแก้ไขได้ภายใต้กระบวนทัศน์ที่เน้นข้อมูลเป็นศูนย์กลาง

ที่นี่เราจัดหมวดหมู่ความพยายามในการปรับปรุงความทนทานต่อการกระจายการเปลี่ยนแปลงเป็นที่อยู่ (1) การเปลี่ยนแปลงของประชากรย่อยหรือการแบ่งชั้นที่ซ่อนอยู่ (2) การเปลี่ยนแปลงของโดเมนและ (3) เปลี่ยนจากการก่อกวนที่ไม่พอใจ

ภายใต้การเปลี่ยนแปลงของประชากรย่อยการฝึกอบรมและการแจกแจงเวลาทดสอบแตกต่างกันไปในการแสดงถึงประชากรย่อยหรือ“ กลุ่มข้อมูล” ที่ดีเพียงใด หากประชากรย่อยบางส่วนมีบทบาทสำคัญในการฝึกอบรมแม้ว่าการแจกแจงเหล่านี้จะถูกพบในระหว่างการฝึกอบรมการลดความเสี่ยงเชิงประจักษ์ (ERM) และ“ การเรียนรู้จากค่าเฉลี่ยทางสถิติ” สามารถส่งผลให้แบบจำลองที่ทำงานได้ดีในกลุ่มย่อย

ปัญหาในโลกแห่งความเป็นจริงครั้งแรกภายใต้การเปลี่ยนแปลงของประชากรย่อยมาพร้อมกับรูปแบบการฝึกอบรมในชุดข้อมูลที่แสดงความสัมพันธ์ปลอม หากกลุ่มส่วนใหญ่แสดงความสัมพันธ์ระหว่างคุณลักษณะบางอย่างและเป้าหมายที่น่าสนใจ แต่การพึ่งพาเหล่านี้ไม่ได้เก็บข้อมูลทั้งหมดโมเดลอาจเรียนรู้การพึ่งพาที่ไม่เป็นไปได้โดยอาศัยความสัมพันธ์ "ปลอม" เหล่านี้ หากกลุ่มเหล่านี้เป็นที่รู้จักกลุ่ม DRO สามารถป้องกันสิ่งนี้ได้โดยการมุ่งเน้นการเพิ่มประสิทธิภาพในข้อผิดพลาดของกลุ่มที่เลวร้ายที่สุด
การสร้างอินสแตนซ์อีกครั้งมาจากการแบ่งชั้นที่ซ่อนอยู่ซึ่ง Datapoints เป็นของคลาสที่มีป้ายกำกับเดียวกันอาจแตกต่างกันไปในการแจกแจงคุณสมบัติของพวกเขาค่อนข้างน้อย กับจอร์จเราได้เรียนรู้ว่าแม้จะไม่สามารถสรุปข้อมูลที่มองไม่เห็นภายใต้ทุกกลุ่ม แต่เครือข่ายประสาทลึกที่ได้รับการฝึกฝนด้วย ERM สามารถเรียนรู้การเป็นตัวแทนที่แยกได้สำหรับกลุ่มต่าง ๆ ที่ใช้ป้ายกำกับเดียวกัน

ทั้งกลุ่ม Dro และ George แนะนำวิธีการจัดการการเปลี่ยนแปลงของประชากรย่อยภายใต้การสร้างอินสแตนซ์ในโลกแห่งความเป็นจริง วิธีการเหล่านี้เป็นแรงบันดาลใจให้กับงานเพิ่มเติมที่เกี่ยวข้องกับการสุ่มตัวอย่างกลุ่มโดยประมาณ (LFF, JTT) และการใช้การเรียนรู้แบบตรงกันข้ามเพื่อเรียนรู้การเป็นตัวแทนกลุ่ม (CNC - ลิงค์เร็ว ๆ นี้)

นอกเหนือจากการเปลี่ยนแปลงของประชากรย่อยแล้วความทนทานยังมีการเปลี่ยนแปลงของโดเมนและการก่อกวนของฝ่ายตรงข้าม ภายใต้การเปลี่ยนแปลงของโดเมนเราจำลองข้อมูลเวลาทดสอบที่มาจากโดเมนที่แตกต่างอย่างสิ้นเชิงจากข้อมูลการฝึกอบรม ภายใต้การเปลี่ยนการกระจายด้วยการก่อกวนของฝ่ายตรงข้ามข้อมูลเวลาทดสอบอาจแสดงการทุจริตหรือความแตกต่างที่มองไม่เห็นในพื้นที่คุณสมบัติการป้อนข้อมูลที่ป้องกันไม่ให้แบบจำลอง ERM ที่ผ่านการฝึกอบรมจากการทั่วไปไปสู่การแจกแจงเวลาทดสอบอย่างมาก ส่วนที่สำคัญเหล่านี้ยังคงเป็นสตับ กรุณาเพิ่มผลงานของคุณ!

การทำความสะอาดข้อมูล

หน้าพื้นที่ทำความสะอาดข้อมูล

อีกวิธีหนึ่งในการปรับปรุงคุณภาพข้อมูลสำหรับแอปพลิเคชัน ML/AI คือการทำความสะอาดข้อมูล มีงานที่น่าตื่นเต้นที่หลากหลายในสายนี้เพื่อทำความเข้าใจการทำความสะอาดข้อมูลและการเรียนรู้ของเครื่อง

Mlops

หน้าพื้นที่ Mlops

บทบาทสำคัญของข้อมูลทำให้การพัฒนาและการปรับใช้แอพพลิเคชั่น ML/AI เป็นกระบวนการของมนุษย์ในวง นี่เป็นกระบวนการที่ซับซ้อนซึ่งวิศวกรมนุษย์อาจทำผิดพลาดต้องการคำแนะนำหรือต้องได้รับการเตือนเมื่อมีสิ่งที่ไม่คาดคิดเกิดขึ้น เป้าหมายของ MLOPS คือการจัดหาวิธีการหลักการสำหรับการจัดการวงจรชีวิตการตรวจสอบและการตรวจสอบ

นักวิจัยได้เริ่มจัดการกับความท้าทายเหล่านี้โดยการพัฒนาเทคนิคใหม่ ๆ และระบบการสร้างเช่น TFX, Ease.ml หรือ Overton ที่ออกแบบมาเพื่อจัดการวงจรชีวิตทั้งหมดของรูปแบบการเรียนรู้ของเครื่องจักรทั้งในระหว่างการพัฒนาและในการผลิต ระบบเหล่านี้มักจะประกอบด้วยส่วนประกอบที่แตกต่างกันในการจัดการขั้นตอนเฉพาะ (เช่นก่อนหรือหลังการฝึกอบรม) หรือแง่มุม (เช่นการตรวจสอบหรือการดีบัก) ของ MLOPS

การเลือกข้อมูล

หน้าพื้นที่เลือกข้อมูล

ข้อมูลจำนวนมากทำให้ความสำเร็จหลายอย่างของการเรียนรู้อย่างลึกซึ้ง แต่ข้อมูลขนาดใหญ่นี้นำมาซึ่งปัญหาของตัวเอง การทำงานกับชุดข้อมูลขนาดใหญ่นั้นยุ่งยากและมีราคาแพงทั้งในแง่ของทรัพยากรการคำนวณและการติดฉลาก วิธีการเลือกข้อมูลเช่นการเรียนรู้ที่ใช้งานและการเลือกชุดแกนสามารถลดความเจ็บปวดของข้อมูลขนาดใหญ่ได้โดยเลือกตัวอย่างที่มีค่าที่สุดในการติดฉลากหรือฝึกอบรม

ในขณะที่การเลือกข้อมูลเป็นพื้นที่ที่ยาวนานใน AI/ML ขนาดและความเบ้ของชุดข้อมูลอุตสาหกรรมที่ทันสมัยได้ผลักดันฟิลด์ให้มีค่าข้อมูลที่แม่นยำยิ่งขึ้นและปรับปรุงความสามารถในการปรับขนาดของวิธีการเลือก ผลงานล่าสุดเช่น (Sener & Savarese และ Ghorbani et al.) ใช้วิธีการที่เน้นข้อมูลเป็นศูนย์กลางมากขึ้นในการหาปริมาณการมีส่วนร่วมของตัวอย่างการฝึกอบรมแต่ละครั้งโดยมุ่งเน้นไปที่ความหลากหลายและการเป็นตัวแทนมากกว่าที่จะพึ่งพาความไม่แน่นอนของแบบจำลองเท่านั้น เพื่อช่วยให้วิธีการเหล่านี้ปรับขนาดวิธีการเช่น SVP และซีลนำเสนอวิธีที่ตรงไปตรงมาเพื่อลดต้นทุนการคำนวณได้มากถึงสามคำสั่งของขนาดทำให้การเรียนรู้ที่ใช้งานอยู่บนเว็บและการเลือกข้อมูลในวงกว้างมากขึ้น

ความก้าวหน้าเหล่านี้ในฉลากและประสิทธิภาพการคำนวณทำให้การเลือกข้อมูลใช้กับชุดข้อมูลที่ทันสมัยทำให้ AI/ML สามารถใช้มุมมองที่เน้นข้อมูลเป็นศูนย์กลางมากขึ้นซึ่งมุ่งเน้นไปที่คุณภาพมากกว่าปริมาณ

ข้อมูลความเป็นส่วนตัว (กำลังก่อสร้าง)

หน้าพื้นที่ข้อมูลความเป็นส่วนตัว

คำอธิบายนี้เป็นต้นขั้วคุณสามารถช่วยได้โดยการปรับปรุง

การไหลของข้อมูล (ระหว่างการก่อสร้าง)

หน้าพื้นที่การไหลของข้อมูล

บริเวณนี้เป็นต้นขั้วคุณสามารถช่วยได้โดยการปรับปรุง

การเรียนรู้แบบหลายงานและหลายโดเมน (กำลังก่อสร้าง)

หน้าการเรียนรู้แบบหลายงานและหลายโดเมน

บริเวณนี้เป็นต้นขั้วคุณสามารถช่วยได้โดยการปรับปรุง

แนวโน้มที่เกิดขึ้นใหม่

หน้าแนวโน้มที่เกิดขึ้นใหม่

AI ที่เน้นข้อมูลเป็นศูนย์กลางยังคงเติบโตและเราต้องการจับแนวโน้มที่เกิดขึ้นใหม่ตามที่เกิดขึ้น บางพื้นที่ใหม่ที่เราคิดว่ากำลังก่อตัวเกี่ยวข้องกับการเรียนรู้ของเครื่องจักรแบบโต้ตอบแบบจำลอง Massice Scale และ Observational ML ดูหน้าพื้นที่

แอปพลิเคชัน

หน้าแอปพลิเคชัน

วิธีการที่เน้นข้อมูลเป็นศูนย์กลางมีผลกระทบที่หลากหลายไม่ว่าจะใช้การเรียนรู้ของเครื่องจักรและนำไปใช้งานไม่ว่าจะเป็นในสถาบันการศึกษาอุตสาหกรรมหรือองค์กรอื่น ๆ ผลกระทบมีช่วงการใช้งานเช่นข้อมูลที่มีโครงสร้างข้อความรูปภาพวิดีโอกราฟและอื่น ๆ ในขณะที่พื้นที่รวมถึงการประมวลผลข้อความและภาพการถ่ายภาพทางการแพทย์ชีววิทยาการคำนวณการขับขี่แบบอิสระ ฯลฯ

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-02-24
ขนาด 683.73KB
มาจาก Github

แอปที่เกี่ยวข้อง

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

ซอร์สโค้ดอื่น ๆ

1.0.0
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

ซอร์สโค้ดอื่น ๆ

1.0.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด

data centric ai

AI ข้อมูลเป็นศูนย์กลาง

ฉันจะช่วยได้อย่างไร?

ข้อเสนอแนะ (สนใจในชั้นเรียน?)

การบริจาค

สารบัญ

พื้นหลัง

การเขียนโปรแกรมข้อมูลและการกำกับดูแลที่อ่อนแอ

การเพิ่มข้อมูล

การดูแลตนเอง

จุดสิ้นสุดของ modelitis

การประเมิน

ความทนทาน

การทำความสะอาดข้อมูล

Mlops

การเลือกข้อมูล

ข้อมูลความเป็นส่วนตัว (กำลังก่อสร้าง)

การไหลของข้อมูล (ระหว่างการก่อสร้าง)

การเรียนรู้แบบหลายงานและหลายโดเมน (กำลังก่อสร้าง)

แนวโน้มที่เกิดขึ้นใหม่

แอปพลิเคชัน

MMEarth data

Contoso Data Generator V2

EMIT Data Resources

data pump log analyzer

การทำเหมืองข้อมูลทางชีวภาพ

การกู้คืนข้อมูลอัจฉริยะ

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf