
เรากำลังรวบรวมรายการทรัพยากรและความคืบหน้าใน AI ที่เน้นข้อมูลเป็นศูนย์กลางโดยมีทิศทางที่น่าตื่นเต้นในอดีตปัจจุบันและอนาคต บล็อกนี้พูดถึงการเดินทางของเราไปยัง AI ที่เน้นข้อมูลเป็นศูนย์กลางและเราแสดงให้เห็นว่าทำไมเราถึงตื่นเต้นกับข้อมูลเป็นมุมมองสำหรับ AI ในบล็อกนี้
ในขณะที่ AI ได้ให้ความสำคัญกับแบบจำลอง แต่ประสบการณ์ในโลกแห่งความเป็นจริงของผู้ที่นำแบบจำลองมาใช้ในการผลิตคือข้อมูลมักจะมีความสำคัญมากกว่า เป้าหมายของที่เก็บนี้คือการรวมประสบการณ์นี้ไว้ในที่เดียวที่ทุกคนที่ต้องการเข้าใจและมีส่วนร่วมในพื้นที่นี้
เราเป็นเพียงจุดเริ่มต้นเท่านั้นและคุณสามารถช่วยได้โดยมีส่วนร่วมใน GitHub นี้! ขอบคุณทุกคนที่มีส่วนร่วมจนถึงตอนนี้
หากคุณสนใจในพื้นที่นี้และต้องการรับฟังเพิ่มเติมเข้าร่วมรายชื่อผู้รับจดหมายของเรา! เราขอขอบคุณหากคุณสามารถกรอกแบบฟอร์มสั้น ๆ นี้เพื่อช่วยให้เราเข้าใจได้ดีขึ้นว่าคุณสนใจอะไร
เรากำลังสร้างชั้นเรียนที่ Stanford เกี่ยวกับข้อมูล AI ที่เน้นข้อมูลเป็นศูนย์กลางและเราชอบความคิดเห็นของคุณ หากคุณสนใจที่จะเรียนรู้เพิ่มเติมโปรดกรอกแบบฟอร์มนี้
หากคุณมีแนวคิดเกี่ยวกับวิธีที่เราสามารถทำให้พื้นที่เก็บข้อมูลนี้ดีขึ้นโปรดส่งปัญหาพร้อมคำแนะนำ
เราต้องการให้ทรัพยากรนี้เติบโตขึ้นพร้อมกับการมีส่วนร่วมจากผู้อ่านและผู้ที่ชื่นชอบข้อมูล หากคุณต้องการบริจาคให้กับพื้นที่เก็บข้อมูลของ GitHub นี้โปรดอ่านแนวทางการสนับสนุนของเรา
พื้นหลัง
บริเวณนี้เป็นต้นขั้วคุณสามารถช่วยได้โดยการปรับปรุง
มีความตื่นเต้นมากมายเกี่ยวกับการทำความเข้าใจวิธีการเรียนรู้ของเครื่องเพื่อทำงานในกรณีการใช้งานจริง AI ที่เน้นข้อมูลเป็นศูนย์กลางรวบรวมมุมมองเฉพาะเกี่ยวกับความคืบหน้านี้สามารถเกิดขึ้นได้: โดยมุ่งเน้นไปที่การทำให้ผู้ปฏิบัติงานเข้าใจโปรแกรมและวนซ้ำในชุดข้อมูลได้ง่ายขึ้นแทนที่จะใช้เวลากับโมเดล
การเขียนโปรแกรมข้อมูลและพื้นที่การกำกับดูแลที่อ่อนแอ
ระบบการเรียนรู้ของเครื่องจักรที่ทันสมัยหลายแห่งต้องการชุดข้อมูลขนาดใหญ่ที่มีป้ายกำกับให้ประสบความสำเร็จ แต่การผลิตชุดข้อมูลดังกล่าวใช้เวลานานและมีราคาแพง แต่แหล่งที่มาของการกำกับดูแลที่อ่อนแอกว่าเช่น crowdsourcing การกำกับดูแลที่อยู่ห่างไกลและฮิวริสติกของผู้เชี่ยวชาญด้านโดเมนเช่นรูปแบบ Hearst ได้ถูกนำมาใช้มาตั้งแต่ยุค 90
อย่างไรก็ตามสิ่งเหล่านี้ส่วนใหญ่ได้รับการยกย่องจากกลุ่ม AI และ AI/ML เป็นเทคนิคเฉพาะกิจหรือเทคนิคที่แยกได้ ความพยายามในการรวมและรวมสิ่งเหล่านี้เข้ากับมุมมองศูนย์ข้อมูลเริ่มต้นอย่างจริงจังด้วยการเขียนโปรแกรมข้อมูล AKA การติดฉลากเป็นโปรแกรมซึ่งเป็นตัวเป็นตนในการดำน้ำตอนนี้เป็นโครงการโอเพนซอร์ซและ บริษัท ที่เจริญรุ่งเรือง ในวิธีการข้อมูล AI ที่เน้นข้อมูลของ Snorkel ผู้ใช้ระบุฟังก์ชั่นการติดฉลากหลายรายการซึ่งแต่ละรายการแสดงถึงการประมาณการที่มีเสียงดังของฉลากความจริงพื้นดิน เนื่องจากฟังก์ชั่นการติดฉลากเหล่านี้แตกต่างกันไปตามความแม่นยำและความครอบคลุมของชุดข้อมูลและอาจมีความสัมพันธ์กันจึงถูกรวมเข้าด้วยกันและ denoised ผ่านแบบจำลองกราฟิกตัวแปรแฝง ความท้าทายทางเทคนิคคือการเรียนรู้ความถูกต้องและพารามิเตอร์สหสัมพันธ์ในรุ่นนี้และใช้เพื่ออนุมานฉลากที่แท้จริงที่จะใช้สำหรับงานดาวน์สตรีม
การเขียนโปรแกรมข้อมูลสร้างขึ้นบนสายงานที่ยาวนานในการประมาณค่าพารามิเตอร์ในแบบจำลองกราฟิกตัวแปรแฝง คอนกรีตแบบจำลองการกำเนิดสำหรับการกระจายร่วมของฟังก์ชั่นการติดฉลากและฉลากจริงที่ไม่ได้ตรวจสอบ (แฝง) ได้เรียนรู้ รูปแบบฉลากนี้อนุญาตให้มีการรวมแหล่งที่มาของสัญญาณที่หลากหลายในขณะที่ช่วยให้พวกเขามีความแม่นยำที่แตกต่างกันและความสัมพันธ์ที่อาจเกิดขึ้น
โพสต์บล็อกดำน้ำนี้มีภาพรวมของการกำกับดูแลที่อ่อนแอรวมถึงวิธีการเปรียบเทียบกับวิธีการอื่น ๆ เพื่อรับข้อมูลที่มีป้ายกำกับมากขึ้นและความท้าทายในการสร้างแบบจำลองทางเทคนิค บันทึกการบรรยายของ Stanford CS229 เหล่านี้ให้บทสรุปทางทฤษฎีเกี่ยวกับวิธีการใช้แบบจำลองกราฟิกในการกำกับดูแลที่อ่อนแอ
หน้าพื้นที่เพิ่มข้อมูล
ความท้าทายที่สำคัญเมื่อรูปแบบการเรียนรู้ของเครื่องฝึกอบรมคือการรวบรวมชุดข้อมูลขนาดใหญ่และหลากหลายที่จับความแปรปรวนที่สังเกตได้ในโลกแห่งความเป็นจริงอย่างเพียงพอ เนื่องจากค่าใช้จ่ายในการรวบรวมและการติดฉลากชุดข้อมูลการเพิ่มข้อมูลจึงกลายเป็นทางเลือกราคาถูกและมีแนวโน้ม
แนวคิดหลักในการเพิ่มข้อมูลคือการแปลงตัวอย่างในชุดข้อมูลที่มีอยู่เพื่อสร้างตัวอย่างเพิ่มเติมเพิ่มเติมที่สามารถเพิ่มลงในชุดข้อมูลได้ ตัวอย่างเพิ่มเติมเหล่านี้มักจะเพิ่มความหลากหลายของข้อมูลที่เห็นโดยแบบจำลองและให้การดูแลเพิ่มเติมกับโมเดล รากฐานของการเพิ่มข้อมูลเกิดขึ้นในการแพร่กระจายแทนเจนต์ซึ่งนำเสนอเทคนิคเพื่อสร้างแบบจำลองที่เรียนรู้ที่ไม่เปลี่ยนแปลงด้วยความเคารพต่อการเปลี่ยนแปลงของข้อมูล
ความสำเร็จในช่วงต้นในการเสริมเช่น Alexnet มุ่งเน้นไปที่การกระตุ้นค่าคงที่ในตัวจําแนกภาพโดยการสร้างตัวอย่างที่สนับสนุนการแปลหรือการหมุน ความสำเร็จเหล่านี้ทำให้การเสริมเป็นส่วนหนึ่งของท่อสำหรับงานที่หลากหลายเช่นภาพการจำแนกและการจำแนกประเภทข้อความการแปลเครื่อง ฯลฯ
ทางเลือกของการเปลี่ยนแปลงที่ใช้ในการเสริมเป็นข้อพิจารณาที่สำคัญเนื่องจากมันเป็นตัวกำหนดค่าคงที่ที่เรียนรู้จากแบบจำลองและพฤติกรรมของมันเมื่อพบความหลากหลายของตัวอย่างการทดสอบ ในขณะที่การเสริมฮิวริสติกยังคงเป็นที่นิยม แต่ก็เป็นสิ่งสำคัญที่จะสามารถควบคุมและตั้งโปรแกรมการเพิ่มท่อส่งได้อย่างระมัดระวังมากขึ้น Tanda เริ่มต้นการศึกษาปัญหาการเขียนโปรแกรมเพิ่มท่อโดยการเลือกการเลือกการแปลงข้อมูล พื้นที่นี้ได้เห็นการเติบโตอย่างรวดเร็วด้วยความเข้าใจทางทฤษฎีที่ลึกซึ้งยิ่งขึ้นและการใช้งานจริงเช่น autoaugment สายงานที่เพิ่งตั้งขึ้นใหม่ได้ใช้ประโยชน์จากแบบจำลองการกำเนิดแบบมีเงื่อนไขเพื่อเรียนรู้-ย้ายมากกว่าที่ระบุ-การเปลี่ยนแปลงเหล่านี้ขยายกระบวนทัศน์การเขียนโปรแกรมนี้ต่อไป
หน้าพื้นที่การดูแลตนเอง
ความต้องการชุดข้อมูลขนาดใหญ่ที่มีป้ายกำกับมีวิธีการกระตุ้นให้เกิดการเป็นตัวแทนแฝงของพื้นที่อินพุตล่วงหน้าโดยใช้ข้อมูลที่ไม่มีป้ายกำกับและใช้การเป็นตัวแทนที่มีความรู้มากมายในงานดาวน์สตรีม เนื่องจากการเป็นตัวแทนอนุญาตให้ถ่ายโอนความรู้ไปยังงานดาวน์สตรีมงานเหล่านี้ต้องการข้อมูลที่มีป้ายกำกับน้อยกว่า กระบวนทัศน์นี้เรียกว่า "การดูแลตนเอง" ได้ปฏิวัติวิธีการฝึกอบรม (และรถไฟก่อน) แบบจำลองเหล่านี้ซึ่งเพิ่งเรียกว่า "โมเดลพื้นฐาน" โดยโครงการริเริ่มของสแตนฟอร์ดเกี่ยวกับการทำความเข้าใจระบบนิเวศที่ดูแลตนเองได้เปลี่ยนโฟกัสออกจากข้อมูลที่มีป้ายกำกับด้วยมือเพื่อทำความเข้าใจว่าข้อมูลใดที่ป้อนเข้ากับโมเดลเหล่านี้
เนื่องจากข้อมูลที่ดูแลตนเองมักจะถูกรวบรวมจากแหล่งข้อมูลสาธารณะขนาดใหญ่ (เช่น Wikipedia) มันสามารถมีอคติความนิยมที่หางยาวของสิ่งที่หายากไม่ได้แสดงในข้อมูลการฝึกอบรม เป็น orr et. อัล แสดงโมเดลยอดนิยมบางรุ่น (เช่นเบิร์ต) พึ่งพาการท่องจำบริบทและดิ้นรนเพื่อแก้ไขหางยาวนี้เนื่องจากพวกเขาไม่สามารถมองเห็นสิ่งที่หายากพอเวลาพอที่จะจดจำรูปแบบที่หลากหลายที่เกี่ยวข้อง ปัญหาหางยาวแม้จะแพร่กระจายไปยังงานดาวน์สตรีมเช่นงานดึงจากอำพัน ทิศทางในอนาคตที่น่าตื่นเต้นอย่างหนึ่งที่อยู่ที่จุดตัดของ AI และการวิจัยเป็นเวลาหลายปีจากชุมชนการจัดการข้อมูลเพื่อจัดการกับหางยาวคือการรวมความรู้ที่มีโครงสร้างเข้ากับโมเดล ความรู้ที่มีโครงสร้างเป็นแนวคิดหลักที่อยู่เบื้องหลังความสำเร็จของหางของ Bootleg ซึ่งเป็นระบบสำหรับความไม่ลงรอยกันของเอนทิตีที่มีชื่อ
ส่วนท้ายของหน้า Modelitis Area
ในอดีตช่วงเวลา "Kid in a Candy Shop" สำหรับนักวิจัย ML กำลังสร้างและปรับแต่งโมเดลโดยใช้เครื่องมือเช่น Pytorch หรือ Jax โมเดลใหม่ออกมาในแต่ละวันและสถาปัตยกรรมโมเดลที่ปรับแต่งเหล่านี้และพารามิเตอร์ที่ปรับแต่งอย่างประณีตได้รับผลลัพธ์ที่ทันสมัย อย่างไรก็ตามความบ้าคลั่งของโมเดลอักเสบนี้กำลังจะสิ้นสุดลง
เมื่อเร็ว ๆ นี้นักวิจัยได้ตระหนักถึงสองสิ่ง: (1) กำไรเพิ่มขึ้นมาจากการทำความเข้าใจข้อมูลอย่างลึกซึ้งมากกว่าการปรับแต่งแบบจำลอง (ดูงานที่น่าตื่นเต้นทั้งหมดในการเพิ่มข้อมูล) และ (2) แบบจำลองที่กำหนดเองนั้นยากที่จะรักษาและขยายในการผลิต สิ่งแวดล้อม. สิ่งนี้ส่งผลให้แพลตฟอร์มการสร้างแบบจำลองเช่น Ludwig และ Overton ที่บังคับใช้สถาปัตยกรรมสินค้าโภคภัณฑ์และย้ายไปยังระบบ ML ที่สามารถสร้างได้อย่างชัดเจน Molino และRé 2021 และพวกเขาแสดงให้เห็นว่าโมเดล Commoditiy เหล่านี้ดีกว่ารุ่นก่อนที่ได้รับการปรับ! ผลลัพธ์นี้ได้รับการสนับสนุนเพิ่มเติมโดย Kaplan และคณะซึ่งแสดงให้เห็นว่าสถาปัตยกรรมมีความสำคัญน้อยกว่าข้อมูล
แนวโน้มนี้ซึ่งเรากำลังเรียกว่าจุดสิ้นสุดของ Modelitis กำลังก้าวไปสู่มุมมองข้อมูลเป็นศูนย์กลางของการสร้างแบบจำลอง คำถามเปลี่ยนจาก“ วิธีการสร้างโมเดลที่ดีที่สุด” เป็น“ คุณป้อนแบบจำลองอย่างไร”
หน้าการประเมินผล
การประเมินแบบจำลองเป็นส่วนสำคัญของกระบวนการพัฒนาแบบจำลองในการเรียนรู้ของเครื่อง เป้าหมายของการประเมินคือการเข้าใจคุณภาพของแบบจำลองและคาดการณ์ว่าจะทำงานได้ดีในอนาคตหรือไม่
ในขณะที่การประเมินผลเป็นปัญหาแบบคลาสสิกในการเรียนรู้ของเครื่อง แต่วิธีการ AI ที่เน้นข้อมูลเป็นศูนย์กลางได้เร่งการเปลี่ยนแปลงไปสู่ การประเมินผลอย่างละเอียด : การก้าวไปไกลกว่ามาตรการมาตรฐานของประสิทธิภาพเฉลี่ยเช่นความแม่นยำและคะแนน F1 เพื่อวัดประสิทธิภาพของประชากรที่น่าสนใจ สิ่งนี้ช่วยให้ความเข้าใจที่ละเอียดยิ่งขึ้นเกี่ยวกับประสิทธิภาพของโมเดลและช่วยให้ผู้ใช้มีความคิดที่ชัดเจนยิ่งขึ้นเกี่ยวกับความสามารถของแบบจำลอง การเปลี่ยนแปลงนี้เป็นส่วนเสริมของความสนใจที่เพิ่มขึ้นในการทำความเข้าใจความทนทานของแบบจำลองเนื่องจากการเข้าถึงการประเมินผลอย่างละเอียดช่วยให้สามารถเพิ่มความสามารถในการสร้างแบบจำลองที่แข็งแกร่งมากขึ้น
วิธีการประเมินผลอย่างละเอียดรวมถึงการวัดประสิทธิภาพในชุดย่อยข้อมูลที่สำคัญที่เรียกว่าชิ้นความแปรปรวนหรือความไวต่อการแปลงข้อมูลและความต้านทานต่อการก่อกวนของฝ่ายตรงข้าม ในขณะที่การประเมินส่วนใหญ่คือการระบุผู้ใช้สายงานสำคัญพบว่าแบบจำลองมักจะมีประสิทธิภาพต่ำกว่า ชั้นที่ซ่อน อยู่ซึ่งผู้สร้างแบบจำลองในการประเมินผลซึ่งอาจมีผลกระทบอย่างลึกซึ้งต่อความสามารถในการปรับใช้และใช้แบบจำลอง สิ่งนี้กระตุ้นให้เกิดการทำงานในอนาคตในการค้นพบชั้นที่ซ่อนอยู่เหล่านี้โดยอัตโนมัติหรือโดยทั่วไปการค้นหาโหมดความล้มเหลวที่เป็นไปได้ทั้งหมดของแบบจำลองโดยการวิเคราะห์ชุดข้อมูลและโมเดลอย่างเป็นระบบร่วมกัน
อีกแง่มุมที่สำคัญของการประเมินผลที่ละเอียดคือการตรวจสอบข้อมูลและแบบจำลองเพื่อคาดการณ์วัดและลดการเสื่อมสภาพของประสิทธิภาพเนื่องจากการเปลี่ยนแปลงการกระจาย ซึ่งรวมถึงการระบุและแยกจุดข้อมูลที่อาจถือว่าเป็นค่าผิดปกติการประมาณประสิทธิภาพของข้อมูลที่ไม่มีป้ายกำกับที่สตรีมมิ่งไปยังโมเดลที่ปรับใช้และสร้างบทสรุปที่หลากหลายว่าการกระจายข้อมูลอาจเปลี่ยนไปอย่างไรเมื่อเวลาผ่านไป
หน้าพื้นที่ความทนทาน
ข้อสันนิษฐานมาตรฐานอย่างหนึ่งสำหรับการปรับใช้รูปแบบการเรียนรู้ของเครื่องได้สำเร็จคือการแจกแจงเวลาทดสอบนั้นคล้ายกับที่พบและเป็นตัวแทนในระหว่างการฝึกอบรม อย่างไรก็ตามในความเป็นจริงสมมติฐานนี้ไม่ค่อยถือ: เราไม่ค่อยคาดหวังว่าจะปรับใช้โมเดลในการตั้งค่าที่ตรงกับการแจกแจงการฝึกอบรมของพวกเขา รูปแบบการฝึกอบรมที่แข็งแกร่งในการเปลี่ยนการกระจายเป็นความท้าทายหลักอีกประการหนึ่งในการปรับปรุงการเรียนรู้ของเครื่องจักรในป่าซึ่งเรายืนยันว่าสามารถแก้ไขได้ภายใต้กระบวนทัศน์ที่เน้นข้อมูลเป็นศูนย์กลาง
ที่นี่เราจัดหมวดหมู่ความพยายามในการปรับปรุงความทนทานต่อการกระจายการเปลี่ยนแปลงเป็นที่อยู่ (1) การเปลี่ยนแปลงของประชากรย่อยหรือการแบ่งชั้นที่ซ่อนอยู่ (2) การเปลี่ยนแปลงของโดเมนและ (3) เปลี่ยนจากการก่อกวนที่ไม่พอใจ
ภายใต้การเปลี่ยนแปลงของประชากรย่อยการฝึกอบรมและการแจกแจงเวลาทดสอบแตกต่างกันไปในการแสดงถึงประชากรย่อยหรือ“ กลุ่มข้อมูล” ที่ดีเพียงใด หากประชากรย่อยบางส่วนมีบทบาทสำคัญในการฝึกอบรมแม้ว่าการแจกแจงเหล่านี้จะถูกพบในระหว่างการฝึกอบรมการลดความเสี่ยงเชิงประจักษ์ (ERM) และ“ การเรียนรู้จากค่าเฉลี่ยทางสถิติ” สามารถส่งผลให้แบบจำลองที่ทำงานได้ดีในกลุ่มย่อย
ทั้งกลุ่ม Dro และ George แนะนำวิธีการจัดการการเปลี่ยนแปลงของประชากรย่อยภายใต้การสร้างอินสแตนซ์ในโลกแห่งความเป็นจริง วิธีการเหล่านี้เป็นแรงบันดาลใจให้กับงานเพิ่มเติมที่เกี่ยวข้องกับการสุ่มตัวอย่างกลุ่มโดยประมาณ (LFF, JTT) และการใช้การเรียนรู้แบบตรงกันข้ามเพื่อเรียนรู้การเป็นตัวแทนกลุ่ม (CNC - ลิงค์เร็ว ๆ นี้)
นอกเหนือจากการเปลี่ยนแปลงของประชากรย่อยแล้วความทนทานยังมีการเปลี่ยนแปลงของโดเมนและการก่อกวนของฝ่ายตรงข้าม ภายใต้การเปลี่ยนแปลงของโดเมนเราจำลองข้อมูลเวลาทดสอบที่มาจากโดเมนที่แตกต่างอย่างสิ้นเชิงจากข้อมูลการฝึกอบรม ภายใต้การเปลี่ยนการกระจายด้วยการก่อกวนของฝ่ายตรงข้ามข้อมูลเวลาทดสอบอาจแสดงการทุจริตหรือความแตกต่างที่มองไม่เห็นในพื้นที่คุณสมบัติการป้อนข้อมูลที่ป้องกันไม่ให้แบบจำลอง ERM ที่ผ่านการฝึกอบรมจากการทั่วไปไปสู่การแจกแจงเวลาทดสอบอย่างมาก ส่วนที่สำคัญเหล่านี้ยังคงเป็นสตับ กรุณาเพิ่มผลงานของคุณ!
หน้าพื้นที่ทำความสะอาดข้อมูล
อีกวิธีหนึ่งในการปรับปรุงคุณภาพข้อมูลสำหรับแอปพลิเคชัน ML/AI คือการทำความสะอาดข้อมูล มีงานที่น่าตื่นเต้นที่หลากหลายในสายนี้เพื่อทำความเข้าใจการทำความสะอาดข้อมูลและการเรียนรู้ของเครื่อง
หน้าพื้นที่ Mlops
บทบาทสำคัญของข้อมูลทำให้การพัฒนาและการปรับใช้แอพพลิเคชั่น ML/AI เป็นกระบวนการของมนุษย์ในวง นี่เป็นกระบวนการที่ซับซ้อนซึ่งวิศวกรมนุษย์อาจทำผิดพลาดต้องการคำแนะนำหรือต้องได้รับการเตือนเมื่อมีสิ่งที่ไม่คาดคิดเกิดขึ้น เป้าหมายของ MLOPS คือการจัดหาวิธีการหลักการสำหรับการจัดการวงจรชีวิตการตรวจสอบและการตรวจสอบ
นักวิจัยได้เริ่มจัดการกับความท้าทายเหล่านี้โดยการพัฒนาเทคนิคใหม่ ๆ และระบบการสร้างเช่น TFX, Ease.ml หรือ Overton ที่ออกแบบมาเพื่อจัดการวงจรชีวิตทั้งหมดของรูปแบบการเรียนรู้ของเครื่องจักรทั้งในระหว่างการพัฒนาและในการผลิต ระบบเหล่านี้มักจะประกอบด้วยส่วนประกอบที่แตกต่างกันในการจัดการขั้นตอนเฉพาะ (เช่นก่อนหรือหลังการฝึกอบรม) หรือแง่มุม (เช่นการตรวจสอบหรือการดีบัก) ของ MLOPS
หน้าพื้นที่เลือกข้อมูล
ข้อมูลจำนวนมากทำให้ความสำเร็จหลายอย่างของการเรียนรู้อย่างลึกซึ้ง แต่ข้อมูลขนาดใหญ่นี้นำมาซึ่งปัญหาของตัวเอง การทำงานกับชุดข้อมูลขนาดใหญ่นั้นยุ่งยากและมีราคาแพงทั้งในแง่ของทรัพยากรการคำนวณและการติดฉลาก วิธีการเลือกข้อมูลเช่นการเรียนรู้ที่ใช้งานและการเลือกชุดแกนสามารถลดความเจ็บปวดของข้อมูลขนาดใหญ่ได้โดยเลือกตัวอย่างที่มีค่าที่สุดในการติดฉลากหรือฝึกอบรม
ในขณะที่การเลือกข้อมูลเป็นพื้นที่ที่ยาวนานใน AI/ML ขนาดและความเบ้ของชุดข้อมูลอุตสาหกรรมที่ทันสมัยได้ผลักดันฟิลด์ให้มีค่าข้อมูลที่แม่นยำยิ่งขึ้นและปรับปรุงความสามารถในการปรับขนาดของวิธีการเลือก ผลงานล่าสุดเช่น (Sener & Savarese และ Ghorbani et al.) ใช้วิธีการที่เน้นข้อมูลเป็นศูนย์กลางมากขึ้นในการหาปริมาณการมีส่วนร่วมของตัวอย่างการฝึกอบรมแต่ละครั้งโดยมุ่งเน้นไปที่ความหลากหลายและการเป็นตัวแทนมากกว่าที่จะพึ่งพาความไม่แน่นอนของแบบจำลองเท่านั้น เพื่อช่วยให้วิธีการเหล่านี้ปรับขนาดวิธีการเช่น SVP และซีลนำเสนอวิธีที่ตรงไปตรงมาเพื่อลดต้นทุนการคำนวณได้มากถึงสามคำสั่งของขนาดทำให้การเรียนรู้ที่ใช้งานอยู่บนเว็บและการเลือกข้อมูลในวงกว้างมากขึ้น
ความก้าวหน้าเหล่านี้ในฉลากและประสิทธิภาพการคำนวณทำให้การเลือกข้อมูลใช้กับชุดข้อมูลที่ทันสมัยทำให้ AI/ML สามารถใช้มุมมองที่เน้นข้อมูลเป็นศูนย์กลางมากขึ้นซึ่งมุ่งเน้นไปที่คุณภาพมากกว่าปริมาณ
หน้าพื้นที่ข้อมูลความเป็นส่วนตัว
คำอธิบายนี้เป็นต้นขั้วคุณสามารถช่วยได้โดยการปรับปรุง
หน้าพื้นที่การไหลของข้อมูล
บริเวณนี้เป็นต้นขั้วคุณสามารถช่วยได้โดยการปรับปรุง
หน้าการเรียนรู้แบบหลายงานและหลายโดเมน
บริเวณนี้เป็นต้นขั้วคุณสามารถช่วยได้โดยการปรับปรุง
หน้าแนวโน้มที่เกิดขึ้นใหม่
AI ที่เน้นข้อมูลเป็นศูนย์กลางยังคงเติบโตและเราต้องการจับแนวโน้มที่เกิดขึ้นใหม่ตามที่เกิดขึ้น บางพื้นที่ใหม่ที่เราคิดว่ากำลังก่อตัวเกี่ยวข้องกับการเรียนรู้ของเครื่องจักรแบบโต้ตอบแบบจำลอง Massice Scale และ Observational ML ดูหน้าพื้นที่
หน้าแอปพลิเคชัน
วิธีการที่เน้นข้อมูลเป็นศูนย์กลางมีผลกระทบที่หลากหลายไม่ว่าจะใช้การเรียนรู้ของเครื่องจักรและนำไปใช้งานไม่ว่าจะเป็นในสถาบันการศึกษาอุตสาหกรรมหรือองค์กรอื่น ๆ ผลกระทบมีช่วงการใช้งานเช่นข้อมูลที่มีโครงสร้างข้อความรูปภาพวิดีโอกราฟและอื่น ๆ ในขณะที่พื้นที่รวมถึงการประมวลผลข้อความและภาพการถ่ายภาพทางการแพทย์ชีววิทยาการคำนวณการขับขี่แบบอิสระ ฯลฯ