
Kami mengumpulkan daftar sumber daya dan kemajuan yang diakui (yang diakui dengan pendapat) yang dibuat dalam AI yang berpusat pada data, dengan arahan yang menarik di masa lalu, sekarang dan masa depan. Blog ini berbicara tentang perjalanan kami ke AI yang berpusat pada data dan kami mengartikulasikan mengapa kami bersemangat tentang data sebagai sudut pandang untuk AI di blog ini.
Sementara AI telah cukup fokus pada model, pengalaman dunia nyata dari mereka yang memasukkan model ke dalam produksi adalah bahwa data sering lebih penting. Tujuan dari repositori ini adalah untuk mengkonsolidasikan pengalaman ini di satu tempat yang dapat diakses oleh siapa saja yang ingin memahami dan berkontribusi pada bidang ini.
Kami hanya di awal, dan Anda dapat membantu dengan berkontribusi pada github ini! Terima kasih kepada semua yang telah berkontribusi sejauh ini.
Jika Anda tertarik dengan area ini dan ingin mendengar lebih banyak, bergabunglah dengan milis kami! Kami juga akan menghargai jika Anda dapat mengisi formulir singkat ini untuk membantu kami lebih memahami minat Anda.
Kami membuat kelas di Stanford tentang AI yang berpusat pada data, dan kami akan menyukai umpan balik Anda. Jika Anda tertarik untuk belajar lebih banyak, silakan isi formulir ini.
Jika Anda memiliki ide tentang bagaimana kami dapat membuat repositori ini lebih baik, jangan ragu untuk mengirimkan masalah dengan saran.
Kami ingin sumber ini tumbuh dengan kontribusi dari pembaca dan penggemar data. Jika Anda ingin memberikan kontribusi untuk repositori GitHub ini, silakan baca pedoman yang berkontribusi.
Latar belakang
Area ini adalah rintisan, Anda dapat membantu dengan memperbaikinya.
Ada banyak kegembiraan di sekitar memahami cara menempatkan pembelajaran mesin untuk mengerjakan kasus penggunaan nyata. AI yang berpusat pada data mewujudkan sudut pandang tertentu tentang bagaimana kemajuan ini dapat terjadi: dengan berfokus pada membuatnya lebih mudah bagi para praktisi untuk memahami, memprogram, dan mengulangi pada dataset, alih-alih menghabiskan waktu untuk model.
Halaman Area Pemrograman & Area Pengawasan Lemah
Banyak sistem pembelajaran mesin modern membutuhkan kumpulan data yang besar dan berlabel untuk menjadi sukses, tetapi menghasilkan kumpulan data seperti itu memakan waktu dan mahal. Sebaliknya, sumber pengawasan yang lebih lemah, seperti crowdsourcing, pengawasan jauh, dan heuristik ahli domain seperti pola Hearst telah digunakan sejak tahun 90 -an.
Namun, ini sebagian besar dianggap oleh orang AI dan AI/mL sebagai teknik ad hoc atau terisolasi. Upaya untuk menyatukan dan menggabungkan ini menjadi sudut pandang sentris data dimulai dengan sungguh-sungguh dengan pemrograman data alias pelabelan terprogram, diwujudkan di snorkel, sekarang proyek open-source dan perusahaan yang berkembang. Dalam pendekatan AI yang berpusat pada data Snorkel, pengguna menentukan beberapa fungsi pelabelan yang masing-masing mewakili perkiraan yang bising dari label kebenaran tanah. Karena fungsi pelabelan ini bervariasi dalam akurasi dan cakupan dataset, dan bahkan dapat berkorelasi, mereka digabungkan dan di -denoised melalui model grafis variabel laten. Tantangan teknisnya adalah untuk mempelajari akurasi dan parameter korelasi dalam model ini, dan menggunakannya untuk menyimpulkan label sebenarnya yang akan digunakan untuk tugas hilir.
Pemrograman data dibangun pada garis panjang pekerjaan pada estimasi parameter dalam model grafis variabel laten. Secara konkret, model generatif untuk distribusi bersama fungsi pelabelan dan label true yang tidak teramati (laten) dipelajari. Model label ini memungkinkan agregasi beragam sumber sinyal, sementara memungkinkan mereka memiliki berbagai akurasi dan korelasi potensial.
Posting blog snorkel ini berisi tinjauan umum tentang pengawasan yang lemah, termasuk bagaimana perbandingannya dengan pendekatan lain untuk mendapatkan lebih banyak data berlabel dan tantangan pemodelan teknis. Catatan kuliah Stanford CS229 ini memberikan ringkasan teoretis tentang bagaimana model grafis digunakan dalam pengawasan yang lemah.
Halaman Area Augmentasi Data
Tantangan utama ketika melatih model pembelajaran mesin adalah mengumpulkan dataset besar yang beragam yang cukup menangkap variabilitas yang diamati di dunia nyata. Karena biaya pengumpulan dan pelabelan set data, augmentasi data telah muncul sebagai alternatif yang murah dan menjanjikan.
Gagasan sentral dalam augmentasi data adalah untuk mengubah contoh dalam dataset yang ada untuk menghasilkan contoh augmented tambahan yang kemudian dapat ditambahkan ke dataset. Contoh -contoh tambahan ini biasanya meningkatkan keragaman data yang dilihat oleh model, dan memberikan pengawasan tambahan untuk model. Fondasi augmentasi data berasal dari propagasi tangen, yang memperkenalkan teknik untuk membuat model terpelajar invarian sehubungan dengan beberapa transformasi data.
Keberhasilan awal dalam augmentasi seperti Alexnet berfokus pada menginduksi invariansi dalam classifier gambar dengan menghasilkan contoh yang mendorong invarian translasi atau rotasi. Keberhasilan ini menjadikan augmentasi bagian de-facto dari pipa untuk serangkaian tugas yang luas seperti gambar, klasifikasi pidato dan teks, terjemahan mesin, dll.
Pilihan transformasi yang digunakan dalam augmentasi adalah pertimbangan penting, karena menentukan invarian yang dipelajari oleh model, dan perilakunya ketika menghadapi keragaman contoh tes. Sementara augmentasi heuristik tetap populer, penting untuk dapat mengendalikan dan memprogram pipa augmentasi lebih hati -hati. Tanda memprakarsai studi tentang masalah pipa augmentasi pemrograman dengan menyusun pilihan transformasi data. Area ini telah melihat pertumbuhan yang cepat dengan pemahaman teoretis yang lebih dalam dan implementasi praktis seperti autoaugment. Lini kerja yang baru lahir telah memanfaatkan model generatif bersyarat untuk belajar-lebih dari menentukan-transformasi ini, lebih lanjut memperluas paradigma pemrograman ini.
Halaman Area Perluian sendiri
Kebutuhan akan kumpulan data yang besar dan berlabel telah memotivasi metode untuk pra-pelatihan representasi laten dari ruang input menggunakan data yang tidak berlabel dan menggunakan representasi kaya pengetahuan yang dihasilkan dalam tugas hilir. Karena representasi memungkinkan transfer pengetahuan ke tugas hilir, tugas -tugas ini membutuhkan data yang lebih sedikit berlabel. Paradigma ini, yang disebut "persiapan diri", telah merevolusi cara kami melatih (dan pra-pelatihan) model. Model-model ini, yang baru-baru ini disebut "model yayasan" oleh Stanford Initiative seputar memahami ekosistem yang di-swasembar Sendel, telah mengalihkan fokus dari data berlabel tangan untuk memahami data apa yang dimasukkan ke model ini.
Karena data yang di-swadaya sering kali dikuratori dari sumber data publik yang besar (misalnya, Wikipedia), ia dapat mengandung bias popularitas di mana ekor panjang hal-hal langka tidak terwakili dengan baik dalam data pelatihan. Sebagai orr et. al. Tunjukkan, beberapa model populer (misalnya, Bert) mengandalkan menghafal konteks dan berjuang untuk menyelesaikan ekor panjang ini karena mereka tidak mampu melihat hal yang cukup langka untuk menghafal beragam pola yang terkait dengannya. Masalah ekor panjang bahkan merambat ke tugas hilir, seperti tugas pengambilan dari Amber. Salah satu arah masa depan yang menarik yang terletak di persimpangan AI dan bertahun -tahun penelitian dari komunitas manajemen data untuk mengatasi ekor panjang adalah melalui integrasi pengetahuan terstruktur ke dalam model. Pengetahuan terstruktur adalah ide inti di balik keberhasilan ekor Bootleg, sebuah sistem untuk disambiguasi entitas yang disebutkan.
Akhir halaman area modelitis
Secara historis, momen "Kid in a Candy Shop" untuk para peneliti ML sedang membangun dan mengutak -atik model menggunakan alat seperti Pytorch atau Jax. Model-model baru keluar setiap hari dan arsitektur model yang disesuaikan ini dan parameter yang disesuaikan dengan halus mengalahkan hasil canggih. Namun, kegilaan modelitis ini akan segera berakhir.
Baru -baru ini, para peneliti telah menyadari dua hal: (1) lebih banyak keuntungan datang dari memahami data daripada penyesuaian model (lihat semua pekerjaan yang menarik dalam augmentasi data), dan (2) model kustom sulit dipertahankan dan diperluas dalam suatu produksi lingkungan. Hal ini menghasilkan platform pembangunan model seperti Ludwig dan Overton yang memberlakukan arsitektur komoditisasi, dan bergerak ke arah sistem ML yang dapat dibuat secara deklaratif Molino dan Ré 2021. Dan mereka menunjukkan model -model komodisi ini bahkan lebih baik daripada pendahulu mereka yang disetel! Hasil ini lebih lanjut didukung oleh Kaplan et al yang menunjukkan masalah arsitektur kurang dari data.
Tren ini, yang kami sebut akhir modelitis, bergerak menuju pandangan data-sentris dari konstruksi model. Pertanyaannya bergeser dari "Cara Membangun Model Terbaik" ke "Bagaimana Anda Memberi Makan Model."
Halaman Area Evaluasi
Evaluasi model adalah bagian penting dari proses pengembangan model dalam pembelajaran mesin. Tujuan evaluasi adalah untuk memahami kualitas model, dan mengantisipasi apakah itu akan berkinerja baik di masa depan.
Sementara evaluasi adalah masalah klasik dalam pembelajaran mesin, pendekatan AI yang berpusat pada data telah mengkatalisasi pergeseran ke arah evaluasi berbutir halus : bergerak melampaui ukuran standar kinerja rata-rata seperti akurasi dan skor F1, untuk mengukur kinerja pada populasi minat tertentu. Ini memungkinkan pemahaman yang lebih granular tentang kinerja model, dan memberi pengguna gagasan yang lebih jelas tentang kemampuan model. Pergeseran ini saling melengkapi dengan minat yang semakin besar dalam memahami ketahanan model, karena akses ke evaluasi berbutir halus memungkinkan peningkatan kemampuan untuk membangun model yang lebih kuat.
Pendekatan untuk evaluasi berbutir halus termasuk mengukur kinerja pada subset data kritis yang disebut irisan, invarian atau sensitivitas terhadap transformasi data, dan resistensi terhadap gangguan permusuhan. Sementara sebagian besar evaluasi ditentukan pengguna, lini kerja penting menemukan bahwa model sering berkinerja buruk pada strata tersembunyi yang terlewatkan oleh pembangun model dalam evaluasi, yang dapat memiliki konsekuensi mendalam pada kemampuan kami untuk menggunakan dan menggunakan model. Ini memotivasi pekerjaan di masa depan dalam secara otomatis menemukan strata tersembunyi ini, atau lebih umum, menemukan semua mode kegagalan yang mungkin dari model dengan menganalisis dataset dan model secara sistematis dalam hubungannya.
Sisi penting lain dari evaluasi berbutir halus adalah pemantauan data dan model untuk mengantisipasi, mengukur dan mengurangi degradasi dalam kinerja karena pergeseran distribusi. Ini termasuk mengidentifikasi dan mengisolasi titik data yang dapat dianggap outlier, memperkirakan kinerja pada data yang tidak berlabel yang mengalir ke model yang digunakan, dan menghasilkan ringkasan yang kaya tentang bagaimana distribusi data mungkin bergeser dari waktu ke waktu.
Halaman Area Ketahanan
Salah satu asumsi standar untuk berhasil menggunakan model pembelajaran mesin adalah bahwa distribusi waktu tes mirip dengan yang ditemui dan diwakili dengan baik selama pelatihan. Namun pada kenyataannya, asumsi ini jarang berlaku: jarang kita berharap untuk menggunakan model dalam pengaturan yang persis sesuai dengan distribusi pelatihan mereka. Model pelatihan yang kuat untuk shift distribusi adalah tantangan inti lain untuk meningkatkan pembelajaran mesin di alam liar, yang kami berpendapat dapat diatasi di bawah paradigma data-sentris.
Di sini, kami secara luas mengkategorikan upaya untuk meningkatkan ketahanan terhadap pergeseran distribusi sebagai yang menangani (1) perubahan subpopulasi atau stratifikasi tersembunyi, (2) pergeseran domain, dan (3) bergeser dari gangguan permusuhan.
Di bawah subpopulasi shift, pelatihan dan distribusi waktu tes berbeda dalam seberapa baik setiap subpopulasi atau "grup data". Jika subpopulasi tertentu kurang terwakili dalam data pelatihan, maka bahkan jika distribusi ini ditemui selama pelatihan, standar minimalisasi risiko empiris (ERM) dan “belajar dari rata -rata statistik” dapat menghasilkan model yang hanya berkinerja baik pada subpopulasi yang terlalu ditwerei.
Baik kelompok DRO dan George memperkenalkan pendekatan untuk menangani pergeseran subpopulasi di bawah instantiasi dunia nyata. Metode -metode ini telah menginspirasi pekerjaan tambahan yang terkait dengan perkiraan grup yang mengampel (LFF, JTT) dan menggunakan pembelajaran kontras untuk mempelajari representasi kelompok -invarian (CNC - tautan segera hadir).
Di luar pergeseran subpopulasi, ketahanan juga menampilkan pergeseran domain dan gangguan permusuhan. Di bawah shift domain, kami memodelkan data waktu tes yang berasal dari domain yang sama sekali berbeda dari data pelatihan. Di bawah pergeseran distribusi dengan gangguan permusuhan, data waktu tes dapat menunjukkan korupsi atau perbedaan yang tidak terlihat dalam ruang fitur input yang mencegah model ERM terlatih dari sangat menggeneralisasi ke distribusi waktu tes. Bagian -bagian penting ini masih bertopik. Tolong tambahkan kontribusi Anda!
Halaman Area Pembersihan Data
Cara lain untuk meningkatkan kualitas data untuk aplikasi ML/AI adalah melalui pembersihan data. Ada beragam pekerjaan menarik di sepanjang jalur ini untuk bersama -sama memahami pembersihan data dan pembelajaran mesin.
Halaman area MLOPS
Peran sentral data menjadikan pengembangan dan penyebaran aplikasi ML/AI sebagai proses manusia-in-loop. Ini adalah proses yang kompleks di mana insinyur manusia dapat membuat kesalahan, membutuhkan bimbingan, atau perlu diperingatkan ketika sesuatu yang tidak terduga terjadi. Tujuan MLOP adalah untuk memberikan cara berprinsip untuk manajemen siklus hidup, pemantauan, dan validasi.
Para peneliti telah mulai menangani tantangan -tantangan ini dengan mengembangkan teknik baru dan sistem pembangunan seperti TFX, Ease.ml atau Overton yang dirancang untuk menangani seluruh siklus hidup model pembelajaran mesin baik selama pengembangan maupun dalam produksi. Sistem ini biasanya terdiri dari komponen berbeda yang bertugas menangani tahap tertentu (misalnya, pra atau pasca-pelatihan) atau aspek (misalnya, pemantauan atau debugging) MLOP.
Halaman Area Pemilihan Data
Sejumlah besar data memungkinkan banyak keberhasilan pembelajaran mendalam, tetapi data besar ini membawa masalah sendiri. Bekerja dengan kumpulan data besar -besaran rumit dan mahal dalam hal sumber daya komputasi dan pelabelan. Metode pemilihan data, seperti pembelajaran aktif dan pemilihan inti-set, dapat mengurangi rasa sakit data besar dengan memilih contoh yang paling berharga untuk diberi label atau berlatih.
Sementara pemilihan data telah menjadi area lama di AI/mL, skala dan kemiringan dataset industri modern telah mendorong lapangan untuk menilai data yang lebih akurat dan meningkatkan skalabilitas metode seleksi. Karya-karya terbaru, seperti (Sener & Savarese dan Ghorbani et al.), Ambil pendekatan yang lebih berpusat pada data untuk mengukur kontribusi setiap contoh pelatihan dengan berfokus pada keragaman dan keterwakilan daripada semata-mata mengandalkan ketidakpastian model. Untuk membantu skala metode ini, pendekatan, seperti SVP dan segel, menyajikan cara langsung untuk mengurangi biaya komputasi hingga tiga kali lipat, memungkinkan pembelajaran aktif skala web dan pemilihan data secara lebih luas.
Kemajuan dalam label dan efisiensi komputasi ini membuat pemilihan data yang berlaku untuk kumpulan data modern, memungkinkan AI/mL untuk mengambil tampilan yang lebih berpusat pada data yang berfokus pada kualitas daripada kuantitas.
Halaman Area Privasi Data
Deskripsi ini adalah rintisan, Anda dapat membantu dengan memperbaikinya.
Halaman Area Aliran Data
Area ini adalah rintisan, Anda dapat membantu dengan memperbaikinya.
Halaman Area Pembelajaran Multi-Tugas & Multi-Domain
Area ini adalah rintisan, Anda dapat membantu dengan memperbaikinya.
Halaman area tren tren yang muncul
AI yang berpusat pada data masih berkembang, dan kami ingin menangkap tren yang muncul saat muncul. Beberapa bidang baru yang kami pikir terbentuk melibatkan pembelajaran mesin interaktif, model skala Massice, dan ML observasional. Lihatlah halaman area.
Halaman Area Aplikasi
Pendekatan data-sentris memiliki dampak luas di mana pun pembelajaran mesin digunakan dan digunakan, baik di dunia akademis, industri atau organisasi lain. Modalitas rentang dampak seperti data terstruktur, teks, gambar, video, grafik dan lainnya, sementara area termasuk pemrosesan teks dan gambar, pencitraan medis, biologi komputasi, mengemudi otonom, dll.