
Membangun dan mengelola data pelatihan secara terprogram
Tim snorkel sekarang memfokuskan upaya mereka pada aliran snorkel, platform pengembangan aplikasi AI ujung ke ujung berdasarkan ide-ide inti di balik snorkel-Anda dapat memeriksanya di sini atau bergabung dengan kami dalam membangunnya!
Proyek snorkel dimulai di Stanford pada tahun 2015 dengan taruhan teknis sederhana: bahwa itu akan semakin menjadi data pelatihan , bukan model, algoritma, atau infrastruktur, yang memutuskan apakah proyek pembelajaran mesin berhasil atau gagal. Mengingat premis ini, kami berangkat untuk mengeksplorasi gagasan radikal bahwa Anda dapat membawa struktur matematika dan sistem ke proses yang berantakan dan seringkali sepenuhnya manual dari pelatihan pembuatan dan manajemen data, dimulai dengan memberdayakan pengguna untuk memberi label, membangun, dan mengelola data pelatihan secara terprogram .
Untuk mengatakan bahwa proyek snorkel berhasil dan berkembang melampaui apa yang pernah kami harapkan akan menjadi pernyataan yang meremehkan. Tujuan dasar repo penelitian seperti snorkel adalah untuk memberikan kerangka kerja minimum yang layak untuk pengujian dan memvalidasi hipotesis. Empat tahun kemudian, kami beruntung tidak hanya melakukan hal ini, tetapi untuk mengembangkan dan menggunakan versi awal snorkel dalam kemitraan dengan beberapa organisasi terkemuka di dunia seperti Google, Intel, Stanford Medicine, dan banyak lagi; Penulis lebih dari enam puluh publikasi peer-review pada temuan kami seputar snorkel dan inovasi terkait dalam pemodelan pengawasan yang lemah, augmentasi data, pembelajaran multi-tugas, dan banyak lagi; dimasukkan dalam kursus di universitas papan atas; mendukung penyebaran produksi dalam sistem yang mungkin Anda gunakan dalam beberapa jam terakhir; dan bekerja dengan komunitas peneliti dan praktisi yang luar biasa dari industri, kedokteran, pemerintah, akademisi, dan seterusnya.
Namun, kami semakin menyadari - dari percakapan dengan pengguna dalam jam kantor mingguan, lokakarya, diskusi online, dan mitra industri - bahwa proyek snorkel itu hanyalah langkah pertama. Gagasan di balik perubahan snorkel tidak hanya bagaimana Anda memberi label data pelatihan, tetapi begitu banyak dari seluruh siklus hidup dan pipa membangun, menggunakan, dan mengelola ML: Bagaimana pengguna menyuntikkan pengetahuan mereka; bagaimana model dibangun, dilatih, diperiksa, diversi, dan dipantau; bagaimana seluruh jaringan pipa dikembangkan secara iteratif; dan bagaimana set lengkap pemangku kepentingan dalam penyebaran ML apa pun, dari para ahli materi pelajaran hingga insinyur ML, dimasukkan ke dalam proses.
Selama setahun terakhir, kami telah membangun platform untuk mendukung visi yang lebih luas ini: aliran snorkel, platform pembelajaran mesin ujung ke ujung untuk mengembangkan dan menggunakan aplikasi AI. Aliran snorkel menggabungkan banyak konsep proyek snorkeling dengan serangkaian teknik yang lebih baru di sekitar pemodelan pengawasan yang lemah, augmentasi data, pembelajaran multi-tugas, pengiris dan penataan data, pemantauan dan analisis, dan banyak lagi, yang semuanya terintegrasi dengan cara itu lebih besar dari jumlah bagian -bagiannya - dan yang kami yakini membuat ML benar -benar lebih cepat, lebih fleksibel, dan lebih praktis dari sebelumnya.
Ke depan, kami akan memfokuskan upaya kami pada aliran snorkel. Kami sangat berterima kasih atas Anda semua yang telah berkontribusi pada proyek snorkel, dan sangat senang Anda memeriksa bab berikutnya di sini.
Cara tercepat untuk membiasakan diri dengan Perpustakaan Snorkel adalah dengan berjalan melalui halaman Get Get Start di situs web Snorkel, diikuti oleh tutorial lengkap di repositori tutorial snorkel. Tutorial ini menunjukkan berbagai tugas, domain, teknik pelabelan, dan integrasi yang dapat berfungsi sebagai templat saat Anda menerapkan snorkel ke aplikasi Anda sendiri.
Snorkel membutuhkan Python 3.11 atau lebih baru. Untuk memasang snorkel, kami sarankan menggunakan pip :
pip install snorkel atau conda :
conda install snorkel -c conda-forgeUntuk informasi tentang menginstal dari sumber dan berkontribusi ke snorkel, lihat pedoman yang berkontribusi.
Contoh perintah berikut memberikan lebih banyak warna saat menginstal dengan conda . Perintah-perintah ini mengasumsikan bahwa instalasi conda Anda adalah Python 3.11, dan bahwa Anda ingin menggunakan lingkungan virtual yang disebut snorkel-env .
# [OPTIONAL] Activate a virtual environment called "snorkel"
conda create --yes -n snorkel-env python=3.11
conda activate snorkel-env
# We specify PyTorch here to ensure compatibility, but it may not be necessary.
conda install pytorch==1.1.0 -c pytorch
conda install snorkel==0.9.0 -c conda-forgeJika Anda menggunakan Windows, kami sangat menyarankan menggunakan Docker (Anda dapat menemukan contoh dalam tutorial kami repo) atau subsistem Linux. Kami telah melakukan pengujian terbatas pada windows, jadi jika Anda ingin menyumbangkan instruksi atau perbaikan, jangan ragu untuk membuka PR!
Kami menggunakan masalah github untuk memposting bug dan permintaan fitur-apa pun yang terkait dengan kode. Pastikan Anda mencari masalah terkait terlebih dahulu dan gunakan templat masalah kami. Kami mungkin meminta kontribusi jika perbaikan cepat tidak masuk ke peta jalan langsung tim pengembangan inti.
Kami menyambut kontribusi dari komunitas snorkel! Ini kemungkinan merupakan cara tercepat untuk mendapatkan perubahan yang ingin Anda lihat ke perpustakaan.
Kontribusi kecil dapat dilakukan langsung dalam permintaan tarik (PR). Jika Anda ingin menyumbangkan fitur yang lebih besar, kami merekomendasikan terlebih dahulu membuat masalah dengan desain yang diusulkan untuk diskusi. Untuk ide tentang apa yang harus dikerjakan, kami telah memberi label masalah spesifik sebagai help wanted .
Untuk mengatur lingkungan pengembangan untuk berkontribusi kembali ke snorkel, lihat pedoman yang berkontribusi. Semua PRS harus lulus tes integrasi berkelanjutan dan menerima persetujuan dari anggota tim pengembangan snorkel sebelum mereka akan digabungkan.
Untuk tanya jawab yang lebih luas, diskusi tentang penggunaan snorkel, permintaan tutorial, dll., Gunakan Forum Komunitas Snorkel yang di -host di Spectrum. Kami berharap ini akan menjadi tempat bagi Anda untuk berinteraksi dengan pengguna snorkel lainnya - tolong jangan malu memposting!
Agar tetap terkini di pengumuman terkait snorkel (rilis versi misalnya, lokakarya mendatang), berlangganan milis snorkel. Kami berjanji untuk menghormati kotak masuk Anda - komunikasi akan jarang!
Ikuti kami di Twitter @snorkelai.