AI Open-Centric Open yang mengagumkan
Alat sumber terbuka untuk AI yang berpusat pada data pada data yang tidak terstruktur
Sorotan Renumik | Alat kurasi untuk data tidak terstruktur yang menghubungkan tumpukan Anda ke ekosistem AI yang berpusat pada data. | | | | Argilla | Argilla membantu para ahli domain dan tim data untuk membangun kumpulan data NLP yang lebih baik dalam waktu yang lebih singkat. | | |
Analisis Data Eksplorasi (EDA)| Nama | Tipe data | Keterangan | Buku catatan |
|---|
| Memahami distribusi | gambar | Gunakan pustaka HuggingFace Transformers untuk menghitung embeddings gambar dan jelajahi dataset berdasarkan peta kesamaan dan metdata tambahan. | |
Pembersihan| Nama | Tipe data | Keterangan | Buku catatan |
|---|
| Mendeteksi duplikat | agnostis | Gunakan perpustakaan yang mengganggu untuk mendeteksi tetangga terdekat di ruang embedding dan memeriksa titik data yang duplikat / dekat duplikat. | | | Mendeteksi outlier | agnostis | Gunakan perpustakaan CleanLab untuk menghitung skor outlier berdasarkan output model (embeddings, probabilitas) dan memeriksa kandidat outlier. | | | Mendeteksi masalah gambar | gambar | Gunakan perpustakaan CleanVision untuk mengekstrapact masalah gambar yang khas (kecerahan, blurr, rasio aspek, SNR dan duplikat) dan mengidentifikasi segmen kritis melalui inspeksi manual. | |
Anotasi| Nama | Tipe data | Keterangan | Buku catatan |
|---|
| Temukan inkonsistensi label | agnostis | Gunakan Perpustakaan CleanLab untuk menghitung bendera kesalahan label berdasarkan probabilitas model dan memeriksa segmen data kritis secara manual. | |
Pemodelan| Nama | Tipe data | Keterangan | Buku catatan |
|---|
| Mendeteksi kebocoran | agnostis | Gunakan jarak tetangga terdekat untuk mengidentifikasi kandidat untuk kebocoran data dan periksa manual | |
Validasi| Nama | Tipe data | Keterangan | Buku catatan |
|---|
| Periksa batasan keputusan | agnostis | Hitung skor batas keputusan berdasarkan rasio kepastian dan periksa hasilnya dalam plot sebaran. | |
Pemantauan| Nama | Tipe data | Keterangan | Buku catatan |
|---|
| Mendeteksi penyimpangan data | agnostis | Hitung jarak kosinus tetangga K-Nearest di ruang embedding sebagai jarak melayang dan memeriksa segmen kritis. | |
Bacaan lebih lanjut Untuk menjaga fokus yang bermanfaat dan untuk mencegah duplikat kerja, kami mengecualikan beberapa topik dari daftar ini. Baca lebih lanjut tentang mereka di sini: - Alat DCAI untuk data tabel. Ada daftar yang luar biasa untuk yang dikelola oleh tim YData.
- Alat pelabelan. Meskipun pelabelan adalah bagian dari alur kerja DCAI, kami merujuk pada daftar luar biasa dari tim ZenML tentang topik itu.
- Mlops tooling. Kami mengecualikan semua topik yang jelas keluar dari ruang lingkup DCAI dan merujuk pada daftar MLOP yang luar biasa untuk alat -alat ini.
- Makalah Penelitian. Kami fokus pada alat sumber terbuka yang siap industri, periksa daftar ini untuk tampilan berorientasi penelitian tentang DCAI.
Memperluas
Direkomendasikan untuk Anda
|