Jiancheng Yang, Rui Shi, Donglai Wei, Zequan Liu, Lin Zhao, Bilian KE, Hanspeter Pfister, Bingbing Ni
Opsi ukuran berganda: 28 (seperti mnist), 64, 128, dan 224
Kami memperkenalkan MedMnist , koleksi gambar biomedis standar seperti Mnist besar, termasuk 12 set data untuk dataset 2D dan 6 untuk 3D. Semua gambar diproses menjadi 28x28 (2D) atau 28x28x28 (3D) dengan label klasifikasi yang sesuai, sehingga tidak ada pengetahuan latar belakang yang diperlukan untuk pengguna. Meliputi modalitas data primer dalam gambar biomedis, MedMnist dirancang untuk melakukan klasifikasi pada gambar 2D dan 3D ringan dengan berbagai skala data (dari 100 hingga 100.000) dan beragam tugas (biner/kelas-kelas, regresi ordinal dan multi-label). Dataset yang dihasilkan, yang terdiri dari sekitar 708K gambar 2D dan total gambar 3D 10K, dapat mendukung berbagai tujuan penelitian dan pendidikan dalam analisis gambar biomedis, visi komputer dan pembelajaran mesin. Kami membandingkan beberapa metode dasar pada MedMnist, termasuk jaringan saraf 2D / 3D dan alat automl open-source / komersial.
Penafian : Satu -satunya tautan distribusi resmi untuk dataset medmnist adalah Zenodo. Kami mohon meminta pengguna untuk merujuk ke tautan data asli ini untuk data yang akurat dan terkini.
UPDATE 2024-01-17 : Kami sangat senang melepaskan MedMnist+ dengan ukuran yang lebih besar: 64x64, 128x128, dan 224x224 untuk 2D, dan 64x64x64 untuk 3D. Sebagai pelengkap untuk MedMnist 28 ukuran sebelumnya, versi ukuran besar dapat berfungsi sebagai tolok ukur standar untuk model yayasan medis. Instal API terbaru untuk mencobanya!
Pembaruan Pihak Ketiga 2024-05-13 : @Sdoerrich97 merilis evaluasi komprehensif untuk medmnist+ yang mencakup 10 model pembelajaran mendalam yang berbeda yang dilatih melalui 3 skema pelatihan berbeda di semua 12 dataset 2D dan resolusi gambar yang tersedia (28x28, 64x64, 128x128, dan 224x24), yang menarik untuk BE BE BE BE BE BE BE BE BERATKAN. Periksa masalahnya di sini.
Pembaruan Pihak Ketiga 2024-12-20 : @FrancescodisalVo05 memperkenalkan MedMnist-C, versi yang rusak dari dataset medmnist, dengan korupsi gambar khusus modalitas dan API augmentasi, yang terinspirasi oleh benchmark Imagenet-C. Pekerjaan ini bertujuan untuk mengevaluasi dan meningkatkan ketahanan model. Periksa masalahnya di sini.
Untuk detail lebih lanjut, silakan merujuk ke makalah kami:
Medmnist V2: Benchmark ringan skala besar untuk klasifikasi gambar biomedis 2D dan 3D (Nature Scientific Data'23)
atau versi konferensi:
Decathlon Klasifikasi Medmnist: Benchmark AutomL yang ringan untuk Analisis Gambar Medis (ISBI'21)
Harap dicatat bahwa dataset ini tidak dimaksudkan untuk penggunaan klinis.
medmnist/ :dataset.py : Dataset Pytorch dan DataLoaders of MedMnist.evaluator.py : Fungsi evaluasi standar.info.py : Dataset informasi dict untuk setiap subset medmnist.examples/ :getting_started.ipynb : Untuk menjelajahi dataset medmnist dengan jupyter notebook. Ini hanya dimaksudkan untuk eksplorasi cepat, yaitu, itu tidak memberikan pelatihan penuh dan fungsi evaluasi.getting_started_without_PyTorch.ipynb : Notebook ini memberikan potongan tentang cara menggunakan data medmnist (file .npz ) tanpa pytorch.setup.py : Untuk menginstal medmnist sebagai modul.MedMNIST/experiments : Skrip Pelatihan dan Evaluasi untuk Mereproduksi Eksperimen 2D dan 3D dalam makalah kami, termasuk Pytorch, Auto-SkLearn, Autokeras dan Google Automl Visi bersama dengan bobot mereka;) Siapkan lingkungan yang diperlukan dan instal medmnist sebagai paket Python standar dari PYPI:
pip install medmnist
Atau instal dari sumber:
pip install --upgrade git+https://github.com/MedMNIST/MedMNIST.git
Periksa apakah Anda telah menginstal versi kode terbaru:
>>> import medmnist
>>> print(medmnist.__version__)
Kode ini hanya membutuhkan lingkungan Python yang umum untuk pembelajaran mesin. Pada dasarnya, itu diuji
Versi yang lebih tinggi (atau lebih rendah) juga harus berfungsi (mungkin dengan modifikasi kecil).
Untuk menggunakan versi standar 28-ukuran (seperti MNIST) yang menggunakan file yang diunduh:
>>> from medmnist import PathMNIST
>>> train_dataset = PathMNIST(split="train")
Untuk mengaktifkan pengunduhan otomatis dengan pengaturan download=True :
>>> from medmnist import NoduleMNIST3D
>>> val_dataset = NoduleMNIST3D(split="val", download=True)
Atau, Anda dapat mengakses MedMnist+ dengan ukuran gambar yang lebih besar dengan menentukan parameter size :
>>> from medmnist import ChestMNIST
>>> test_dataset = ChestMNIST(split="test", download=True, size=224)
Besar! Kode kami dirancang untuk bekerja dengan Pytorch.
Jelajahi dataset medmnist dengan jupyter notebook ( getting_started.ipynb ), dan latih jaringan saraf dasar di Pytorch.
getting_started_without_PyTorch.ipynb , yang memberikan cuplikan tentang cara menggunakan data medmnist (file .npz ) tanpa pytorch.MedMNIST dari torch.utils.data.Dataset ke collections.Sequence . Periksa dataset_without_pytorch.py untuk detail lebih lanjut. Silakan unduh dataset melalui Zenodo. Anda juga dapat menggunakan kode kami untuk mengunduh secara otomatis dengan mengatur download=True di dataset.py .
Dataset medmnist berisi beberapa himpunan bagian. Setiap subset (misalnya, pathmnist.npz ) terdiri dari 6 tombol: train_images , train_labels , val_images , val_labels , test_images dan test_labels .
train_images / val_images / test_images : N × 28 × 28 untuk set data skala abu-abu, N × 28 × 28 × 3 untuk set data RGB 2D, N × 28 × 28 × 28 untuk dataset 3D. N menunjukkan jumlah sampel.train_labels / val_labels / test_labels : N × L . N menunjukkan jumlah sampel. L menunjukkan jumlah label tugas; untuk klasifikasi label tunggal (biner/multi-kelas), L=1 , dan {0,1,2,3,..,C} menunjukkan label kategori ( C=1 untuk biner); Untuk klasifikasi multi-label L!=1 , misalnya, L=14 untuk chestmnist.npz .Selain itu, kami menyediakan file CSV untuk setiap subset medmnist di sini, yang memetakan "Image_id" di subset ke gambar yang sesuai dalam dataset sumber. Untuk setiap entri, ini merinci "split" dan "indeks" spesifik dalam subset medmnist, bersama dengan nama gambar yang sesuai dari dataset sumber resmi.
Daftar semua set data yang tersedia:
python -m medmnist available
Unduh set data yang tersedia dari ukuran tertentu ( size=None (28) secara default):
python -m medmnist download --size=28
Untuk mengunduh semua ukuran yang tersedia:
python -m medmnist download --size=all
Hapus semua npz yang diunduh dari root:
python -m medmnist clean
Cetak detail dataset yang diberikan bendera subset:
python -m medmnist info --flag=xxxmnist
Simpan dataset sebagai gambar standar dan file CSV, yang dapat digunakan untuk alat Automl, misalnya, Google Automl Vision:
untuk dataset 2D:
python -m medmnist save --flag=xxxmnist --folder=tmp/ --postfix=png --download=True --size=28
untuk dataset 3D:
python -m medmnist save --flag=xxxmnist3d --folder=tmp/ --postfix=gif --download=True --size=28
Secara default, download=False dan size=None (28).
Parse dan evaluasi file hasil standar, lihat Evaluator.parse_and_evaluate untuk detailnya.
python -m medmnist evaluate --path=folder/{flag}{size_flag}_{split}@{run}.csv
Di sini, size_flag kosong untuk 28 gambar, dan _size untuk gambar yang lebih besar, misalnya, "_64", misalnya, misalnya, misalnya
python -m medmnist evaluate --path=bloodmnist_64_val_[AUC]0.486_[ACC][email protected]
atau
python -m medmnist evaluate --path=chestmnist_test_[AUC]0.500_[ACC][email protected]
Dataset medmnist dilisensikan di bawah Creative Commons Attribution 4.0 International (CC sebesar 4.0), kecuali Dermamnist di bawah Creative Commons Attribution-NonCommercial 4.0 International (CC BY 4.0). Kode ini berada di bawah lisensi apache-2.0.
Jika Anda menemukan proyek ini berguna dalam penelitian Anda, silakan kutip makalah berikut:
Jiancheng Yang, Rui Shi, Donglai Wei, Zequan Liu, Lin Zhao, Bilian Ke, Hanspeter Pfister, Bingbing Ni. Yang, Jiancheng, et al. "MedMNIST v2-A large-scale lightweight benchmark for 2D and 3D biomedical image classification." Scientific Data, 2023.
Jiancheng Yang, Rui Shi, Bingbing Ni. "MedMNIST Classification Decathlon: A Lightweight AutoML Benchmark for Medical Image Analysis". IEEE 18th International Symposium on Biomedical Imaging (ISBI), 2021.
atau menggunakan Bibtex:
@article{medmnistv2,
title={MedMNIST v2-A large-scale lightweight benchmark for 2D and 3D biomedical image classification},
author={Yang, Jiancheng and Shi, Rui and Wei, Donglai and Liu, Zequan and Zhao, Lin and Ke, Bilian and Pfister, Hanspeter and Ni, Bingbing},
journal={Scientific Data},
volume={10},
number={1},
pages={41},
year={2023},
publisher={Nature Publishing Group UK London}
}
@inproceedings{medmnistv1,
title={MedMNIST Classification Decathlon: A Lightweight AutoML Benchmark for Medical Image Analysis},
author={Yang, Jiancheng and Shi, Rui and Ni, Bingbing},
booktitle={IEEE 18th International Symposium on Biomedical Imaging (ISBI)},
pages={191--195},
year={2021}
}
Harap juga mengutip kertas data sumber dari subset medmnist sesuai deskripsi pada halaman proyek.
v3.0.2 : Bug diperbaiki dalam evaluator ( size_flag ) dan pypi diperbarui.v3.0.1 : Memperbarui pesan kesalahan pengunduhan untuk membuatnya lebih instruktif.v3.0.0 : MedMnist+ menampilkan ukuran yang lebih besar: 64x64, 128x128, dan 224x224 untuk 2D, dan 64x64x64 untuk 3D.v2.2.4 : Menghapus sejumlah kecil sampel kosong di Organamnist, Organcmnist, Organsmnist, OrganMnist3D, dan VesselMnist3D.v2.2.3 : Lisensi Dermamnist ke CC BY-NC 4.0v2.2.2 : Sequence python 3.11 dari collections.ABC didukungv2.2.1 : info PYPI diperbaruiv2.2.0 : Metode montage didukung untuk scikit-image> = 0.20.0v2.1.0 : kesalahan data NoduleMNIST3D diperbaikiv2.0.0 : rilis medmnist v2 (di PYPI)v1.0.0 : rilis medmnist v1v0.2.0 : Rilis Beta Medmnist