Jiancheng Yang、Rui Shi、Donglai Wei、Zequan Liu、Lin Zhao、Bilian KE、Hanspeter Pfister、Bingbing NI
複数のサイズオプション:28(Mnist-like)、64、128、および224
MedMnistは、3Dの2Dおよび6データセットの12のデータセットを含む、標準化された生物医学画像の大規模なミストのようなコレクションです。すべての画像は、対応する分類ラベルを使用して28x28(2D)または28x28x28(3D)に前処理されているため、ユーザーには背景知識が必要ありません。生物医学画像の一次データのモダリティをカバーするMedMnistは、さまざまなデータスケール(100〜100,000)および多様なタスク(バイナリ/マルチクラス、順序回帰、マルチライベル)を備えた軽量2Dおよび3D画像の分類を実行するように設計されています。合計で約708kの2D 2D画像と10k 3D画像で構成される結果のデータセットは、生物医学的画像分析、コンピュータービジョン、機械学習における多くの研究と教育目的をサポートできます。 2D / 3Dニューラルネットワークやオープンソース /商用自動車ツールなど、MedMnistに関するいくつかのベースラインメソッドをベンチマークします。
免責事項:MedMnistデータセットの唯一の公式配信リンクはZenodoです。正確で最新のデータについては、ユーザーにこの元のデータセットリンクを参照するようお願いします。
更新2024-01-17 :2Dの場合は64x64、128x128、および224x224、3Dで64x64x64の大きいサイズでMedmnist+をリリースできることに興奮しています。以前の28サイズのMedMnistを補完するものとして、大規模バージョンは医療基金モデルの標準化されたベンチマークとして機能する可能性があります。最新のAPIをインストールして試してみてください!
サードパーティの更新2024-05-13 : @sdoerrich97は、12のすべての2Dデータセットと利用可能な画像解像度で3つの異なるトレーニングスキームを介してトレーニングされた10の異なるディープラーニングモデルをカバーするMedmnist+の包括的な評価をリリースしました(28x28、64x64、128x128、および224x224)。ここで問題を確認してください。
サードパーティの更新2024-12-20 : @francescodisalvo05は、Medmnistデータセットの破損したバージョンであるMedmnist-Cを導入し、モダリティ固有の画像の腐敗と拡張APIを導入しました。この作業は、モデルの堅牢性を評価および強化することを目的としています。ここで問題を確認してください。
詳細については、私たちの論文を参照してください。
Medmnist V2:2Dおよび3D生物医学画像分類のための大規模な軽量ベンチマーク(Nature Scientific Data'23)
またはその会議バージョン:
Medmnist分類Decathlon:医療画像分析のための軽量自動車ベンチマーク(ISBI'21)
このデータセットは臨床使用を目的としていないことに注意してください。
medmnist/ :dataset.pyのPytorch DatasetsとDataloaders。evaluator.py :標準化された評価関数。info.pyの各サブセットのデータセット情報dict 。examples/ :getting_started.ipynb :JupyterノートブックでMedMnistデータセットを探索する。迅速な探索のみを目的としています。つまり、完全なトレーニングと評価機能を提供しません。getting_started_without_PyTorch.ipynb :このノートブックは、pytorchなしでmedmnistデータ( .npzファイル)の使用方法に関するスニペットを提供します。setup.py medmnistモジュールとしてインストールする。MedMNIST/experiments :Pytorch、Auto-Sklearn、Autokeras、Google Automl Visionを含む2Dと3Dの両方の実験を重量とともに再現するためのトレーニングと評価スクリプト。)必要な環境をセットアップし、 medmnist PYPIの標準Pythonパッケージとしてインストールします。
pip install medmnist
またはソースからインストール:
pip install --upgrade git+https://github.com/MedMNIST/MedMNIST.git
最新のコードバージョンをインストールしたかどうかを確認してください。
>>> import medmnist
>>> print(medmnist.__version__)
このコードには、機械学習には一般的なPython環境のみが必要です。基本的に、テストされました
より高い(または低い)バージョンも機能する必要があります(おそらくマイナーな変更で)。
ダウンロードされたファイルを使用して標準の28サイズ(Mnist-like)バージョンを使用するには:
>>> from medmnist import PathMNIST
>>> train_dataset = PathMNIST(split="train")
download=Trueを設定して自動ダウンロードを有効にするには:
>>> from medmnist import NoduleMNIST3D
>>> val_dataset = NoduleMNIST3D(split="val", download=True)
または、 sizeパラメーターを指定することにより、より大きな画像サイズでMedMnist+にアクセスできます。
>>> from medmnist import ChestMNIST
>>> test_dataset = ChestMNIST(split="test", download=True, size=224)
素晴らしい!私たちのコードは、Pytorchで動作するように設計されています。
jupyterノートブック( getting_started.ipynb )を使用してMedmnistデータセットを探索し、Pytorchで基本的なニューラルネットワークをトレーニングします。
getting_started_without_PyTorch.ipynb .npz移動します。MedMNISTのスーパークラスをtorch.utils.data.Datasetからcollections.Sequenceに変更するだけで、Pytorchなしで標準のデータセットが取得されます。詳細については、 dataset_without_pytorch.pyを確認してください。Zenodo経由でデータセットをダウンロードしてください。 dataset.pyでdownload=True設定して、コードを使用して自動的にダウンロードすることもできます。
MedMnistデータセットにはいくつかのサブセットが含まれています。各サブセット(たとえば、 pathmnist.npz )は、 train_images 、 train_labels 、 val_images 、 val_labels 、 test_images 、 test_labelsの6つのキーで構成されています。
train_images / val_images / test_images :2Dグレースケールデータセットの場合はN ×28×28、2D RGBデータセットの場合はN ×28×28×3、3DデータセットのN ×28×28×28。 Nサンプルの数を示します。train_labels / val_labels / test_labels : N × L 。 Nサンプルの数を示します。 L 、タスクラベルの数を示します。シングルラベル(バイナリ/マルチクラス)分類の場合、 L=1 、および{0,1,2,3,..,C}カテゴリラベル(バイナリの場合はC=1 )を示します。マルチラベル分類L!=1 、例えばL=14 chestmnist.npzの場合。さらに、こちらのMedMnistサブセットごとにCSVファイルを提供します。これは、サブセット内の「Image_id」をソースデータセットの対応する画像にマップします。各エントリについて、MedMnistサブセット内の特定の「分割」と「インデックス」と、公式ソースデータセットの対応する画像名を詳しく説明します。
利用可能なすべてのデータセットをリストします:
python -m medmnist available
特定のサイズの利用可能なデータセット( size=None (28)でデフォルトでダウンロードします):
python -m medmnist download --size=28
利用可能なすべてのサイズをダウンロードするには:
python -m medmnist download --size=all
rootからダウンロードしたすべてのNPZを削除します:
python -m medmnist clean
サブセットフラグが与えられたデータセットの詳細を印刷:
python -m medmnist info --flag=xxxmnist
データセットを標準フィギュアとCSVファイルとして保存します。これは、自動車ツールに使用できます。たとえば、Google Automl Vision:
2Dデータセットの場合:
python -m medmnist save --flag=xxxmnist --folder=tmp/ --postfix=png --download=True --size=28
3Dデータセットの場合:
python -m medmnist save --flag=xxxmnist3d --folder=tmp/ --postfix=gif --download=True --size=28
デフォルトでは、 download=Falseとsize=None (28)。
詳細については、標準の結果ファイルを解析して評価しますEvaluator.parse_and_evaluateを参照してください。
python -m medmnist evaluate --path=folder/{flag}{size_flag}_{split}@{run}.csv
ここでは、 size_flagは28枚の画像で空白で、 _size大きい画像の場合は「_64」などです。
python -m medmnist evaluate --path=bloodmnist_64_val_[AUC]0.486_[ACC][email protected]
または
python -m medmnist evaluate --path=chestmnist_test_[AUC]0.500_[ACC][email protected]
MedMnist Datasetは、 Creative Commons Nononcommercial 4.0 International (CC BY-NC 4.0)の下でのDermamnistを除き、Creative Commons Attribution 4.0 International (CC by 4.0)の下でライセンスされています。コードはApache-2.0ライセンスの下にあります。
このプロジェクトがあなたの研究で役立つと思う場合は、次の論文を引用してください。
Jiancheng Yang, Rui Shi, Donglai Wei, Zequan Liu, Lin Zhao, Bilian Ke, Hanspeter Pfister, Bingbing Ni. Yang, Jiancheng, et al. "MedMNIST v2-A large-scale lightweight benchmark for 2D and 3D biomedical image classification." Scientific Data, 2023.
Jiancheng Yang, Rui Shi, Bingbing Ni. "MedMNIST Classification Decathlon: A Lightweight AutoML Benchmark for Medical Image Analysis". IEEE 18th International Symposium on Biomedical Imaging (ISBI), 2021.
またはbibtexを使用してください:
@article{medmnistv2,
title={MedMNIST v2-A large-scale lightweight benchmark for 2D and 3D biomedical image classification},
author={Yang, Jiancheng and Shi, Rui and Wei, Donglai and Liu, Zequan and Zhao, Lin and Ke, Bilian and Pfister, Hanspeter and Ni, Bingbing},
journal={Scientific Data},
volume={10},
number={1},
pages={41},
year={2023},
publisher={Nature Publishing Group UK London}
}
@inproceedings{medmnistv1,
title={MedMNIST Classification Decathlon: A Lightweight AutoML Benchmark for Medical Image Analysis},
author={Yang, Jiancheng and Shi, Rui and Ni, Bingbing},
booktitle={IEEE 18th International Symposium on Biomedical Imaging (ISBI)},
pages={191--195},
year={2021}
}
また、プロジェクトページの説明に従って、MedMnist Subsetのソースデータペーパーを引用してください。
v3.0.2 :評価者( size_flag )でバグが修正され、pypiが更新されました。v3.0.1 :ダウンロードエラーメッセージを更新して、より有益にしました。v3.0.0 :Medmnist+は、2Dで64x64、128x128、および224x224、3dで64x64x64を備えています。v2.2.4 :オーガニスト、オルガンニスト、オルガンスミスト、OrganMnist3D、およびVesselMnist3Dの少数の空白のサンプルを削除しました。v2.2.3 :CC BY-NC 4.0への皮膚炎ライセンスv2.2.2 :collections.abcのpython 3.11 Sequenceサポートv2.2.1 :Pypi情報が更新されましたv2.2.0 :Scikit-Image> = 0.20.0でサポートされているmontageメソッドv2.1.0 : NoduleMNIST3Dデータエラーが修正されましたv2.0.0 :Medmnist V2リリース(Pypiで)v1.0.0 :Medmnist V1リリースv0.2.0 :MedMnist Betaリリース