MedMNISTダウンロードMedMNISTソースコードのダウンロード

MedMNIST

パイソン

1.0.0

ダウンロード

MedMnist：MedMnist.com

データ（Zenodo）|出版物（Nature Scientific Data'23 / ISBI'21）|プリプリント（arxiv）

Jiancheng Yang、Rui Shi、Donglai Wei、Zequan Liu、Lin Zhao、Bilian KE、Hanspeter Pfister、Bingbing NI

2Dおよび3D生物医学画像分類用の18倍の標準化されたデータセット

複数のサイズオプション：28（Mnist-like）、64、128、および224

MedMnistは、3Dの2Dおよび6データセットの12のデータセットを含む、標準化された生物医学画像の大規模なミストのようなコレクションです。すべての画像は、対応する分類ラベルを使用して28x28（2D）または28x28x28（3D）に前処理されているため、ユーザーには背景知識が必要ありません。生物医学画像の一次データのモダリティをカバーするMedMnistは、さまざまなデータスケール（100〜100,000）および多様なタスク（バイナリ/マルチクラス、順序回帰、マルチライベル）を備えた軽量2Dおよび3D画像の分類を実行するように設計されています。合計で約708kの2D 2D画像と10k 3D画像で構成される結果のデータセットは、生物医学的画像分析、コンピュータービジョン、機械学習における多くの研究と教育目的をサポートできます。 2D / 3Dニューラルネットワークやオープンソース /商用自動車ツールなど、MedMnistに関するいくつかのベースラインメソッドをベンチマークします。

免責事項：MedMnistデータセットの唯一の公式配信リンクはZenodoです。正確で最新のデータについては、ユーザーにこの元のデータセットリンクを参照するようお願いします。

更新2024-01-17 ：2Dの場合は64x64、128x128、および224x224、3Dで64x64x64の大きいサイズでMedmnist+をリリースできることに興奮しています。以前の28サイズのMedMnistを補完するものとして、大規模バージョンは医療基金モデルの標準化されたベンチマークとして機能する可能性があります。最新のAPIをインストールして試してみてください！

サードパーティの更新2024-05-13 ： @sdoerrich97は、12のすべての2Dデータセットと利用可能な画像解像度で3つの異なるトレーニングスキームを介してトレーニングされた10の異なるディープラーニングモデルをカバーするMedmnist+の包括的な評価をリリースしました（28x28、64x64、128x128、および224x224）。ここで問題を確認してください。

サードパーティの更新2024-12-20 ： @francescodisalvo05は、Medmnistデータセットの破損したバージョンであるMedmnist-Cを導入し、モダリティ固有の画像の腐敗と拡張APIを導入しました。この作業は、モデルの堅牢性を評価および強化することを目的としています。ここで問題を確認してください。

詳細については、私たちの論文を参照してください。

Medmnist V2：2Dおよび3D生物医学画像分類のための大規模な軽量ベンチマーク（Nature Scientific Data'23）

またはその会議バージョン：

Medmnist分類Decathlon：医療画像分析のための軽量自動車ベンチマーク（ISBI'21）

重要な機能

多様：多様なデータモダリティ、データセットスケール（100〜100,000）、およびタスク（バイナリ/マルチクラス、マルチラベル、および順序回帰）をカバーします。さまざまな設定で機械学習アルゴリズムの一般化可能なパフォーマンスを公正に評価することは、VDDとMSDと同じくらい多様ですが、2Dと3Dの両方の生物医学画像が提供されています。
標準化：各サブデータセットは同じ形式に前処理されます。これには、ユーザーに背景知識が必要ありません。小さな画像で分類タスクを実行するためのMNISTのようなデータセットコレクションとして、主にエンドツーエンドシステムではなく、機械学習部分に焦点を当てています。さらに、MedMnistのすべてのデータセットに対して標準の列車検証テストスプリットを提供するため、アルゴリズムを簡単に比較できます。
ユーザーフレンドリー：28x28（2D）または28x28x28（3D）の小サイズは軽量で、機械学習アルゴリズムの評価に最適です。また、より大きなバージョン、MedMnist+：64x64（2d）、128x128（2d）、224x224（2d）、および64x64x64（3d）も提供しています。 28サイズのMedmnistを補完するものとして、これは医療基盤モデルを開発するための標準化されたリソースになる可能性があります。これらのデータセットはすべて、同じAPIからアクセスできます。
教育：学際的な研究分野として、バイオメディカルイメージ分析は、コンピュータービジョン、機械学習、生物医学イメージング、臨床科学の背景知識が必要であるため、他のコミュニティの研究者にとって実践することが困難です。 Creative Commons（CC）ライセンスを使用したデータは、教育目的で簡単に使用できます。

このデータセットは臨床使用を目的としていないことに注意してください。

コード構造

medmnist/ ：
- dataset.pyのPytorch DatasetsとDataloaders。
- evaluator.py ：標準化された評価関数。
- info.pyの各サブセットのデータセット情報dict 。
examples/ ：
- getting_started.ipynb ：JupyterノートブックでMedMnistデータセットを探索する。迅速な探索のみを目的としています。つまり、完全なトレーニングと評価機能を提供しません。
- getting_started_without_PyTorch.ipynb ：このノートブックは、pytorchなしでmedmnistデータ（ .npzファイル）の使用方法に関するスニペットを提供します。
setup.py medmnistモジュールとしてインストールする。
[外部] MedMNIST/experiments ：Pytorch、Auto-Sklearn、Autokeras、Google Automl Visionを含む2Dと3Dの両方の実験を重量とともに再現するためのトレーニングと評価スクリプト。）

インストールと要件

必要な環境をセットアップし、 medmnist PYPIの標準Pythonパッケージとしてインストールします。

 pip install medmnist

またはソースからインストール：

 pip install --upgrade git+https://github.com/MedMNIST/MedMNIST.git

最新のコードバージョンをインストールしたかどうかを確認してください。

 >>> import medmnist
>>> print(medmnist.__version__)

このコードには、機械学習には一般的なPython環境のみが必要です。基本的に、テストされました

Python 3（> = 3.6）
pytorch == 1.3.1
numpy == 1.18.5、pandas == 0.25.3、scikit-learn == 0.22.2、枕== 8.0.1
火、scikit-image

より高い（または低い）バージョンも機能する必要があります（おそらくマイナーな変更で）。

クイックスタート

ダウンロードされたファイルを使用して標準の28サイズ（Mnist-like）バージョンを使用するには：

 >>> from medmnist import PathMNIST
>>> train_dataset = PathMNIST(split="train")

download=Trueを設定して自動ダウンロードを有効にするには：

 >>> from medmnist import NoduleMNIST3D
>>> val_dataset = NoduleMNIST3D(split="val", download=True)

または、 sizeパラメーターを指定することにより、より大きな画像サイズでMedMnist+にアクセスできます。

 >>> from medmnist import ChestMNIST
>>> test_dataset = ChestMNIST(split="test", download=True, size=224)

Pytorchを使用する場合...

素晴らしい！私たちのコードは、Pytorchで動作するように設計されています。
jupyterノートブック（ getting_started.ipynb ）を使用してMedmnistデータセットを探索し、Pytorchで基本的なニューラルネットワークをトレーニングします。

Pytorchを使用しない場合...

私たちのコードはPytorchでテストされていますが、標準のNumpyシリアル化ファイルのみであるため、独自のコード（PytorchなしでもPythonなしでも）で自由に解析できます。 Pytorchなしでデータセットを作成するのは簡単です。
getting_started_without_PyTorch.ipynb .npz移動します。
MedMNISTのスーパークラスをtorch.utils.data.Datasetからcollections.Sequenceに変更するだけで、Pytorchなしで標準のデータセットが取得されます。詳細については、 dataset_without_pytorch.pyを確認してください。
あなたはまだ私たちのMedMnistコードのほとんどの機能を持っています;）

データセット

Zenodo経由でデータセットをダウンロードしてください。 dataset.pyでdownload=True設定して、コードを使用して自動的にダウンロードすることもできます。

MedMnistデータセットにはいくつかのサブセットが含まれています。各サブセット（たとえば、 pathmnist.npz ）は、 train_images 、 train_labels 、 val_images 、 val_labels 、 test_images 、 test_labelsの6つのキーで構成されています。

train_images / val_images / test_images ：2Dグレースケールデータセットの場合はN ×28×28、2D RGBデータセットの場合はN ×28×28×3、3DデータセットのN ×28×28×28。 Nサンプルの数を示します。
train_labels / val_labels / test_labels ： N × L 。 Nサンプルの数を示します。 L 、タスクラベルの数を示します。シングルラベル（バイナリ/マルチクラス）分類の場合、 L=1 、および{0,1,2,3,..,C}カテゴリラベル（バイナリの場合はC=1 ）を示します。マルチラベル分類L!=1 、例えばL=14 chestmnist.npzの場合。

さらに、こちらのMedMnistサブセットごとにCSVファイルを提供します。これは、サブセット内の「Image_id」をソースデータセットの対応する画像にマップします。各エントリについて、MedMnistサブセット内の特定の「分割」と「インデックス」と、公式ソースデータセットの対応する画像名を詳しく説明します。

コマンドラインツール

利用可能なすべてのデータセットをリストします：
```
  python -m medmnist available
```
特定のサイズの利用可能なデータセット（ size=None （28）でデフォルトでダウンロードします）：
```
  python -m medmnist download --size=28
```
利用可能なすべてのサイズをダウンロードするには：
```
  python -m medmnist download --size=all
```
rootからダウンロードしたすべてのNPZを削除します：
```
  python -m medmnist clean
```
サブセットフラグが与えられたデータセットの詳細を印刷：
```
  python -m medmnist info --flag=xxxmnist
```
データセットを標準フィギュアとCSVファイルとして保存します。これは、自動車ツールに使用できます。たとえば、Google Automl Vision：
2Dデータセットの場合：
```
  python -m medmnist save --flag=xxxmnist --folder=tmp/ --postfix=png --download=True --size=28
```
3Dデータセットの場合：
```
  python -m medmnist save --flag=xxxmnist3d --folder=tmp/ --postfix=gif --download=True --size=28
```
デフォルトでは、 download=Falseとsize=None （28）。

詳細については、標準の結果ファイルを解析して評価しますEvaluator.parse_and_evaluateを参照してください。

  python -m medmnist evaluate --path=folder/{flag}{size_flag}_{split}@{run}.csv

ここでは、 size_flagは28枚の画像で空白で、 _size大きい画像の場合は「_64」などです。

  python -m medmnist evaluate --path=bloodmnist_64_val_[AUC]0.486_[ACC][email protected]

または

  python -m medmnist evaluate --path=chestmnist_test_[AUC]0.500_[ACC][email protected]

ライセンスと引用

MedMnist Datasetは、 Creative Commons Nononcommercial 4.0 International （CC BY-NC 4.0）の下でのDermamnistを除き、Creative Commons Attribution 4.0 International （CC by 4.0）の下でライセンスされています。コードはApache-2.0ライセンスの下にあります。

このプロジェクトがあなたの研究で役立つと思う場合は、次の論文を引用してください。

 Jiancheng Yang, Rui Shi, Donglai Wei, Zequan Liu, Lin Zhao, Bilian Ke, Hanspeter Pfister, Bingbing Ni. Yang, Jiancheng, et al. "MedMNIST v2-A large-scale lightweight benchmark for 2D and 3D biomedical image classification." Scientific Data, 2023.

Jiancheng Yang, Rui Shi, Bingbing Ni. "MedMNIST Classification Decathlon: A Lightweight AutoML Benchmark for Medical Image Analysis". IEEE 18th International Symposium on Biomedical Imaging (ISBI), 2021.

またはbibtexを使用してください：

 @article{medmnistv2,
    title={MedMNIST v2-A large-scale lightweight benchmark for 2D and 3D biomedical image classification},
    author={Yang, Jiancheng and Shi, Rui and Wei, Donglai and Liu, Zequan and Zhao, Lin and Ke, Bilian and Pfister, Hanspeter and Ni, Bingbing},
    journal={Scientific Data},
    volume={10},
    number={1},
    pages={41},
    year={2023},
    publisher={Nature Publishing Group UK London}
}
 
@inproceedings{medmnistv1,
    title={MedMNIST Classification Decathlon: A Lightweight AutoML Benchmark for Medical Image Analysis},
    author={Yang, Jiancheng and Shi, Rui and Ni, Bingbing},
    booktitle={IEEE 18th International Symposium on Biomedical Imaging (ISBI)},
    pages={191--195},
    year={2021}
}

また、プロジェクトページの説明に従って、MedMnist Subsetのソースデータペーパーを引用してください。

ノートをリリースします

v3.0.2 ：評価者（ size_flag ）でバグが修正され、pypiが更新されました。
v3.0.1 ：ダウンロードエラーメッセージを更新して、より有益にしました。
v3.0.0 ：Medmnist+は、2Dで64x64、128x128、および224x224、3dで64x64x64を備えています。
v2.2.4 ：オーガニスト、オルガンニスト、オルガンスミスト、OrganMnist3D、およびVesselMnist3Dの少数の空白のサンプルを削除しました。
v2.2.3 ：CC BY-NC 4.0への皮膚炎ライセンス
v2.2.2 ：collections.abcのpython 3.11 Sequenceサポート
v2.2.1 ：Pypi情報が更新されました
v2.2.0 ：Scikit-Image> = 0.20.0でサポートされているmontageメソッド
v2.1.0 ： NoduleMNIST3Dデータエラーが修正されました
v2.0.0 ：Medmnist V2リリース（Pypiで）
v1.0.0 ：Medmnist V1リリース
v0.2.0 ：MedMnist Betaリリース