Jiancheng Yang, Rui Shi, Donglai Wei, Zequan Liu, Lin Zhao, Bilian KE, Hanspeter Pfister, Bingbing NI
다중 크기 옵션 : 28 (mnist-like), 64, 128 및 224
우리는 2D 용 12 개의 데이터 세트 및 3D 용 6 개의 데이터 세트를 포함하여 대규모 MNIST와 같은 표준화 된 생물 의학 이미지 모음 인 MEDMNIST를 소개합니다. 모든 이미지는 해당 분류 레이블을 사용하여 28x28 (2D) 또는 28x28x28 (3D)으로 사전 처리되므로 사용자에게는 배경 지식이 필요하지 않습니다. 생물 의학 이미지의 1 차 데이터 방식을 다루는 MedMnist는 다양한 데이터 척도 (100 ~ 100,000)와 다양한 작업 (바이너리/멀티 클래스, 서수 회귀 및 다중 라벨)을 갖춘 경량 2D 및 3D 이미지에 분류하도록 설계되었습니다. 약 708K 2D 이미지와 총 10K 3D 이미지로 구성된 결과 데이터 세트는 생의학 이미지 분석, 컴퓨터 비전 및 기계 학습에서 수많은 연구 및 교육 목적을 지원할 수 있습니다. 우리는 2D / 3D 신경망 및 오픈 소스 / 상용 자동 도구를 포함하여 MEDMNIST의 몇 가지 기준 방법을 벤치마킹합니다.
면책 조항 : MEDMNIST 데이터 세트의 유일한 공식 배포 링크는 Zenodo입니다. 우리는 정확하고 최신 데이터를 위해이 원래 데이터 세트 링크를 참조하도록 사용자에게 친절하게 요청합니다.
업데이트 2024-01-17 : 2D의 경우 64x64, 128x128 및 224x224, 3D의 경우 64x64, 128x128 및 224x224를 더 큰 크기로 MedMnist+를 출시하게되어 기쁩니다. 이전 28 크기의 MEDMNIST를 보완하는 대형 버전은 의료 기초 모델의 표준화 된 벤치 마크 역할을 할 수 있습니다. 최신 API를 설치하여 시도하십시오!
타사 업데이트 2024-05-13 : @SDOERRICH97은 12 개의 2D 데이터 세트 및 사용 가능한 이미지 해상도 (28x28, 64x64, 128x128 및 224x224)에서 3 개의 별개의 교육 체계를 통해 훈련 된 10 가지 딥 러닝 모델을 다루는 MEDMNIST+에 대한 포괄적 인 평가를 발표했습니다. 여기에서 문제를 확인하십시오.
타사 업데이트 2024-12-20 : @francescodisalvo05는 MEDMNIST 데이터 세트의 손상된 버전 인 MEDMNIST-C를 소개했습니다. 이 작업은 모델 견고성을 평가하고 향상시키는 것을 목표로합니다. 여기에서 문제를 확인하십시오.
자세한 내용은 논문을 참조하십시오.
MEDMNIST V2 : 2D 및 3D 생물 의학 이미지 분류를위한 대규모 경량 벤치 마크 (Nature Scientific Data'23)
또는 회의 버전 :
MedMnist 분류 데카 슬론 : 의료 이미지 분석을위한 경량 자동 벤치 마크 (ISBI'21)
이 데이터 세트는 임상 사용을위한 것이 아닙니다 .
medmnist/ :dataset.py : MedMnist의 Pytorch DataSets 및 Dataloaders.evaluator.py : 표준화 된 평가 기능.info.py : MedMnist의 각 하위 집합에 대한 데이터 세트 정보 dict .examples/ :getting_started.ipynb : Jupyter 노트북으로 MedMnist 데이터 세트를 탐색합니다. 그것은 빠른 탐색을위한 것이며, 즉, 완전한 훈련 및 평가 기능을 제공하지는 않습니다.getting_started_without_PyTorch.ipynb :이 노트북은 pytorch없이 medmnist 데이터 ( .npz 파일)를 사용하는 방법에 대한 스 니펫을 제공합니다.setup.py : medmnist 모듈로 설치합니다.MedMNIST/experiments : Pytorch, Auto-Sklearn, Autokeras 및 Google Automl 비전을 포함하여 우리 논문에서 2D 및 3D 실험을 모두 재현하기위한 교육 및 평가 스크립트;) 필요한 환경을 설정하고 PYPI의 표준 파이썬 패키지로 medmnist 설치하십시오.
pip install medmnist
또는 소스에서 설치 :
pip install --upgrade git+https://github.com/MedMNIST/MedMNIST.git
최신 코드 버전을 설치했는지 확인하십시오.
>>> import medmnist
>>> print(medmnist.__version__)
이 코드는 기계 학습을위한 일반적인 파이썬 환경 만 필요합니다. 기본적으로 테스트되었습니다
더 높은 (또는 더 낮은) 버전도 작동해야합니다 (아마도 약간의 수정으로).
다운로드 된 파일을 사용하는 표준 28 사이즈 (mnist-like) 버전을 사용하려면 다음과 같습니다.
>>> from medmnist import PathMNIST
>>> train_dataset = PathMNIST(split="train")
download=True :
>>> from medmnist import NoduleMNIST3D
>>> val_dataset = NoduleMNIST3D(split="val", download=True)
또는 size 매개 변수를 지정하여 더 큰 이미지 크기로 MedMnist+에 액세스 할 수 있습니다.
>>> from medmnist import ChestMNIST
>>> test_dataset = ChestMNIST(split="test", download=True, size=224)
엄청난! 우리의 코드는 Pytorch와 함께 작동하도록 설계되었습니다.
Jupyter Notebook ( getting_started.ipynb )으로 MedMnist 데이터 세트를 탐색하고 Pytorch에서 기본 신경망을 훈련하십시오.
.npz 파일)를 사용하는 방법에 대한 스 니펫을 제공하는 getting_started_without_PyTorch.ipynb 로 이동하십시오.MedMNIST 의 슈퍼 클래스를 torch.utils.data.Dataset 에서 collections.Sequence 로 변경하면 Pytorch가없는 표준 데이터 세트를 얻게됩니다. 자세한 내용은 dataset_without_pytorch.py 확인하십시오. Zenodo를 통해 데이터 세트를 다운로드하십시오. dataset.py 에서 download=True 설정하여 코드를 사용하여 자동으로 다운로드 할 수도 있습니다.
MEDMNIST 데이터 세트에는 여러 서브 세트가 포함되어 있습니다. 각 서브 세트 (예 : pathmnist.npz )는 6 개의 키로 구성되어 있습니다 : train_images , train_labels , val_images , val_labels , test_images 및 test_labels .
train_images / val_images / test_images : 2D 그레이 스케일 데이터 세트의 경우 N × 28 × 28, 2D RGB 데이터 세트의 경우 N × 28 × 28 × 3, 3D 데이터 세트의 경우 N × 28 × 28 × 28. N 샘플의 수를 나타냅니다.train_labels / val_labels / test_labels : N × L . N 샘플의 수를 나타냅니다. L 작업 레이블의 수를 나타냅니다. 단일 라벨 (바이너리/멀티 클래스) 분류의 경우, L=1 및 {0,1,2,3,..,C} 범주 레이블 (이진의 경우 C=1 )을 나타냅니다. 멀티 라벨 분류의 경우 L!=1 , 예를 들어, chestmnist.npz 의 경우 L=14 .또한 여기에서 각 MedMnist 서브 세트에 대한 CSV 파일을 제공합니다. 여기서는 소스 데이터 세트의 해당 이미지에 서브 세트의 "image_id"를 매핑합니다. 각 항목에 대해 공식 소스 데이터 세트의 해당 이미지 이름과 함께 MedMnist 서브 세트 내의 특정 "분할"및 "색인"을 자세히 설명합니다.
사용 가능한 모든 데이터 세트 나열 :
python -m medmnist available
특정 크기의 사용 가능한 데이터 세트를 다운로드합니다 (기본적으로 size=None (28)) :
python -m medmnist download --size=28
사용 가능한 모든 크기를 다운로드하려면 :
python -m medmnist download --size=all
루트에서 다운로드 된 모든 NPZ 삭제 :
python -m medmnist clean
서브 세트 플래그가 주어진 데이터 세트 세부 사항을 인쇄합니다.
python -m medmnist info --flag=xxxmnist
데이터 세트를 표준 그림 및 CSV 파일로 저장합니다. 예 : Google Automl Vision : Automl 도구에 사용할 수 있습니다.
2D 데이터 세트 :
python -m medmnist save --flag=xxxmnist --folder=tmp/ --postfix=png --download=True --size=28
3D 데이터 세트 :
python -m medmnist save --flag=xxxmnist3d --folder=tmp/ --postfix=gif --download=True --size=28
기본적으로 download=False 및 size=None (28).
표준 결과 파일을 구문 분석하고 평가하십시오. 자세한 내용은 Evaluator.parse_and_evaluate 를 참조하십시오.
python -m medmnist evaluate --path=folder/{flag}{size_flag}_{split}@{run}.csv
여기에서 size_flag 는 28 개의 이미지의 경우 비어 있고 더 큰 이미지의 경우 _size (예 : "_64", 예 :
python -m medmnist evaluate --path=bloodmnist_64_val_[AUC]0.486_[ACC][email protected]
또는
python -m medmnist evaluate --path=chestmnist_test_[AUC]0.500_[ACC][email protected]
MEDMNIST 데이터 세트는 Creative Commons Attribution-Noncommercial 4.0 International (CC By-NC 4.0)에 따른 Dermamnist를 제외하고 Creative Commons Attribution 4.0 International (4.0)에 따라 라이센스가 부여됩니다. 코드는 Apache-2.0 라이센스에 따라 있습니다.
이 프로젝트가 귀하의 연구에 유용하다고 생각되면 다음 논문을 인용하십시오.
Jiancheng Yang, Rui Shi, Donglai Wei, Zequan Liu, Lin Zhao, Bilian Ke, Hanspeter Pfister, Bingbing Ni. Yang, Jiancheng, et al. "MedMNIST v2-A large-scale lightweight benchmark for 2D and 3D biomedical image classification." Scientific Data, 2023.
Jiancheng Yang, Rui Shi, Bingbing Ni. "MedMNIST Classification Decathlon: A Lightweight AutoML Benchmark for Medical Image Analysis". IEEE 18th International Symposium on Biomedical Imaging (ISBI), 2021.
또는 Bibtex 사용 :
@article{medmnistv2,
title={MedMNIST v2-A large-scale lightweight benchmark for 2D and 3D biomedical image classification},
author={Yang, Jiancheng and Shi, Rui and Wei, Donglai and Liu, Zequan and Zhao, Lin and Ke, Bilian and Pfister, Hanspeter and Ni, Bingbing},
journal={Scientific Data},
volume={10},
number={1},
pages={41},
year={2023},
publisher={Nature Publishing Group UK London}
}
@inproceedings{medmnistv1,
title={MedMNIST Classification Decathlon: A Lightweight AutoML Benchmark for Medical Image Analysis},
author={Yang, Jiancheng and Shi, Rui and Ni, Bingbing},
booktitle={IEEE 18th International Symposium on Biomedical Imaging (ISBI)},
pages={191--195},
year={2021}
}
또한 프로젝트 페이지의 설명에 따라 MedMnist 서브 세트의 소스 데이터 용지를 인용하십시오.
v3.0.2 : Evaluator ( size_flag ) 및 PYPI가 업데이트 된 버그가 고정되었습니다.v3.0.1 : 다운로드 오류 메시지를 업데이트하여보다 유익하게 만들었습니다.v3.0.0 : 2D의 경우 64x64, 128x128 및 224x224, 3D의 경우 64x64, 128x128 및 224x224를 특징으로합니다.v2.2.4 : Organamnist, organcmnist, organsmnist, organmnist3d 및 vesselmnist3d에서 소수의 빈 샘플을 제거했습니다.v2.2.3 : CC By-NC 4.0에 대한 Dermamnist 라이센스v2.2.2 : Collections.ABC의 Python 3.11 Sequencev2.2.1 : PYPI 정보가 업데이트되었습니다v2.2.0 : Scikit-Image> = 0.20.0에 대한 montage 방법v2.1.0 : NoduleMNIST3D 데이터 오류가 수정되었습니다v2.0.0 : MedMnist v2 릴리스 (PYPI)v1.0.0 : MedMnist v1 릴리스v0.2.0 : MedMnist 베타 릴리스