MedMNIST 다운로드 MedMNIST 소스 코드 다운로드

MedMNIST

파이썬

1.0.0

다운로드

medmnist : medmnist.com

데이터 (Zenodo) | 간행물 (Nature Scientific Data'23 / ISBI'21) | 사전 인쇄 (arxiv)

Jiancheng Yang, Rui Shi, Donglai Wei, Zequan Liu, Lin Zhao, Bilian KE, Hanspeter Pfister, Bingbing NI

2D 및 3D 생물 의학 이미지 분류를위한 18 배 표준화 된 데이터 세트

다중 크기 옵션 : 28 (mnist-like), 64, 128 및 224

우리는 2D 용 12 개의 데이터 세트 및 3D 용 6 개의 데이터 세트를 포함하여 대규모 MNIST와 같은 표준화 된 생물 의학 이미지 모음 인 MEDMNIST를 소개합니다. 모든 이미지는 해당 분류 레이블을 사용하여 28x28 (2D) 또는 28x28x28 (3D)으로 사전 처리되므로 사용자에게는 배경 지식이 필요하지 않습니다. 생물 의학 이미지의 1 차 데이터 방식을 다루는 MedMnist는 다양한 데이터 척도 (100 ~ 100,000)와 다양한 작업 (바이너리/멀티 클래스, 서수 회귀 및 다중 라벨)을 갖춘 경량 2D 및 3D 이미지에 분류하도록 설계되었습니다. 약 708K 2D 이미지와 총 10K 3D 이미지로 구성된 결과 데이터 세트는 생의학 이미지 분석, 컴퓨터 비전 및 기계 학습에서 수많은 연구 및 교육 목적을 지원할 수 있습니다. 우리는 2D / 3D 신경망 및 오픈 소스 / 상용 자동 도구를 포함하여 MEDMNIST의 몇 가지 기준 방법을 벤치마킹합니다.

면책 조항 : MEDMNIST 데이터 세트의 유일한 공식 배포 링크는 Zenodo입니다. 우리는 정확하고 최신 데이터를 위해이 원래 데이터 세트 링크를 참조하도록 사용자에게 친절하게 요청합니다.

업데이트 2024-01-17 : 2D의 경우 64x64, 128x128 및 224x224, 3D의 경우 64x64, 128x128 및 224x224를 더 큰 크기로 MedMnist+를 출시하게되어 기쁩니다. 이전 28 크기의 MEDMNIST를 보완하는 대형 버전은 의료 기초 모델의 표준화 된 벤치 마크 역할을 할 수 있습니다. 최신 API를 설치하여 시도하십시오!

타사 업데이트 2024-05-13 : @SDOERRICH97은 12 개의 2D 데이터 세트 및 사용 가능한 이미지 해상도 (28x28, 64x64, 128x128 및 224x224)에서 3 개의 별개의 교육 체계를 통해 훈련 된 10 가지 딥 러닝 모델을 다루는 MEDMNIST+에 대한 포괄적 인 평가를 발표했습니다. 여기에서 문제를 확인하십시오.

타사 업데이트 2024-12-20 : @francescodisalvo05는 MEDMNIST 데이터 세트의 손상된 버전 인 MEDMNIST-C를 소개했습니다. 이 작업은 모델 견고성을 평가하고 향상시키는 것을 목표로합니다. 여기에서 문제를 확인하십시오.

자세한 내용은 논문을 참조하십시오.

MEDMNIST V2 : 2D 및 3D 생물 의학 이미지 분류를위한 대규모 경량 벤치 마크 (Nature Scientific Data'23)

또는 회의 버전 :

MedMnist 분류 데카 슬론 : 의료 이미지 분석을위한 경량 자동 벤치 마크 (ISBI'21)

주요 기능

다양한 : 다양한 데이터 양식, 데이터 세트 척도 (100 ~ 100,000) 및 작업 (바이너리/다중 클래스, 다 레이블 및 서수 회귀)을 다룹니다. VDD와 MSD만큼 다양한 설정에서 머신 러닝 알고리즘의 일반화 가능한 성능을 공정하게 평가하는 것이 다양하지만 2D 및 3D 생물 의학 이미지가 제공됩니다.
표준화 : 각 하위 다타타 세트는 동일한 형식으로 사전 처리되므로 사용자에게는 배경 지식이 필요하지 않습니다. 작은 이미지에서 분류 작업을 수행하는 MNIST와 같은 데이터 세트 컬렉션으로서 주로 엔드 투 엔드 시스템이 아닌 기계 학습 부분에 중점을 둡니다. 또한 MEDMNIST의 모든 데이터 세트에 대한 표준 열차 검증 테스트 스플릿을 제공하므로 알고리즘을 쉽게 비교할 수 있습니다.
사용자 친화적 : 28x28 (2D) 또는 28x28x28 (3D)의 작은 크기는 가볍고 기계 학습 알고리즘을 평가하는 데 이상적입니다. 또한 더 큰 크기의 버전 인 MedMnist+: 64x64 (2d), 128x128 (2d), 224x224 (2d) 및 64x64x64 (3D)도 제공합니다. 28 크기의 MEDMNIST를 보완하는 역할을하는 이는 의료 기초 모델을 개발하기위한 표준화 된 리소스가 될 수 있습니다. 이 모든 데이터 세트는 동일한 API를 통해 액세스 할 수 있습니다.
교육 : 학제 간 연구 분야로서, 컴퓨터 비전, 머신 러닝, 생의학 영상 및 임상 과학의 배경 지식이 필요하기 때문에 다른 지역 사회의 연구원들에게 생물 의학적 이미지 분석을 수행하기가 어렵습니다. CC (Creative Commons) 라이센스를 통한 데이터는 교육 목적으로 쉽게 사용할 수 있습니다.

이 데이터 세트는 임상 사용을위한 것이 아닙니다 .

코드 구조

medmnist/ :
- dataset.py : MedMnist의 Pytorch DataSets 및 Dataloaders.
- evaluator.py : 표준화 된 평가 기능.
- info.py : MedMnist의 각 하위 집합에 대한 데이터 세트 정보 dict .
examples/ :
- getting_started.ipynb : Jupyter 노트북으로 MedMnist 데이터 세트를 탐색합니다. 그것은 빠른 탐색을위한 것이며, 즉, 완전한 훈련 및 평가 기능을 제공하지는 않습니다.
- getting_started_without_PyTorch.ipynb :이 노트북은 pytorch없이 medmnist 데이터 ( .npz 파일)를 사용하는 방법에 대한 스 니펫을 제공합니다.
setup.py : medmnist 모듈로 설치합니다.
[외부] MedMNIST/experiments : Pytorch, Auto-Sklearn, Autokeras 및 Google Automl 비전을 포함하여 우리 논문에서 2D 및 3D 실험을 모두 재현하기위한 교육 및 평가 스크립트;)

설치 및 요구 사항

필요한 환경을 설정하고 PYPI의 표준 파이썬 패키지로 medmnist 설치하십시오.

 pip install medmnist

또는 소스에서 설치 :

 pip install --upgrade git+https://github.com/MedMNIST/MedMNIST.git

최신 코드 버전을 설치했는지 확인하십시오.

 >>> import medmnist
>>> print(medmnist.__version__)

이 코드는 기계 학습을위한 일반적인 파이썬 환경 만 필요합니다. 기본적으로 테스트되었습니다

파이썬 3 (> = 3.6)
Pytorch == 1.3.1
Numpy == 1.18.5, Pandas == 0.25.3, Scikit-Learn == 0.22.2, Pillow == 8.0.1
화재, Scikit-Image

더 높은 (또는 더 낮은) 버전도 작동해야합니다 (아마도 약간의 수정으로).

빠른 시작

다운로드 된 파일을 사용하는 표준 28 사이즈 (mnist-like) 버전을 사용하려면 다음과 같습니다.

 >>> from medmnist import PathMNIST
>>> train_dataset = PathMNIST(split="train")

download=True :

 >>> from medmnist import NoduleMNIST3D
>>> val_dataset = NoduleMNIST3D(split="val", download=True)

또는 size 매개 변수를 지정하여 더 큰 이미지 크기로 MedMnist+에 액세스 할 수 있습니다.

 >>> from medmnist import ChestMNIST
>>> test_dataset = ChestMNIST(split="test", download=True, size=224)

Pytorch를 사용하는 경우 ...

엄청난! 우리의 코드는 Pytorch와 함께 작동하도록 설계되었습니다.
Jupyter Notebook ( getting_started.ipynb )으로 MedMnist 데이터 세트를 탐색하고 Pytorch에서 기본 신경망을 훈련하십시오.

Pytorch를 사용하지 않는다면 ...

우리의 코드는 Pytorch로 테스트되지만 표준 Numpy Serialization 파일이므로 자신의 코드 (Pytorch가 없거나 Python 없이도)로 자유롭게 구문 분석 할 수 있습니다. Pytorch없이 데이터 세트를 만드는 것은 간단합니다.
pytorch가없는 medMnist 데이터 ( .npz 파일)를 사용하는 방법에 대한 스 니펫을 제공하는 getting_started_without_PyTorch.ipynb 로 이동하십시오.
MedMNIST 의 슈퍼 클래스를 torch.utils.data.Dataset 에서 collections.Sequence 로 변경하면 Pytorch가없는 표준 데이터 세트를 얻게됩니다. 자세한 내용은 dataset_without_pytorch.py 확인하십시오.
당신은 여전히 우리의 medmnist 코드의 대부분의 기능을 가지고 있습니다;)

데이터 세트

Zenodo를 통해 데이터 세트를 다운로드하십시오. dataset.py 에서 download=True 설정하여 코드를 사용하여 자동으로 다운로드 할 수도 있습니다.

MEDMNIST 데이터 세트에는 여러 서브 세트가 포함되어 있습니다. 각 서브 세트 (예 : pathmnist.npz )는 6 개의 키로 구성되어 있습니다 : train_images , train_labels , val_images , val_labels , test_images 및 test_labels .

train_images / val_images / test_images : 2D 그레이 스케일 데이터 세트의 경우 N × 28 × 28, 2D RGB 데이터 세트의 경우 N × 28 × 28 × 3, 3D 데이터 세트의 경우 N × 28 × 28 × 28. N 샘플의 수를 나타냅니다.
train_labels / val_labels / test_labels : N × L . N 샘플의 수를 나타냅니다. L 작업 레이블의 수를 나타냅니다. 단일 라벨 (바이너리/멀티 클래스) 분류의 경우, L=1 및 {0,1,2,3,..,C} 범주 레이블 (이진의 경우 C=1 )을 나타냅니다. 멀티 라벨 분류의 경우 L!=1 , 예를 들어, chestmnist.npz 의 경우 L=14 .

또한 여기에서 각 MedMnist 서브 세트에 대한 CSV 파일을 제공합니다. 여기서는 소스 데이터 세트의 해당 이미지에 서브 세트의 "image_id"를 매핑합니다. 각 항목에 대해 공식 소스 데이터 세트의 해당 이미지 이름과 함께 MedMnist 서브 세트 내의 특정 "분할"및 "색인"을 자세히 설명합니다.

명령 줄 도구

사용 가능한 모든 데이터 세트 나열 :
```
  python -m medmnist available
```
특정 크기의 사용 가능한 데이터 세트를 다운로드합니다 (기본적으로 size=None (28)) :
```
  python -m medmnist download --size=28
```
사용 가능한 모든 크기를 다운로드하려면 :
```
  python -m medmnist download --size=all
```
루트에서 다운로드 된 모든 NPZ 삭제 :
```
  python -m medmnist clean
```
서브 세트 플래그가 주어진 데이터 세트 세부 사항을 인쇄합니다.
```
  python -m medmnist info --flag=xxxmnist
```
데이터 세트를 표준 그림 및 CSV 파일로 저장합니다. 예 : Google Automl Vision : Automl 도구에 사용할 수 있습니다.
2D 데이터 세트 :
```
  python -m medmnist save --flag=xxxmnist --folder=tmp/ --postfix=png --download=True --size=28
```
3D 데이터 세트 :
```
  python -m medmnist save --flag=xxxmnist3d --folder=tmp/ --postfix=gif --download=True --size=28
```
기본적으로 download=False 및 size=None (28).

표준 결과 파일을 구문 분석하고 평가하십시오. 자세한 내용은 Evaluator.parse_and_evaluate 를 참조하십시오.

  python -m medmnist evaluate --path=folder/{flag}{size_flag}_{split}@{run}.csv

여기에서 size_flag 는 28 개의 이미지의 경우 비어 있고 더 큰 이미지의 경우 _size (예 : "_64", 예 :

  python -m medmnist evaluate --path=bloodmnist_64_val_[AUC]0.486_[ACC][email protected]

또는

  python -m medmnist evaluate --path=chestmnist_test_[AUC]0.500_[ACC][email protected]

라이센스 및 인용

MEDMNIST 데이터 세트는 Creative Commons Attribution-Noncommercial 4.0 International (CC By-NC 4.0)에 따른 Dermamnist를 제외하고 Creative Commons Attribution 4.0 International (4.0)에 따라 라이센스가 부여됩니다. 코드는 Apache-2.0 라이센스에 따라 있습니다.

이 프로젝트가 귀하의 연구에 유용하다고 생각되면 다음 논문을 인용하십시오.

 Jiancheng Yang, Rui Shi, Donglai Wei, Zequan Liu, Lin Zhao, Bilian Ke, Hanspeter Pfister, Bingbing Ni. Yang, Jiancheng, et al. "MedMNIST v2-A large-scale lightweight benchmark for 2D and 3D biomedical image classification." Scientific Data, 2023.

Jiancheng Yang, Rui Shi, Bingbing Ni. "MedMNIST Classification Decathlon: A Lightweight AutoML Benchmark for Medical Image Analysis". IEEE 18th International Symposium on Biomedical Imaging (ISBI), 2021.

또는 Bibtex 사용 :

 @article{medmnistv2,
    title={MedMNIST v2-A large-scale lightweight benchmark for 2D and 3D biomedical image classification},
    author={Yang, Jiancheng and Shi, Rui and Wei, Donglai and Liu, Zequan and Zhao, Lin and Ke, Bilian and Pfister, Hanspeter and Ni, Bingbing},
    journal={Scientific Data},
    volume={10},
    number={1},
    pages={41},
    year={2023},
    publisher={Nature Publishing Group UK London}
}
 
@inproceedings{medmnistv1,
    title={MedMNIST Classification Decathlon: A Lightweight AutoML Benchmark for Medical Image Analysis},
    author={Yang, Jiancheng and Shi, Rui and Ni, Bingbing},
    booktitle={IEEE 18th International Symposium on Biomedical Imaging (ISBI)},
    pages={191--195},
    year={2021}
}

또한 프로젝트 페이지의 설명에 따라 MedMnist 서브 세트의 소스 데이터 용지를 인용하십시오.

릴리스 노트

v3.0.2 : Evaluator ( size_flag ) 및 PYPI가 업데이트 된 버그가 고정되었습니다.
v3.0.1 : 다운로드 오류 메시지를 업데이트하여보다 유익하게 만들었습니다.
v3.0.0 : 2D의 경우 64x64, 128x128 및 224x224, 3D의 경우 64x64, 128x128 및 224x224를 특징으로합니다.
v2.2.4 : Organamnist, organcmnist, organsmnist, organmnist3d 및 vesselmnist3d에서 소수의 빈 샘플을 제거했습니다.
v2.2.3 : CC By-NC 4.0에 대한 Dermamnist 라이센스
v2.2.2 : Collections.ABC의 Python 3.11 Sequence
v2.2.1 : PYPI 정보가 업데이트되었습니다
v2.2.0 : Scikit-Image> = 0.20.0에 대한 montage 방법
v2.1.0 : NoduleMNIST3D 데이터 오류가 수정되었습니다
v2.0.0 : MedMnist v2 릴리스 (PYPI)
v1.0.0 : MedMnist v1 릴리스
v0.2.0 : MedMnist 베타 릴리스