Jiancheng Yang, Rui Shi, Donglai Wei, Zequan Liu, Lin Zhao, Bilian Ke, Hanspeter Pfister, Bingbing Ni
Опции нескольких размеров: 28 (Mnist-подобные), 64, 128 и 224
Мы вводим Medmnist , крупномасштабную MNIST, подобную MNIST, стандартизированные биомедицинские изображения, в том числе 12 наборов данных для 2D и 6 наборов данных для 3D. Все изображения предварительно обработаны в 28x28 (2d) или 28x28x28 (3d) с соответствующими метками классификации, так что для пользователей не требуется никаких фоновых знаний. Покрывая модальности первичных данных в биомедицинских изображениях, Medmnist предназначен для выполнения классификации на легких 2D и 3D-изображениях с различными шкалами данных (от 100 до 100 000) и разнообразными задачами (двоичная/многоклассная, порядковая регрессия и мультипользовательская). Полученный набор данных, состоящий из приблизительно 708K 2D -изображений и 10 -километровых 3D -изображений, может поддерживать многочисленные исследования и образовательные цели в области биомедицинского анализа изображений, компьютерного зрения и машинного обучения. Мы сравниваем несколько базовых методов на Medmnist, в том числе 2D / 3D нейронные сети и инструменты с открытым исходным кодом / коммерческими автоматами.
Отказ от ответственности : единственная официальная ссылка на распределение для набора данных Medmnist - Zenodo. Мы любезно просим пользователей обратиться к этой оригинальной ссылке набора данных для точных и актуальных данных.
Обновление 2024-01-17 : мы очень рады освободить Medmnist+ с большими размерами: 64x64, 128x128 и 224x224 для 2d и 64x64x64 для 3d. В качестве дополнения к предыдущему Medmnist 28 размеров, версия большого размера может служить стандартизированным эталоном для моделей медицинского фундамента. Установите последний API, чтобы попробовать его!
Стороннее обновление 2024-05-13 : @Sdoerrich97 выпустила комплексную оценку для Medmnist+, охватывающие 10 различных моделей глубокого обучения, обученных с помощью 3 различных учебных схем для всех 12 2D наборов данных и доступных разрешений изображения (28x28, 64x64, 128x128 и 224x224), которые могут быть интересными для сообщества Medmnist. Проверьте проблему здесь.
Стороннее обновление 2024-12-20 : @Francescodisalvo05 представил Medmnist-C, поврежденную версию наборов данных Medmnist, с специфичными для модальности искажения изображений и API расширения, вдохновленная эталоном ImageNet-C. Эта работа направлена на оценку и повышение модели. Проверьте проблему здесь.
Для получения более подробной информации, пожалуйста, обратитесь к нашей статье:
Medmnist V2: крупномасштабный тест-эталон для классификации 2D и 3D биомедицинских изображений (Nature Scientific Data'23)
или версия конференции:
Medmnist Classification Decathlon: легкий эталон автоматического анализа медицинского изображения (ISBI'21)
Обратите внимание, что этот набор данных не предназначен для клинического использования.
medmnist/ :dataset.py : наборы данных Pytorch и DataLoaders of Medmnist.evaluator.py : стандартизированные функции оценки.info.py : Информация о наборе данных dict для каждого подмножества Medmnist.examples/ :getting_started.ipynb : исследовать набор данных Medmnist с ноутбуком Jupyter. Он предназначен только для быстрого исследования, т.е. не обеспечивает полную функциональность обучения и оценки.getting_started_without_PyTorch.ipynb : в этом ноутбуке представлены фрагменты о том, как использовать данные Medmnist (файлы .npz ) без Pytorch.setup.py : установить medmnist в качестве модуля.MedMNIST/experiments : сценарии обучения и оценки для воспроизведения как 2D, так и 3D-экспериментов в нашей статье, включая Pytorch, Auto-Sklearn, Autokeras и Google Automl Vision вместе с их весами;) Установите необходимые среды и установите medmnist в качестве стандартного пакета Python от PYPI:
pip install medmnist
Или установить из источника:
pip install --upgrade git+https://github.com/MedMNIST/MedMNIST.git
Проверьте, установили ли вы последнюю версию кода:
>>> import medmnist
>>> print(medmnist.__version__)
Код требует только общих средств для питонов для машинного обучения. По сути, он был протестирован с
Более высокие (или более низкие) версии также должны работать (возможно, с незначительными модификациями).
Для использования стандартной версии 28 размера (MNIST) с использованием загруженных файлов:
>>> from medmnist import PathMNIST
>>> train_dataset = PathMNIST(split="train")
Чтобы включить автоматическую загрузку путем настройки download=True :
>>> from medmnist import NoduleMNIST3D
>>> val_dataset = NoduleMNIST3D(split="val", download=True)
В качестве альтернативы, вы можете получить доступ к Medmnist+ с большими размерами изображения, указав параметр size :
>>> from medmnist import ChestMNIST
>>> test_dataset = ChestMNIST(split="test", download=True, size=224)
Большой! Наш код предназначен для работы с Pytorch.
Исследуйте набор данных Medmnist с помощью Notebook Jupyter ( getting_started.ipynb ) и обучить основные нейронные сети в Pytorch.
getting_started_without_PyTorch.ipynb , который предоставляет фрагменты о том, как использовать данные Medmnist (файлы .npz ) без Pytorch.MedMNIST с torch.utils.data.Dataset на collections.Sequence , вы получите стандартный набор данных без Pytorch. Проверьте dataset_without_pytorch.py для получения более подробной информации. Пожалуйста, загрузите набор данных через Zenodo. Вы также можете использовать наш код для автоматической загрузки, установив download=True in dataset.py .
Набор данных Medmnist содержит несколько подмножеств. Каждое подмножество (например, pathmnist.npz ) состоит из 6 ключей: train_images , train_labels , val_images , val_labels , test_images и test_labels .
train_images / val_images / test_images : N × 28 × 28 для 2D наборов данных серого масштаба, N × 28 × 28 × 3 для 2D наборов данных RGB, N × 28 × 28 × 28 для 3D наборов данных. N обозначает количество образцов.train_labels / val_labels / test_labels : N × L . N обозначает количество образцов. L обозначает количество меток задач; Для однонаправленной (бинарной/многоклассной) классификации, L=1 и {0,1,2,3,..,C} обозначает метки категории ( C=1 для бинарного); Для многокамерной классификации L!=1 , например, L=14 для chestmnist.npz .Кроме того, мы предоставляем файл CSV для каждого подмножества Medmnist здесь, которое отображает «image_id» в подмножестве с соответствующим изображением в наборе данных источника. Для каждой записи подробно описывается конкретный «раздел» и «индекс» в подмножестве Medmnist, а также соответствующее имя изображения из официального набора данных источника.
Список всех доступных наборов данных:
python -m medmnist available
Загрузить доступные наборы данных определенного размера ( size=None (28) по умолчанию):
python -m medmnist download --size=28
Чтобы загрузить все доступные размеры:
python -m medmnist download --size=all
Удалить все загруженные NPZ из Root:
python -m medmnist clean
Распечатайте подробности набора данных с учетом флага подмножества:
python -m medmnist info --flag=xxxmnist
Сохраните набор данных в качестве стандартных фигурных и CSV -файлов, которые можно использовать для инструментов Automl, например, Google Automl Vision:
Для 2D наборов данных:
python -m medmnist save --flag=xxxmnist --folder=tmp/ --postfix=png --download=True --size=28
Для 3D наборов данных:
python -m medmnist save --flag=xxxmnist3d --folder=tmp/ --postfix=gif --download=True --size=28
По умолчанию, download=False и size=None (28).
Расположение и оценить стандартный файл результата, см Evaluator.parse_and_evaluate В деталях.
python -m medmnist evaluate --path=folder/{flag}{size_flag}_{split}@{run}.csv
Здесь, size_flag является пустым для 28 изображений, и _size для более крупных изображений, например, "_64", например,
python -m medmnist evaluate --path=bloodmnist_64_val_[AUC]0.486_[ACC][email protected]
или
python -m medmnist evaluate --path=chestmnist_test_[AUC]0.500_[ACC][email protected]
Набор данных Medmnist имеет лицензию в соответствии с Attribution 4.0 Creative Commons 4.0 International (CC By 4.0), за исключением дермамниста в рамках Creative Commons Attribution-Noncommercial 4.0 International (CC BY-NC 4.0). Код находится под лицензией Apache-2.0.
Если вы найдете этот проект полезным в своем исследовании, пожалуйста, укажите следующие документы:
Jiancheng Yang, Rui Shi, Donglai Wei, Zequan Liu, Lin Zhao, Bilian Ke, Hanspeter Pfister, Bingbing Ni. Yang, Jiancheng, et al. "MedMNIST v2-A large-scale lightweight benchmark for 2D and 3D biomedical image classification." Scientific Data, 2023.
Jiancheng Yang, Rui Shi, Bingbing Ni. "MedMNIST Classification Decathlon: A Lightweight AutoML Benchmark for Medical Image Analysis". IEEE 18th International Symposium on Biomedical Imaging (ISBI), 2021.
или используя бибтек:
@article{medmnistv2,
title={MedMNIST v2-A large-scale lightweight benchmark for 2D and 3D biomedical image classification},
author={Yang, Jiancheng and Shi, Rui and Wei, Donglai and Liu, Zequan and Zhao, Lin and Ke, Bilian and Pfister, Hanspeter and Ni, Bingbing},
journal={Scientific Data},
volume={10},
number={1},
pages={41},
year={2023},
publisher={Nature Publishing Group UK London}
}
@inproceedings{medmnistv1,
title={MedMNIST Classification Decathlon: A Lightweight AutoML Benchmark for Medical Image Analysis},
author={Yang, Jiancheng and Shi, Rui and Ni, Bingbing},
booktitle={IEEE 18th International Symposium on Biomedical Imaging (ISBI)},
pages={191--195},
year={2021}
}
Пожалуйста, также цитируйте исходные документы данных (ы) подмножества Medmnist в соответствии с описанием на странице проекта.
v3.0.2 : ошибка, исправленная в обновленных оценках ( size_flag ) и PYPI.v3.0.1 : обновил сообщение об ошибке загрузки, чтобы сделать его более поучительным.v3.0.0 : Medmnist+ с большими размерами: 64x64, 128x128 и 224x224 для 2d и 64x64x64 для 3d.v2.2.4 : удалили небольшое количество пустых образцов в органическом, Organcmnist, Organsmnist, Organmnist3d и Vesselmnist3d.v2.2.3 : Дермамнистская лицензия на CC BY-NC 4.0v2.2.2 : Sequence Python 3.11 от Collections.abc поддерживаетv2.2.1 : Информация PYPI обновленаv2.2.0 : метод montage , поддерживаемый для Scikit-Image> = 0,20,0v2.1.0 : NoduleMNIST3D ошибка данных исправленаv2.0.0 : релиз Medmnist V2 (на PYPI)v1.0.0 : релиз Medmnist v1v0.2.0 : бета -выпуск Medmnist