Jiancheng Yang ، Rui Shi ، Donglai Wei ، Zequan Liu ، Lin Zhao ، Bilian KE ، Hanspeter Pfister ، Bingbing Ni
خيارات الحجم المتعددة: 28 (تشبه MNIST) ، 64 ، 128 ، و 224
نقدم Medmnist ، وهي مجموعة شبيهة على نطاق واسع من الصور الطبية الحيوية الموحدة ، بما في ذلك 12 مجموعة بيانات لمجموعات البيانات ثنائية و 6 ل 3 D. يتم معالجة جميع الصور مسبقًا إلى 28 × 28 (2D) أو 28x28x28 (3D) مع ملصقات التصنيف المقابلة ، بحيث لا توجد معرفة خلفية للمستخدمين. تم تصميم MedMnist لأداء طرائق البيانات الأولية في الصور الطبية الحيوية لإجراء التصنيف على صور ثنائية الأبعاد وخفيفة الوزن مع موازين بيانات مختلفة (من 100 إلى 100000) ومهام متنوعة (الثنائي/متعدد الطبقات ، والانحدار الترتيبي والتواصل المتعدد). يمكن أن تدعم مجموعة البيانات الناتجة ، التي تتكون من حوالي 708K 2D صورًا ثنائية الأبعاد وصور 10K ثلاثية الأبعاد في المجموع ، العديد من الأبحاث والتعليمية في تحليل الصور الطبية الحيوية ورؤية الكمبيوتر والتعلم الآلي. نقوم بتقييم العديد من الأساليب الأساسية على Medmnist ، بما في ذلك الشبكات العصبية ثنائية الأبعاد / ثلاثية الأبعاد وأدوات السيارات المفتوحة / التجارية.
إخلاء المسئولية : رابط التوزيع الرسمي الوحيد لمجموعة بيانات MedMnist هو Zenodo. نود أن نطلب من المستخدمين الرجوع إلى رابط مجموعة البيانات الأصلية هذا للحصول على بيانات دقيقة وحديثة.
تحديث 2024-01-17 : نحن سعداء لإطلاق Medmnist+ بأحجام أكبر: 64 × 64 ، 128x128 ، و 224x224 لـ 2D ، و 64 × 64x64 ل 3 د. كمكمل لميدانست الحجم السابق ، يمكن أن تكون النسخة ذات الحجم الكبير بمثابة معيار موحد لنماذج الأساس الطبي. تثبيت أحدث واجهة برمجة التطبيقات لتجربتها!
تحديث الطرف الثالث 2024-05-13 : أصدر @sdoerrich97 تقييمًا شاملاً لـ Medmnist+ الذي يغطي 10 نماذج تعليمية عميقة مختلفة تم تدريبها عبر 3 مخططات تدريب متميزة في جميع مجموعات البيانات الثانية عشرة 2D وقرارات الصور المتاحة (28x28 ، 64 × 64 ، 128x128 ، و 224x224) ، والتي قد تكون مثيرة للاهتمام للمجتمع MedmNist. تحقق من المشكلة هنا.
تحديث الطرف الثالث 2024-12-20 : قدم @francescodisalvo05 Medmnist-C ، وهو نسخة تالفة من مجموعات بيانات Medmnist ، مع فساد الصور الخاص بالمواقع وواجهة برمجة التطبيقات المعززة ، مستوحاة من معيار ImageNet-C. يهدف هذا العمل إلى تقييم وتعزيز متانة النموذج. تحقق من المشكلة هنا.
لمزيد من التفاصيل ، يرجى الرجوع إلى ورقتنا:
Medmnist V2: معيار خفيف الوزن على نطاق واسع لتصنيف الصور الحيوية ثنائية الأبعاد وثلاثي الأبعاد (Nature Scientific Data'23)
أو نسخة المؤتمر:
تصنيف Medmnist Decathlon: معيار سيارة خفيف الوزن لتحليل الصور الطبية (ISBI'21)
يرجى ملاحظة أن مجموعة البيانات هذه ليست مخصصة للاستخدام السريري.
medmnist/ :dataset.py : مجموعات بيانات Pytorch و Dataloaders من Medmnist.evaluator.py : وظائف التقييم الموحدة.info.py : dict مجموعة البيانات لكل مجموعة فرعية من medmnist.examples/ :getting_started.ipynb : لاستكشاف مجموعة بيانات MedMnist مع دفتر Jupyter Notebook. إنه مخصص فقط لاستكشاف سريع ، أي أنه لا يوفر وظائف تدريب وتقييم كاملة.getting_started_without_PyTorch.ipynb : يوفر دفتر الملاحظات مقتطفات حول كيفية استخدام بيانات medmnist (ملفات .npz ) بدون pytorch.setup.py : لتثبيت medmnist كوحدة.MedMNIST/experiments : البرامج النصية للتدريب والتقييم لإعادة إنتاج كل من التجارب ثنائية وثلاثية الأبعاد في ورقتنا ، بما في ذلك Pytorch و Auto-Sklearn و Audokeras و Google Automl Gone مع أوزانهم ؛) قم بإعداد البيئات المطلوبة وتثبيت medmnist كحزمة بيثون قياسية من Pypi:
pip install medmnist
أو التثبيت من المصدر:
pip install --upgrade git+https://github.com/MedMNIST/MedMNIST.git
تحقق مما إذا كنت قد قمت بتثبيت أحدث إصدار من التعليمات البرمجية:
>>> import medmnist
>>> print(medmnist.__version__)
يتطلب الكود بيئات بيثون شائعة فقط للتعلم الآلي. في الأساس ، تم اختباره مع
يجب أن تعمل الإصدارات الأعلى (أو السفلية) أيضًا (ربما مع تعديلات طفيفة).
لاستخدام الإصدار القياسي 28 بحجم (يشبه MNIST) باستخدام الملفات التي تم تنزيلها:
>>> from medmnist import PathMNIST
>>> train_dataset = PathMNIST(split="train")
لتمكين التنزيل التلقائي عن طريق ضبط download=True :
>>> from medmnist import NoduleMNIST3D
>>> val_dataset = NoduleMNIST3D(split="val", download=True)
بدلاً من ذلك ، يمكنك الوصول إلى MedMnist+ بأحجام صور أكبر من خلال تحديد معلمة size :
>>> from medmnist import ChestMNIST
>>> test_dataset = ChestMNIST(split="test", download=True, size=224)
عظيم! تم تصميم الكود لدينا للعمل مع Pytorch.
استكشف مجموعة بيانات MedMnist مع دفتر Jupyter Notebook ( getting_started.ipynb ) ، وتدريب الشبكات العصبية الأساسية في Pytorch.
getting_started_without_PyTorch.ipynb ، والذي يوفر قصاصات حول كيفية استخدام بيانات medmnist (ملفات .npz ) بدون pytorch.MedMNIST من torch.utils.data.Dataset إلى collections.Sequence ، ستحصل على مجموعة بيانات قياسية بدون pytorch. تحقق من dataset_without_pytorch.py لمزيد من التفاصيل. يرجى تنزيل مجموعة البيانات (مجموعات) عبر Zenodo. يمكنك أيضًا استخدام التعليمات البرمجية الخاصة بنا للتنزيل تلقائيًا عن طريق إعداد download=True في dataset.py .
تحتوي مجموعة بيانات MedMnist على عدة مجموعات فرعية. تتكون كل مجموعة فرعية (على سبيل المثال ، pathmnist.npz ) من 6 مفاتيح: train_images ، train_labels ، val_images ، val_labels ، test_images و test_labels .
train_images / val_images / test_images : N × 28 × 28 لمجموعات البيانات على نطاق رمادي ثنائي الأبعاد ، N × 28 × 28 × 3 لمجموعات بيانات RGB ثنائية الأبعاد ، N × 28 × 28 × 28 لمجموعات البيانات ثلاثية الأبعاد. تشير N إلى عدد العينات.train_labels / val_labels / test_labels : N × L . تشير N إلى عدد العينات. تشير L إلى عدد ملصقات المهام ؛ للتصنيف المفرد (الثنائي/متعدد الطبقات) ، L=1 ، و {0,1,2,3,..,C} يشير إلى ملصقات الفئة ( C=1 للثنائي) ؛ للتصنيف متعدد العلامات L!=1 ، على سبيل المثال ، L=14 لـ chestmnist.npz .بالإضافة إلى ذلك ، نقدم ملف CSV لكل مجموعة فرعية MedMnist هنا ، والتي تقوم بتخطيط "Image_id" في المجموعة الفرعية إلى الصورة المقابلة في مجموعة البيانات المصدر. بالنسبة لكل إدخال ، يوضح تفاصيل "الانقسام" و "الفهرس" المحدد داخل المجموعة الفرعية MedMnist ، إلى جانب اسم الصورة المقابل من مجموعة بيانات المصدر الرسمية.
قائمة جميع مجموعات البيانات المتاحة:
python -m medmnist available
قم بتنزيل مجموعات البيانات المتاحة بحجم معين ( size=None (28) افتراضيًا):
python -m medmnist download --size=28
لتنزيل جميع الأحجام المتاحة:
python -m medmnist download --size=all
حذف جميع NPZ تم تنزيله من الجذر:
python -m medmnist clean
اطبع تفاصيل مجموعة البيانات المعطاة لعلم مجموعة فرعية:
python -m medmnist info --flag=xxxmnist
احفظ مجموعة البيانات كشكل قياسي وملفات CSV ، والتي يمكن استخدامها لأدوات السيارات ، على سبيل المثال ، Google Automl Vision:
لمجموعات البيانات ثنائية الأبعاد:
python -m medmnist save --flag=xxxmnist --folder=tmp/ --postfix=png --download=True --size=28
لمجموعات البيانات ثلاثية الأبعاد:
python -m medmnist save --flag=xxxmnist3d --folder=tmp/ --postfix=gif --download=True --size=28
بشكل افتراضي ، download=False size=None (28).
تحليل وتقييم ملف نتيجة قياسية ، راجع Evaluator.parse_and_evaluate للحصول على التفاصيل.
python -m medmnist evaluate --path=folder/{flag}{size_flag}_{split}@{run}.csv
هنا ، size_flag فارغ لـ 28 صورة ، و _size للصور الكبيرة ، على سبيل المثال ، "_64" ، على سبيل المثال ،
python -m medmnist evaluate --path=bloodmnist_64_val_[AUC]0.486_[ACC][email protected]
أو
python -m medmnist evaluate --path=chestmnist_test_[AUC]0.500_[ACC][email protected]
تم ترخيص مجموعة بيانات MedMnist بموجب Creative Commons Attribution 4.0 International (CC بحلول 4.0) ، باستثناء Dermamnist تحت إسناد المشاع الإبداعي-Noncommercial 4.0 International (CC BY-NC 4.0). الكود تحت رخصة Apache-2.0.
إذا وجدت هذا المشروع مفيدًا في بحثك ، فيرجى الاستشهاد بالأوراق التالية:
Jiancheng Yang, Rui Shi, Donglai Wei, Zequan Liu, Lin Zhao, Bilian Ke, Hanspeter Pfister, Bingbing Ni. Yang, Jiancheng, et al. "MedMNIST v2-A large-scale lightweight benchmark for 2D and 3D biomedical image classification." Scientific Data, 2023.
Jiancheng Yang, Rui Shi, Bingbing Ni. "MedMNIST Classification Decathlon: A Lightweight AutoML Benchmark for Medical Image Analysis". IEEE 18th International Symposium on Biomedical Imaging (ISBI), 2021.
أو باستخدام bibtex:
@article{medmnistv2,
title={MedMNIST v2-A large-scale lightweight benchmark for 2D and 3D biomedical image classification},
author={Yang, Jiancheng and Shi, Rui and Wei, Donglai and Liu, Zequan and Zhao, Lin and Ke, Bilian and Pfister, Hanspeter and Ni, Bingbing},
journal={Scientific Data},
volume={10},
number={1},
pages={41},
year={2023},
publisher={Nature Publishing Group UK London}
}
@inproceedings{medmnistv1,
title={MedMNIST Classification Decathlon: A Lightweight AutoML Benchmark for Medical Image Analysis},
author={Yang, Jiancheng and Shi, Rui and Ni, Bingbing},
booktitle={IEEE 18th International Symposium on Biomedical Imaging (ISBI)},
pages={191--195},
year={2021}
}
يرجى أيضًا الاستشهاد بالورق (أشرطة) مصدر البيانات في مجموعة (مجموعة (مجموعات) Medmnist وفقًا للوصف في صفحة المشروع.
v3.0.2 : علة ثابتة في المقيِّم ( size_flag ) و pypi تم تحديثها.v3.0.1 : تحديث رسالة خطأ التنزيل لجعلها أكثر تعليمية.v3.0.0 : Medmnist+ يتميز بأحجام أكبر: 64 × 64 ، 128x128 ، و 224x224 لـ 2D ، و 64x64x64 لـ 3D.v2.2.4 : إزالة عدد صغير من العينات الفارغة في العضوية ، organcmnist ، الأعضاء ، العضو 3 ، وعافى 3.v2.2.3 : ترخيص ديرمامنيست إلى CC BY-NC 4.0v2.2.2 : Sequence Python 3.11 من collections.abc مدعومv2.2.1 : تم تحديث معلومات PYPIv2.2.0 : طريقة montage المدعومة لـ Scikit-Image> = 0.20.0v2.1.0 : خطأ في بيانات NoduleMNIST3Dv2.0.0 : إصدار Medmnist V2 (على PYPI)v1.0.0 : إصدار Medmnist V1v0.2.0 : إصدار تجريبي Medmnist