Jiancheng Yang, Rui Shi, Donglai Wei, Zequan Liu, Lin Zhao, Bilian KE, Hanspeter Pfister, Bingbing Ni
ตัวเลือกหลายขนาด: 28 (เหมือน MNIST), 64, 128 และ 224
เราแนะนำ Medmnist ซึ่งเป็นคอลเล็กชั่น Mnist ขนาดใหญ่ของภาพชีวการแพทย์ที่ได้มาตรฐานรวมถึงชุดข้อมูล 12 ชุดสำหรับชุดข้อมูล 2D และ 6 สำหรับ 3D ภาพทั้งหมดจะถูกประมวลผลล่วงหน้าเป็น 28x28 (2D) หรือ 28x28x28 (3D) ด้วยฉลากการจำแนกประเภทที่สอดคล้องกันเพื่อให้ผู้ใช้ไม่จำเป็นต้องมีความรู้พื้นฐานสำหรับผู้ใช้ Medmnist ครอบคลุมการครอบคลุมข้อมูลหลักในภาพชีวการแพทย์ Medmnist ได้รับการออกแบบมาเพื่อทำการจำแนกประเภทบนภาพ 2D และ 3D ที่มีน้ำหนักเบาด้วยเครื่องชั่งข้อมูลต่างๆ (จาก 100 ถึง 100,000) และงานที่หลากหลาย (ไบนารี/หลายคลาสการถดถอยตามลำดับและหลายฉลาก) ชุดข้อมูลที่เกิดขึ้นประกอบด้วยภาพ 2D ประมาณ 708K และภาพทั้งหมด 10K ภาพทั้งหมดสามารถรองรับการวิจัยและการศึกษาจำนวนมากในการวิเคราะห์ภาพชีวการแพทย์วิสัยทัศน์คอมพิวเตอร์และการเรียนรู้ของเครื่องจักร เราเปรียบเทียบวิธีการพื้นฐานหลายวิธีเกี่ยวกับ MedMnist รวมถึงเครือข่ายประสาท 2D / 3D และเครื่องมือ Open-Source / Outmar AutomL
ข้อจำกัดความรับผิดชอบ : ลิงค์การกระจายอย่างเป็นทางการเพียงอย่างเดียวสำหรับชุดข้อมูล MedMnist คือ Zenodo เราขอให้ผู้ใช้อ้างอิงลิงก์ชุดข้อมูลต้นฉบับนี้สำหรับข้อมูลที่ถูกต้องและทันสมัย
อัปเดต 2024-01-17 : เราตื่นเต้นที่จะปล่อย Medmnist+ ด้วยขนาดที่ใหญ่กว่า: 64x64, 128x128 และ 224x224 สำหรับ 2D และ 64x64x64 สำหรับ 3D ในฐานะที่เป็นส่วนประกอบของ Medmnist ขนาด 28 รุ่นก่อนหน้ารุ่นขนาดใหญ่สามารถใช้เป็นมาตรฐานมาตรฐานสำหรับโมเดลมูลนิธิการแพทย์ ติดตั้ง API ล่าสุดเพื่อลอง!
การอัปเดตของบุคคลที่สาม 2024-05-13 : @Sdoerrich97 เปิดตัวการประเมินที่ครอบคลุมสำหรับ Medmnist+ ครอบคลุม 10 โมเดลการเรียนรู้ลึกที่แตกต่างกันที่ได้รับการฝึกฝนผ่าน 3 แผนการฝึกอบรมที่แตกต่างกันในชุดข้อมูล 12d ทั้งหมด 12d และความละเอียดของภาพที่มีอยู่ (28x28, 64x64, 128x128 และ 224x224) ตรวจสอบปัญหาที่นี่
การอัปเดตของบุคคลที่สาม 2024-12-20 : @FrancescodisalVo05 แนะนำ Medmnist-C ซึ่งเป็นชุดข้อมูล MedMnist ที่เสียหายพร้อมกับการทุจริตของภาพเฉพาะและ APIs APIs ซึ่งได้รับแรงบันดาลใจจากมาตรฐาน Imagenet-C งานนี้มีวัตถุประสงค์เพื่อประเมินและเพิ่มความทนทานของโมเดล ตรวจสอบปัญหาที่นี่
สำหรับรายละเอียดเพิ่มเติมโปรดดูเอกสารของเรา:
Medmnist V2: เกณฑ์มาตรฐานน้ำหนักเบาขนาดใหญ่สำหรับการจำแนกภาพชีวการแพทย์ 2D และ 3D (Nature Scientific Data'23)
หรือเวอร์ชันการประชุม:
การจำแนกประเภท Medmnist Decathlon: มาตรฐาน Automl ที่มีน้ำหนักเบาสำหรับการวิเคราะห์ภาพทางการแพทย์ (ISBI'21)
โปรดทราบว่าชุดข้อมูลนี้ ไม่ ได้มีไว้สำหรับการใช้งานทางคลินิก
medmnist/ :dataset.py : ชุดข้อมูล pytorch และ dataloaders ของ medmnistevaluator.py : ฟังก์ชั่นการประเมินมาตรฐานinfo.py : dict ชุดข้อมูลสำหรับแต่ละชุดย่อยของ medmnistexamples/ :getting_started.ipynb : เพื่อสำรวจชุดข้อมูล medmnist ด้วยสมุดบันทึก Jupyter มันมีไว้สำหรับการสำรวจอย่างรวดเร็วเช่นมันไม่ได้ให้การฝึกอบรมเต็มรูปแบบและฟังก์ชั่นการประเมินผลgetting_started_without_PyTorch.ipynb : สมุดบันทึกนี้ให้ตัวอย่างเกี่ยวกับวิธีการใช้ข้อมูล medmnist (ไฟล์ .npz ) โดยไม่ต้อง pytorchsetup.py : ในการติดตั้ง medmnist เป็นโมดูลMedMNIST/experiments : การฝึกอบรมและการประเมินผลสคริปต์เพื่อทำซ้ำทั้งการทดลอง 2D และ 3D ในกระดาษของเรารวมถึง Pytorch, สเคลเทอร์, Autokeras และ Google Automl Vision พร้อมกับน้ำหนักของพวกเขา;) ตั้งค่าสภาพแวดล้อมที่ต้องการและติดตั้ง medmnist เป็นแพ็คเกจ Python มาตรฐานจาก PYPI:
pip install medmnist
หรือติดตั้งจากแหล่งที่มา:
pip install --upgrade git+https://github.com/MedMNIST/MedMNIST.git
ตรวจสอบว่าคุณได้ติดตั้งเวอร์ชันรหัสล่าสุดหรือไม่:
>>> import medmnist
>>> print(medmnist.__version__)
รหัสต้องการเฉพาะสภาพแวดล้อม Python ทั่วไปสำหรับการเรียนรู้ของเครื่อง โดยพื้นฐานแล้วมันถูกทดสอบด้วย
รุ่นที่สูงกว่า (หรือต่ำกว่า) ควรใช้งานได้ (อาจมีการดัดแปลงเล็กน้อย)
หากต้องการใช้เวอร์ชัน 28 ขนาดมาตรฐาน (เหมือน MNIST) โดยใช้ไฟล์ที่ดาวน์โหลดมา:
>>> from medmnist import PathMNIST
>>> train_dataset = PathMNIST(split="train")
เพื่อเปิดใช้งานการดาวน์โหลดอัตโนมัติโดยการตั้ง download=True :
>>> from medmnist import NoduleMNIST3D
>>> val_dataset = NoduleMNIST3D(split="val", download=True)
หรือคุณสามารถเข้าถึง Medmnist+ ด้วยขนาดภาพที่ใหญ่ขึ้นโดยการระบุพารามิเตอร์ size :
>>> from medmnist import ChestMNIST
>>> test_dataset = ChestMNIST(split="test", download=True, size=224)
ยอดเยี่ยม! รหัสของเราได้รับการออกแบบให้ทำงานกับ Pytorch
สำรวจชุดข้อมูล medmnist ด้วยสมุดบันทึก Jupyter ( getting_started.ipynb ) และฝึกอบรมเครือข่ายประสาทขั้นพื้นฐานใน Pytorch
getting_started_without_PyTorch.ipynb ซึ่งให้ตัวอย่างเกี่ยวกับวิธีการใช้ข้อมูล medmnist (ไฟล์ .npz ) โดยไม่ต้อง pytorchMedMNIST จาก torch.utils.data.Dataset เป็น collections.Sequence คุณจะได้รับชุดข้อมูลมาตรฐานโดยไม่ต้อง pytorch ตรวจสอบ dataset_without_pytorch.py สำหรับรายละเอียดเพิ่มเติม โปรดดาวน์โหลดชุดข้อมูลผ่าน Zenodo คุณสามารถใช้รหัสของเราเพื่อดาวน์โหลดโดยอัตโนมัติโดยการตั้ง download=True ใน dataset.py
ชุดข้อมูล medmnist มีหลายชุดย่อย แต่ละชุดย่อย (เช่น pathmnist.npz ) ประกอบด้วย 6 ปุ่ม: train_images , train_labels , val_images , val_labels , test_images และ test_labels
train_images / val_images / test_images : N × 28 × 28 สำหรับชุดข้อมูลระดับสีเทา 2D, N × 28 × 28 × 3 สำหรับชุดข้อมูล RGB 2D, N × 28 × 28 × 28 สำหรับชุดข้อมูล 3D N หมายถึงจำนวนตัวอย่างtrain_labels / val_labels / test_labels : N × L N หมายถึงจำนวนตัวอย่าง L หมายถึงจำนวนฉลากงาน สำหรับการจำแนกประเภท label (ไบนารี/หลายคลาส), L=1 และ {0,1,2,3,..,C} หมายถึงฉลากหมวดหมู่ ( C=1 สำหรับไบนารี); สำหรับการจำแนกประเภทหลายฉลาก L!=1 , เช่น, L=14 สำหรับ chestmnist.npzนอกจากนี้เรายังมีไฟล์ CSV สำหรับชุดย่อย MedMnist แต่ละรายการที่นี่ซึ่งแมป "Image_id" ในชุดย่อยกับภาพที่เกี่ยวข้องในชุดข้อมูลต้นฉบับ สำหรับแต่ละรายการจะมีรายละเอียด "แยก" และ "ดัชนี" เฉพาะภายในชุดย่อย medmnist พร้อมกับชื่อภาพที่เกี่ยวข้องจากชุดข้อมูลอย่างเป็นทางการ
แสดงรายการชุดข้อมูลที่มีอยู่ทั้งหมด:
python -m medmnist available
ดาวน์โหลดชุดข้อมูลที่มีขนาดเฉพาะ ( size=None (28) โดยค่าเริ่มต้น):
python -m medmnist download --size=28
ในการดาวน์โหลดขนาดที่มีอยู่ทั้งหมด:
python -m medmnist download --size=all
ลบ NPZ ทั้งหมดที่ดาวน์โหลดจากรูท:
python -m medmnist clean
พิมพ์รายละเอียดชุดข้อมูลที่ได้รับธงชุดย่อย:
python -m medmnist info --flag=xxxmnist
บันทึกชุดข้อมูลเป็นตัวเลขมาตรฐานและไฟล์ CSV ซึ่งสามารถใช้สำหรับเครื่องมือ AutomL เช่น Google Automl Vision:
สำหรับชุดข้อมูล 2D:
python -m medmnist save --flag=xxxmnist --folder=tmp/ --postfix=png --download=True --size=28
สำหรับชุดข้อมูล 3D:
python -m medmnist save --flag=xxxmnist3d --folder=tmp/ --postfix=gif --download=True --size=28
โดยค่าเริ่มต้น download=False และ size=None (28)
แยกวิเคราะห์และประเมินไฟล์ผลลัพธ์มาตรฐานโปรดดู Evaluator.parse_and_evaluate สำหรับรายละเอียด
python -m medmnist evaluate --path=folder/{flag}{size_flag}_{split}@{run}.csv
ที่นี่ size_flag ว่างเปล่าสำหรับ 28 ภาพและ _size สำหรับภาพขนาดใหญ่เช่น "_64" เช่น
python -m medmnist evaluate --path=bloodmnist_64_val_[AUC]0.486_[ACC][email protected]
หรือ
python -m medmnist evaluate --path=chestmnist_test_[AUC]0.500_[ACC][email protected]
ชุดข้อมูล MedMnist ได้รับใบอนุญาตภายใต้ Creative Commons Attribution 4.0 International (CC โดย 4.0) ยกเว้น Dermamnist ภายใต้ Creative Commons Attribution-Noncommercial 4.0 International (CC BY-NC 4.0) รหัสอยู่ภายใต้ใบอนุญาต Apache-2.0
หากคุณพบว่าโครงการนี้มีประโยชน์ในการวิจัยของคุณโปรดอ้างอิงเอกสารต่อไปนี้:
Jiancheng Yang, Rui Shi, Donglai Wei, Zequan Liu, Lin Zhao, Bilian Ke, Hanspeter Pfister, Bingbing Ni. Yang, Jiancheng, et al. "MedMNIST v2-A large-scale lightweight benchmark for 2D and 3D biomedical image classification." Scientific Data, 2023.
Jiancheng Yang, Rui Shi, Bingbing Ni. "MedMNIST Classification Decathlon: A Lightweight AutoML Benchmark for Medical Image Analysis". IEEE 18th International Symposium on Biomedical Imaging (ISBI), 2021.
หรือใช้ bibtex:
@article{medmnistv2,
title={MedMNIST v2-A large-scale lightweight benchmark for 2D and 3D biomedical image classification},
author={Yang, Jiancheng and Shi, Rui and Wei, Donglai and Liu, Zequan and Zhao, Lin and Ke, Bilian and Pfister, Hanspeter and Ni, Bingbing},
journal={Scientific Data},
volume={10},
number={1},
pages={41},
year={2023},
publisher={Nature Publishing Group UK London}
}
@inproceedings{medmnistv1,
title={MedMNIST Classification Decathlon: A Lightweight AutoML Benchmark for Medical Image Analysis},
author={Yang, Jiancheng and Shi, Rui and Ni, Bingbing},
booktitle={IEEE 18th International Symposium on Biomedical Imaging (ISBI)},
pages={191--195},
year={2021}
}
โปรดอ้างถึงเอกสารข้อมูลต้นฉบับของชุดย่อย medmnist ตามคำอธิบายในหน้าโครงการ
v3.0.2 : แก้ไขข้อผิดพลาดในผู้ประเมิน ( size_flag ) และ PYPI อัปเดตv3.0.1 : อัปเดตข้อความแสดงข้อผิดพลาดในการดาวน์โหลดเพื่อให้คำแนะนำมากขึ้นv3.0.0 : Medmnist+ มีขนาดใหญ่ขึ้น: 64x64, 128x128 และ 224x224 สำหรับ 2d และ 64x64x64 สำหรับ 3dv2.2.4 : ลบตัวอย่างว่างเปล่าจำนวนเล็กน้อยใน Organamnist, Organcmnist, Organsmnist, Organmnist3d และ Vesselmnist3dv2.2.3 : ใบอนุญาต Dermamnist ถึง CC BY-NC 4.0v2.2.2 : Python 3.11 Sequence จาก collections.abc รองรับv2.2.1 : อัปเดตข้อมูล PYPIv2.2.0 : วิธี montage ที่รองรับสำหรับ scikit-image> = 0.20.0v2.1.0 : ข้อผิดพลาดข้อมูล NoduleMNIST3D แก้ไขv2.0.0 : Medmnist V2 release (บน PYPI)v1.0.0 : การเปิดตัว medmnist v1v0.2.0 : การเปิดตัวเบต้า medmnist