Descargar torchxrayvision - Descargar el código fuente torchxrayvision

Papel ahora en línea! https://arxiv.org/abs/2111.00595

¡Documentación ahora en línea! https://mlmed.org/torchxrayvision/

TorchxrayVision

	((video promocional) )

¿Qué es?

Una biblioteca para conjuntos de datos y modelos de rayos X de tórax. Incluyendo modelos previamente capacitados.

TorchxRayVision es una biblioteca de software de código abierto para trabajar con conjuntos de datos de rayos X de cofre y modelos de aprendizaje profundo. Proporciona una interfaz común y una cadena de preprocesamiento común para un amplio conjunto de conjuntos de datos de rayos X de tórax disponibles públicamente. Además, una serie de modelos de aprendizaje de clasificación y representación con diferentes arquitecturas, capacitados en diferentes combinaciones de datos, están disponibles a través de la biblioteca para servir como líneas de base o extractores de características.

En el caso de los investigadores que abordan las preguntas clínicas, es una pérdida de tiempo para entrenar modelos desde cero. Para abordar esto, TORCHXRAYVision proporciona modelos previamente capacitados que están entrenados en grandes cohortes de datos y permite 1) Análisis rápido de grandes conjuntos de datos 2) Reutilización de características para un aprendizaje de pocos disparos.
En el caso de los investigadores que desarrollan algoritmos, es importante evaluar de manera robusta modelos utilizando múltiples conjuntos de datos externos. Los metadatos asociados con cada conjunto de datos pueden variar mucho, lo que dificulta la aplicación de métodos a múltiples conjuntos de datos. TORCHXRAYVISION proporciona acceso a muchos conjuntos de datos de manera uniforme para que puedan intercambiarse con una sola línea de código. Estos conjuntos de datos también se pueden fusionar y filtrar para construir cambios de distribución específicos para estudiar la generalización.

Twitter: @torchxrayvision

Empezando

 $ pip install torchxrayvision

 import torchxrayvision as xrv
import skimage , torch , torchvision

# Prepare the image:
img = skimage . io . imread ( "16747_3_1.jpg" )
img = xrv . datasets . normalize ( img , 255 ) # convert 8-bit image to [-1024, 1024] range
img = img . mean ( 2 )[ None , ...] # Make single color channel

transform = torchvision . transforms . Compose ([ xrv . datasets . XRayCenterCrop (), xrv . datasets . XRayResizer ( 224 )])

img = transform ( img )
img = torch . from_numpy ( img )

# Load model and process image
model = xrv . models . DenseNet ( weights = "densenet121-res224-all" )
outputs = model ( img [ None ,...]) # or model.features(img[None,...]) 

# Print results
dict ( zip ( model . pathologies , outputs [ 0 ]. detach (). numpy ()))

{ 'Atelectasis' : 0.32797316 ,
 'Consolidation' : 0.42933336 ,
 'Infiltration' : 0.5316924 ,
 'Pneumothorax' : 0.28849724 ,
 'Edema' : 0.024142697 ,
 'Emphysema' : 0.5011832 ,
 'Fibrosis' : 0.51887786 ,
 'Effusion' : 0.27805611 ,
 'Pneumonia' : 0.18569896 ,
 'Pleural_Thickening' : 0.24489835 ,
 'Cardiomegaly' : 0.3645515 ,
 'Nodule' : 0.68982 ,
 'Mass' : 0.6392845 ,
 'Hernia' : 0.00993878 ,
 'Lung Lesion' : 0.011150705 ,
 'Fracture' : 0.51916164 ,
 'Lung Opacity' : 0.59073937 ,
 'Enlarged Cardiomediastinum' : 0.27218717 }

Un script de muestra para procesar los usos de imágenes de los modelos previos a los pretrados es process_image.py

 $ python3 process_image.py ../tests/00000001_000.png
{'preds': {'Atelectasis': 0.50500506,
           'Cardiomegaly': 0.6600903,
           'Consolidation': 0.30575264,
           'Edema': 0.274184,
           'Effusion': 0.4026162,
           'Emphysema': 0.5036339,
           'Enlarged Cardiomediastinum': 0.40989172,
           'Fibrosis': 0.53293407,
           'Fracture': 0.32376793,
           'Hernia': 0.011924741,
           'Infiltration': 0.5154413,
           'Lung Lesion': 0.22231922,
           'Lung Opacity': 0.2772148,
           'Mass': 0.32237658,
           'Nodule': 0.5091847,
           'Pleural_Thickening': 0.5102617,
           'Pneumonia': 0.30947986,
           'Pneumothorax': 0.24847917}}

Modelos (cuaderno de demostración)

Especifique los pesos para los modelos previos a la aparición (actualmente todos los Densenet121) Nota: Cada modelo de detenimiento tiene 18 salidas. all Model tiene todos los resultados entrenados. Sin embargo, para los otros pesos, algunos objetivos no están capacitados y predecirán al azar porque no existen en el conjunto de datos de entrenamiento. Las únicas salidas válidas se enumeran en el campo {dataset}.pathologies en el conjunto de datos que corresponde a los pesos.

 ## 224x224 models
model = xrv . models . DenseNet ( weights = "densenet121-res224-all" )
model = xrv . models . DenseNet ( weights = "densenet121-res224-rsna" ) # RSNA Pneumonia Challenge
model = xrv . models . DenseNet ( weights = "densenet121-res224-nih" ) # NIH chest X-ray8
model = xrv . models . DenseNet ( weights = "densenet121-res224-pc" ) # PadChest (University of Alicante)
model = xrv . models . DenseNet ( weights = "densenet121-res224-chex" ) # CheXpert (Stanford)
model = xrv . models . DenseNet ( weights = "densenet121-res224-mimic_nb" ) # MIMIC-CXR (MIT)
model = xrv . models . DenseNet ( weights = "densenet121-res224-mimic_ch" ) # MIMIC-CXR (MIT)

# 512x512 models
model = xrv . models . ResNet ( weights = "resnet50-res512-all" )

# DenseNet121 from JF Healthcare for the CheXpert competition
model = xrv . baseline_models . jfhealthcare . DenseNet () 

# Official Stanford CheXpert model
model = xrv . baseline_models . chexpert . DenseNet ( weights_zip = "chexpert_weights.zip" )

# Emory HITI lab race prediction model
model = xrv . baseline_models . emory_hiti . RaceModel ()
model . targets - > [ "Asian" , "Black" , "White" ]

# Riken age prediction model
model = xrv . baseline_models . riken . AgeModel ()

Los puntos de referencia de los modos están aquí: Benchmarks.md y el rendimiento de algunos de los modelos se puede ver en este documento arxiv.org/abs/2002.02497.

Autoencoders

También puede cargar un autoencoder previamente capacitado que esté entrenado en conjuntos de datos Padchest, NIH, CHEXPERT e MIMIC.

 ae = xrv . autoencoders . ResNetAE ( weights = "101-elastic" )
z = ae . encode ( image )
image2 = ae . decode ( z )

Segmentación

Puede cargar modelos de segmentación anatómica previa a la aparición. Cuaderno de demostración

 seg_model = xrv . baseline_models . chestx_det . PSPNet ()
output = seg_model ( image )
output . shape # [1, 14, 512, 512]
seg_model . targets # ['Left Clavicle', 'Right Clavicle', 'Left Scapula', 'Right Scapula',
                  #  'Left Lung', 'Right Lung', 'Left Hilus Pulmonis', 'Right Hilus Pulmonis',
                  #  'Heart', 'Aorta', 'Facies Diaphragmatica', 'Mediastinum',  'Weasand', 'Spine']

Conjuntos de datos

Ver documentos para obtener más detalles en cada conjunto de datos y cuaderno de demostración y ejemplo de secuencia de comandos de carga

 transform = torchvision . transforms . Compose ([ xrv . datasets . XRayCenterCrop (),
                                            xrv . datasets . XRayResizer ( 224 )])

# RSNA Pneumonia Detection Challenge. https://pubs.rsna.org/doi/full/10.1148/ryai.2019180041
d_kaggle = xrv . datasets . RSNA_Pneumonia_Dataset ( imgpath = "path to stage_2_train_images_jpg" ,
                                       transform = transform )
                
# CheXpert: A Large Chest Radiograph Dataset with Uncertainty Labels and Expert Comparison. https://arxiv.org/abs/1901.07031             
d_chex = xrv . datasets . CheX_Dataset ( imgpath = "path to CheXpert-v1.0-small" ,
                                   csvpath = "path to CheXpert-v1.0-small/train.csv" ,
                                   transform = transform )

# National Institutes of Health ChestX-ray8 dataset. https://arxiv.org/abs/1705.02315
d_nih = xrv . datasets . NIH_Dataset ( imgpath = "path to NIH images" )

# A relabelling of a subset of NIH images from: https://pubs.rsna.org/doi/10.1148/radiol.2019191293
d_nih2 = xrv . datasets . NIH_Google_Dataset ( imgpath = "path to NIH images" )

# PadChest: A large chest x-ray image dataset with multi-label annotated reports. https://arxiv.org/abs/1901.07441
d_pc = xrv . datasets . PC_Dataset ( imgpath = "path to image folder" )

# COVID-19 Image Data Collection. https://arxiv.org/abs/2006.11988
d_covid19 = xrv . datasets . COVID19_Dataset () # specify imgpath and csvpath for the dataset

# SIIM Pneumothorax Dataset. https://www.kaggle.com/c/siim-acr-pneumothorax-segmentation
d_siim = xrv . datasets . SIIM_Pneumothorax_Dataset ( imgpath = "dicom-images-train/" ,
                                                csvpath = "train-rle.csv" )

# VinDr-CXR: An open dataset of chest X-rays with radiologist's annotations. https://arxiv.org/abs/2012.15029
d_vin = xrv . datasets . VinBrain_Dataset ( imgpath = ".../train" ,
                                      csvpath = ".../train.csv" )

# National Library of Medicine Tuberculosis Datasets. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4256233/
d_nlmtb = xrv . datasets . NLMTB_Dataset ( imgpath = "path to MontgomerySet or ChinaSet_AllFiles" )

Campos de conjunto de datos

Cada conjunto de datos contiene varios campos. Estos campos se mantienen cuando se utilizan xrv.datasets.subset_dataset y xrv.datasets.merge_dataset.

.pathologies Este campo es una lista de las patologías contenidas en este conjunto de datos que estará contenido en el campo .labels ].
.labels Este campo contiene un 1,0, o NAN para cada etiqueta definida en .pathologies .
.csv Este campo es un marco de datos PANDAS del archivo CSV de metadatos que viene con los datos. Cada fila se alinea con los elementos del conjunto de datos para que la indexación use .iloc funcionará.

Si es posible, cada conjunto de datos .csv tendrá algunos campos comunes del CSV. Estos se alinearán cuando la lista sea la siguiente:

csv.patientid una identificación única que identificará las muestras en este conjunto de datos
csv.offset_day_int Un descenso de tiempo entero para la imagen en la unidad de días. Se espera que esto sea para tiempos relativos y no tiene un significado absoluto, aunque para algunos conjuntos de datos es el momento de la época.
csv.age_years la edad del paciente en años.
csv.sex_male si el paciente es hombre
csv.sex_female si el paciente es mujer

Herramientas del conjunto de datos

Relabel_dataset alineará las etiquetas para tener el mismo orden que el argumento de las patologías.

 xrv . datasets . relabel_dataset ( xrv . datasets . default_pathologies , d_nih ) # has side effects

especificar un subconjunto de vistas (cuaderno de demostración)

 d_kaggle = xrv . datasets . RSNA_Pneumonia_Dataset ( imgpath = "..." ,
                                               views = [ "PA" , "AP" , "AP Supine" ])

especificar solo 1 imagen por paciente

 d_kaggle = xrv . datasets . RSNA_Pneumonia_Dataset ( imgpath = "..." ,
                                               unique_patients = True )

Obtener estadísticas resumidas por conjunto de datos

 d_chex = xrv . datasets . CheX_Dataset ( imgpath = "CheXpert-v1.0-small" ,
                                   csvpath = "CheXpert-v1.0-small/train.csv" ,
                                 views = [ "PA" , "AP" ], unique_patients = False )

CheX_Dataset num_samples = 191010 views = [ 'PA' , 'AP' ]
{ 'Atelectasis' : { 0.0 : 17621 , 1.0 : 29718 },
 'Cardiomegaly' : { 0.0 : 22645 , 1.0 : 23384 },
 'Consolidation' : { 0.0 : 30463 , 1.0 : 12982 },
 'Edema' : { 0.0 : 29449 , 1.0 : 49674 },
 'Effusion' : { 0.0 : 34376 , 1.0 : 76894 },
 'Enlarged Cardiomediastinum' : { 0.0 : 26527 , 1.0 : 9186 },
 'Fracture' : { 0.0 : 18111 , 1.0 : 7434 },
 'Lung Lesion' : { 0.0 : 17523 , 1.0 : 7040 },
 'Lung Opacity' : { 0.0 : 20165 , 1.0 : 94207 },
 'Pleural Other' : { 0.0 : 17166 , 1.0 : 2503 },
 'Pneumonia' : { 0.0 : 18105 , 1.0 : 4674 },
 'Pneumothorax' : { 0.0 : 54165 , 1.0 : 17693 },
 'Support Devices' : { 0.0 : 21757 , 1.0 : 99747 }}

Máscaras de patología (cuaderno de demostración)

Las máscaras están disponibles en los siguientes conjuntos de datos:

 xrv . datasets . RSNA_Pneumonia_Dataset () # for Lung Opacity
xrv . datasets . SIIM_Pneumothorax_Dataset () # for Pneumothorax
xrv . datasets . NIH_Dataset () # for Cardiomegaly, Mass, Effusion, ...

Ejemplo de uso:

 d_rsna = xrv . datasets . RSNA_Pneumonia_Dataset ( imgpath = "stage_2_train_images_jpg" , 
                                            views = [ "PA" , "AP" ],
                                            pathology_masks = True )
                                            
# The has_masks column will let you know if any masks exist for that sample
d_rsna . csv . has_masks . value_counts ()
False    20672
True      6012       

# Each sample will have a pathology_masks dictionary where the index 
# of each pathology will correspond to a mask of that pathology (if it exists).
# There may be more than one mask per sample. But only one per pathology.
sample [ "pathology_masks" ][ d_rsna . pathologies . index ( "Lung Opacity" )]

También funciona con data_augmentation si pasa en data_aug=data_transforms al DataLoader. La semilla aleatoria se combina para alinear las llamadas para la imagen y la máscara.

Herramientas de cambio de distribución (cuaderno de demostración)

La clase xrv.datasets.CovariateDataset toma dos conjuntos de datos y dos matrices que representan las etiquetas. Las muestras se devolverán con la relación deseada de imágenes de cada sitio. El objetivo aquí es simular un cambio de covariable para hacer que un modelo se enfoque en una característica incorrecta. Entonces el cambio se puede revertir en los datos de validación que causan una falla catastrófica en el rendimiento de la generalización.

Ratio = 0.0 significa que las imágenes de D1 tendrán una relación de etiqueta positiva = 0.5 significa que las imágenes de D1 tendrán la mitad de la relación de etiquetas positivas = 1.0 significa que las imágenes de D1 no tendrán etiqueta positiva

Con cualquier relación, el número de muestras devueltas será la misma.

 d = xrv . datasets . CovariateDataset ( d1 = # dataset1 with a specific condition
                                  d1_target = #target label to predict,
                                  d2 = # dataset2 with a specific condition
                                  d2_target = #target label to predict,
                                  mode = "train" , # train, valid, and test
                                  ratio = 0.9 )

Citación

Documento primario de TorchxRayVision: https://arxiv.org/abs/2111.00595

 Joseph Paul Cohen, Joseph D. Viviano, Paul Bertin, Paul Morrison, Parsa Torabian, Matteo Guarrera, Matthew P Lungren, Akshay Chaudhari, Rupert Brooks, Mohammad Hashir, Hadrien Bertrand
TorchXRayVision: A library of chest X-ray datasets and models. 
Medical Imaging with Deep Learning
https://github.com/mlmed/torchxrayvision, 2020


@inproceedings{Cohen2022xrv,
title = {{TorchXRayVision: A library of chest X-ray datasets and models}},
author = {Cohen, Joseph Paul and Viviano, Joseph D. and Bertin, Paul and Morrison, Paul and Torabian, Parsa and Guarrera, Matteo and Lungren, Matthew P and Chaudhari, Akshay and Brooks, Rupert and Hashir, Mohammad and Bertrand, Hadrien},
booktitle = {Medical Imaging with Deep Learning},
url = {https://github.com/mlmed/torchxrayvision},
arxivId = {2111.00595},
year = {2022}
}

y este documento que inició el desarrollo de la biblioteca: https://arxiv.org/abs/2002.02497

 Joseph Paul Cohen and Mohammad Hashir and Rupert Brooks and Hadrien Bertrand
On the limits of cross-domain generalization in automated X-ray prediction. 
Medical Imaging with Deep Learning 2020 (Online: https://arxiv.org/abs/2002.02497)

@inproceedings{cohen2020limits,
  title={On the limits of cross-domain generalization in automated X-ray prediction},
  author={Cohen, Joseph Paul and Hashir, Mohammad and Brooks, Rupert and Bertrand, Hadrien},
  booktitle={Medical Imaging with Deep Learning},
  year={2020},
  url={https://arxiv.org/abs/2002.02497}
}