Download de torchxrayvision - torchxrayvision download de código fonte

Papel agora online! https://arxiv.org/abs/2111.00595

Documentação agora online! https://mlmed.org/torchxrayvision/

TorchxrayVision

	(? Vídeo promocional) )

O que é?

Uma biblioteca para conjuntos de dados e modelos de raios X de tórax. Incluindo modelos pré-treinados.

A TorchXrayVision é uma biblioteca de software de código aberto para trabalhar com conjuntos de dados de raios-X de tórax e modelos de aprendizado profundo. Ele fornece uma interface comum e uma cadeia de pré-processamento comum para um amplo conjunto de conjuntos de dados de radiografia de tórax publicamente disponíveis. Além disso, vários modelos de aprendizado de classificação e representação com diferentes arquiteturas, treinados em diferentes combinações de dados, estão disponíveis na biblioteca para servir como linhas de base ou extratores de recursos.

No caso de pesquisadores abordando questões clínicas, é uma perda de tempo para treinar modelos do zero. Para abordar isso, a TorchxrayVision fornece modelos pré-treinados que são treinados em grandes coortes de dados e permitem 1) análise rápida de grandes conjuntos de dados 2) Recursos para aprendizado de poucos anos.
No caso de pesquisadores desenvolvendo algoritmos, é importante avaliar modelos robustamente usando vários conjuntos de dados externos. Os metadados associados a cada conjunto de dados podem variar bastante, o que dificulta a aplicação de métodos a vários conjuntos de dados. A TorchXrayVision fornece acesso a muitos conjuntos de dados de maneira uniforme, para que possam ser trocados com uma única linha de código. Esses conjuntos de dados também podem ser mesclados e filtrados para construir mudanças de distribuição específicas para o estudo da generalização.

Twitter: @TorChXrayVision

Começando

 $ pip install torchxrayvision

 import torchxrayvision as xrv
import skimage , torch , torchvision

# Prepare the image:
img = skimage . io . imread ( "16747_3_1.jpg" )
img = xrv . datasets . normalize ( img , 255 ) # convert 8-bit image to [-1024, 1024] range
img = img . mean ( 2 )[ None , ...] # Make single color channel

transform = torchvision . transforms . Compose ([ xrv . datasets . XRayCenterCrop (), xrv . datasets . XRayResizer ( 224 )])

img = transform ( img )
img = torch . from_numpy ( img )

# Load model and process image
model = xrv . models . DenseNet ( weights = "densenet121-res224-all" )
outputs = model ( img [ None ,...]) # or model.features(img[None,...]) 

# Print results
dict ( zip ( model . pathologies , outputs [ 0 ]. detach (). numpy ()))

{ 'Atelectasis' : 0.32797316 ,
 'Consolidation' : 0.42933336 ,
 'Infiltration' : 0.5316924 ,
 'Pneumothorax' : 0.28849724 ,
 'Edema' : 0.024142697 ,
 'Emphysema' : 0.5011832 ,
 'Fibrosis' : 0.51887786 ,
 'Effusion' : 0.27805611 ,
 'Pneumonia' : 0.18569896 ,
 'Pleural_Thickening' : 0.24489835 ,
 'Cardiomegaly' : 0.3645515 ,
 'Nodule' : 0.68982 ,
 'Mass' : 0.6392845 ,
 'Hernia' : 0.00993878 ,
 'Lung Lesion' : 0.011150705 ,
 'Fracture' : 0.51916164 ,
 'Lung Opacity' : 0.59073937 ,
 'Enlarged Cardiomediastinum' : 0.27218717 }

Um script de amostra para processar imagens de uso de modelos pré -terenciados é process_image.py

 $ python3 process_image.py ../tests/00000001_000.png
{'preds': {'Atelectasis': 0.50500506,
           'Cardiomegaly': 0.6600903,
           'Consolidation': 0.30575264,
           'Edema': 0.274184,
           'Effusion': 0.4026162,
           'Emphysema': 0.5036339,
           'Enlarged Cardiomediastinum': 0.40989172,
           'Fibrosis': 0.53293407,
           'Fracture': 0.32376793,
           'Hernia': 0.011924741,
           'Infiltration': 0.5154413,
           'Lung Lesion': 0.22231922,
           'Lung Opacity': 0.2772148,
           'Mass': 0.32237658,
           'Nodule': 0.5091847,
           'Pleural_Thickening': 0.5102617,
           'Pneumonia': 0.30947986,
           'Pneumothorax': 0.24847917}}

Modelos (caderno de demonstração)

Especifique pesos para modelos pré -tenhados (atualmente todos Densenet121) Nota: Cada modelo pré -criado possui 18 saídas. O modelo all tem todas as saídas treinadas. No entanto, para os outros pesos, alguns alvos não são treinados e prevêem aleatoriamente porque eles não existem no conjunto de dados de treinamento. As únicas saídas válidas estão listadas no campo {dataset}.pathologies no conjunto de dados que corresponde aos pesos.

 ## 224x224 models
model = xrv . models . DenseNet ( weights = "densenet121-res224-all" )
model = xrv . models . DenseNet ( weights = "densenet121-res224-rsna" ) # RSNA Pneumonia Challenge
model = xrv . models . DenseNet ( weights = "densenet121-res224-nih" ) # NIH chest X-ray8
model = xrv . models . DenseNet ( weights = "densenet121-res224-pc" ) # PadChest (University of Alicante)
model = xrv . models . DenseNet ( weights = "densenet121-res224-chex" ) # CheXpert (Stanford)
model = xrv . models . DenseNet ( weights = "densenet121-res224-mimic_nb" ) # MIMIC-CXR (MIT)
model = xrv . models . DenseNet ( weights = "densenet121-res224-mimic_ch" ) # MIMIC-CXR (MIT)

# 512x512 models
model = xrv . models . ResNet ( weights = "resnet50-res512-all" )

# DenseNet121 from JF Healthcare for the CheXpert competition
model = xrv . baseline_models . jfhealthcare . DenseNet () 

# Official Stanford CheXpert model
model = xrv . baseline_models . chexpert . DenseNet ( weights_zip = "chexpert_weights.zip" )

# Emory HITI lab race prediction model
model = xrv . baseline_models . emory_hiti . RaceModel ()
model . targets - > [ "Asian" , "Black" , "White" ]

# Riken age prediction model
model = xrv . baseline_models . riken . AgeModel ()

Os benchmarks dos modos estão aqui: Benchmarks.md e o desempenho de alguns dos modelos podem ser vistos neste artigo arxiv.org/abs/2002.02497.

AutoEncoders

Você também pode carregar um autoencoder pré-treinado que é treinado nos conjuntos de dados Padchest, NIH, Chexpert e Mimic.

 ae = xrv . autoencoders . ResNetAE ( weights = "101-elastic" )
z = ae . encode ( image )
image2 = ae . decode ( z )

Segmentação

Você pode carregar modelos de segmentação anatômica pré -gravados. Notebook de demonstração

 seg_model = xrv . baseline_models . chestx_det . PSPNet ()
output = seg_model ( image )
output . shape # [1, 14, 512, 512]
seg_model . targets # ['Left Clavicle', 'Right Clavicle', 'Left Scapula', 'Right Scapula',
                  #  'Left Lung', 'Right Lung', 'Left Hilus Pulmonis', 'Right Hilus Pulmonis',
                  #  'Heart', 'Aorta', 'Facies Diaphragmatica', 'Mediastinum',  'Weasand', 'Spine']

Conjuntos de dados

Veja os documentos para obter mais detalhes sobre cada caderno de dados e demonstração e exemplo de carregamento de scripts

 transform = torchvision . transforms . Compose ([ xrv . datasets . XRayCenterCrop (),
                                            xrv . datasets . XRayResizer ( 224 )])

# RSNA Pneumonia Detection Challenge. https://pubs.rsna.org/doi/full/10.1148/ryai.2019180041
d_kaggle = xrv . datasets . RSNA_Pneumonia_Dataset ( imgpath = "path to stage_2_train_images_jpg" ,
                                       transform = transform )
                
# CheXpert: A Large Chest Radiograph Dataset with Uncertainty Labels and Expert Comparison. https://arxiv.org/abs/1901.07031             
d_chex = xrv . datasets . CheX_Dataset ( imgpath = "path to CheXpert-v1.0-small" ,
                                   csvpath = "path to CheXpert-v1.0-small/train.csv" ,
                                   transform = transform )

# National Institutes of Health ChestX-ray8 dataset. https://arxiv.org/abs/1705.02315
d_nih = xrv . datasets . NIH_Dataset ( imgpath = "path to NIH images" )

# A relabelling of a subset of NIH images from: https://pubs.rsna.org/doi/10.1148/radiol.2019191293
d_nih2 = xrv . datasets . NIH_Google_Dataset ( imgpath = "path to NIH images" )

# PadChest: A large chest x-ray image dataset with multi-label annotated reports. https://arxiv.org/abs/1901.07441
d_pc = xrv . datasets . PC_Dataset ( imgpath = "path to image folder" )

# COVID-19 Image Data Collection. https://arxiv.org/abs/2006.11988
d_covid19 = xrv . datasets . COVID19_Dataset () # specify imgpath and csvpath for the dataset

# SIIM Pneumothorax Dataset. https://www.kaggle.com/c/siim-acr-pneumothorax-segmentation
d_siim = xrv . datasets . SIIM_Pneumothorax_Dataset ( imgpath = "dicom-images-train/" ,
                                                csvpath = "train-rle.csv" )

# VinDr-CXR: An open dataset of chest X-rays with radiologist's annotations. https://arxiv.org/abs/2012.15029
d_vin = xrv . datasets . VinBrain_Dataset ( imgpath = ".../train" ,
                                      csvpath = ".../train.csv" )

# National Library of Medicine Tuberculosis Datasets. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4256233/
d_nlmtb = xrv . datasets . NLMTB_Dataset ( imgpath = "path to MontgomerySet or ChinaSet_AllFiles" )

Campos de conjunto de dados

Cada conjunto de dados contém vários campos. Esses campos são mantidos quando xrv.datasets.subset_dataset e xrv.datasets.merge_dataset são usados.

.pathologies Este campo é uma lista das patologias contidas neste conjunto de dados que estarão contidas no campo .labels ].
.labels Este campo contém uma 1,0, ou NAN para cada rótulo definido em .pathologies .
.csv Este campo é um quadro de dados do Pandas do arquivo CSV de metadados que vem com os dados. Cada linha se alinha aos elementos do conjunto de dados, portanto a indexação usando .iloc funcionará.

Se possível, .csv de cada conjunto de dados terá alguns campos comuns do CSV. Estes serão alinhados quando a lista for a seguinte:

csv.patientid Um ID exclusivo que identificará uniqamente amostras neste conjunto de dados
csv.offset_day_int Um tempo inteiro deslocado para a imagem na unidade de dias. Espera -se que isso seja para tempos relativos e não tenha significado absoluto, embora para alguns conjuntos de dados seja o tempo de época.
csv.age_years a idade do paciente em anos.
csv.sex_male se o paciente for masculino
csv.sex_female se o paciente for feminino

Ferramentas do conjunto de dados

Relabel_dataset alinhará os rótulos para ter a mesma ordem que o argumento das patologias.

 xrv . datasets . relabel_dataset ( xrv . datasets . default_pathologies , d_nih ) # has side effects

Especifique um subconjunto de visualizações (Notebook de demonstração)

 d_kaggle = xrv . datasets . RSNA_Pneumonia_Dataset ( imgpath = "..." ,
                                               views = [ "PA" , "AP" , "AP Supine" ])

Especifique apenas 1 imagem por paciente

 d_kaggle = xrv . datasets . RSNA_Pneumonia_Dataset ( imgpath = "..." ,
                                               unique_patients = True )

Obtenha estatísticas de resumo por conjunto de dados

 d_chex = xrv . datasets . CheX_Dataset ( imgpath = "CheXpert-v1.0-small" ,
                                   csvpath = "CheXpert-v1.0-small/train.csv" ,
                                 views = [ "PA" , "AP" ], unique_patients = False )

CheX_Dataset num_samples = 191010 views = [ 'PA' , 'AP' ]
{ 'Atelectasis' : { 0.0 : 17621 , 1.0 : 29718 },
 'Cardiomegaly' : { 0.0 : 22645 , 1.0 : 23384 },
 'Consolidation' : { 0.0 : 30463 , 1.0 : 12982 },
 'Edema' : { 0.0 : 29449 , 1.0 : 49674 },
 'Effusion' : { 0.0 : 34376 , 1.0 : 76894 },
 'Enlarged Cardiomediastinum' : { 0.0 : 26527 , 1.0 : 9186 },
 'Fracture' : { 0.0 : 18111 , 1.0 : 7434 },
 'Lung Lesion' : { 0.0 : 17523 , 1.0 : 7040 },
 'Lung Opacity' : { 0.0 : 20165 , 1.0 : 94207 },
 'Pleural Other' : { 0.0 : 17166 , 1.0 : 2503 },
 'Pneumonia' : { 0.0 : 18105 , 1.0 : 4674 },
 'Pneumothorax' : { 0.0 : 54165 , 1.0 : 17693 },
 'Support Devices' : { 0.0 : 21757 , 1.0 : 99747 }}

Máscaras de patologia (caderno de demonstração)

As máscaras estão disponíveis nos seguintes conjuntos de dados:

 xrv . datasets . RSNA_Pneumonia_Dataset () # for Lung Opacity
xrv . datasets . SIIM_Pneumothorax_Dataset () # for Pneumothorax
xrv . datasets . NIH_Dataset () # for Cardiomegaly, Mass, Effusion, ...

Exemplo de uso:

 d_rsna = xrv . datasets . RSNA_Pneumonia_Dataset ( imgpath = "stage_2_train_images_jpg" , 
                                            views = [ "PA" , "AP" ],
                                            pathology_masks = True )
                                            
# The has_masks column will let you know if any masks exist for that sample
d_rsna . csv . has_masks . value_counts ()
False    20672
True      6012       

# Each sample will have a pathology_masks dictionary where the index 
# of each pathology will correspond to a mask of that pathology (if it exists).
# There may be more than one mask per sample. But only one per pathology.
sample [ "pathology_masks" ][ d_rsna . pathologies . index ( "Lung Opacity" )]

Ele também funciona com data_augmentation se você passar em data_aug=data_transforms para o dataloader. A semente aleatória é comparada para alinhar chamadas para a imagem e a máscara.

Ferramentas de mudança de distribuição (caderno de demonstração)

O Classe xrv.datasets.CovariateDataset leva dois conjuntos de dados e duas matrizes representando os rótulos. As amostras serão devolvidas com a proporção desejada de imagens de cada site. O objetivo aqui é simular uma mudança de covariável para fazer um foco de modelo em um recurso incorreto. Em seguida, a mudança pode ser revertida nos dados de validação, causando uma falha catastrófica no desempenho da generalização.

razão = 0,0 significa que as imagens de D1 terão uma razão de etiqueta positiva = 0,5 significa que imagens de D1 terão metade da proporção positiva de rótulos = 1,0 significa que imagens de D1 não terão rótulo positivo

Com qualquer proporção, o número de amostras retornadas será o mesmo.

 d = xrv . datasets . CovariateDataset ( d1 = # dataset1 with a specific condition
                                  d1_target = #target label to predict,
                                  d2 = # dataset2 with a specific condition
                                  d2_target = #target label to predict,
                                  mode = "train" , # train, valid, and test
                                  ratio = 0.9 )

Citação

Papel TorchxrayVision primário: https://arxiv.org/abs/2111.00595

 Joseph Paul Cohen, Joseph D. Viviano, Paul Bertin, Paul Morrison, Parsa Torabian, Matteo Guarrera, Matthew P Lungren, Akshay Chaudhari, Rupert Brooks, Mohammad Hashir, Hadrien Bertrand
TorchXRayVision: A library of chest X-ray datasets and models. 
Medical Imaging with Deep Learning
https://github.com/mlmed/torchxrayvision, 2020


@inproceedings{Cohen2022xrv,
title = {{TorchXRayVision: A library of chest X-ray datasets and models}},
author = {Cohen, Joseph Paul and Viviano, Joseph D. and Bertin, Paul and Morrison, Paul and Torabian, Parsa and Guarrera, Matteo and Lungren, Matthew P and Chaudhari, Akshay and Brooks, Rupert and Hashir, Mohammad and Bertrand, Hadrien},
booktitle = {Medical Imaging with Deep Learning},
url = {https://github.com/mlmed/torchxrayvision},
arxivId = {2111.00595},
year = {2022}
}

e este artigo que iniciou o desenvolvimento da biblioteca: https://arxiv.org/abs/2002.02497

 Joseph Paul Cohen and Mohammad Hashir and Rupert Brooks and Hadrien Bertrand
On the limits of cross-domain generalization in automated X-ray prediction. 
Medical Imaging with Deep Learning 2020 (Online: https://arxiv.org/abs/2002.02497)

@inproceedings{cohen2020limits,
  title={On the limits of cross-domain generalization in automated X-ray prediction},
  author={Cohen, Joseph Paul and Hashir, Mohammad and Brooks, Rupert and Bertrand, Hadrien},
  booktitle={Medical Imaging with Deep Learning},
  year={2020},
  url={https://arxiv.org/abs/2002.02497}
}