Ensembles de données médicaux QA et VQA existants
Question multimodale Réponse (QA) dans le domaine médical: résumé des ensembles de données et systèmes existants
J'ai préparé ce résumé pour mon discours CMU / LTI sur QA multimodal. Mes diapositives sont disponibles sur https://www.slideshare.net/benabacha/multimodal-estion-answering-in-the-medical-domain-cmulti-2020
Cette liste n'est pas exhaustive. Vous pouvez m'envoyer des liens et des références des ensembles de données et des systèmes de données médicales pertinents et je mettrai à jour la liste dès que possible. De plus, plusieurs ensembles de données liés aux défis ne sont plus accessibles au public. Vous pouvez contacter les organisateurs pour avoir les données.
*** Deux tâches principales: Question médicale Réponction (QA) et réponse visuelle Réponction (VQA) ***
I) Ensembles de données médicaux QA:
- Corpus for Evidence Based Medicine Résumé (Mollá, 2010): https://sourceforge.net/projects/ebmsumcorpus
- Tâche de Clef Qa4mre Alzheimer (Peñas et al, 2012).
- Bioask DataSets (2012-2020): http://bioasq.org/participate/challenges
- TREC LIVEQA-MED (Ben Abacha et al, 2017): https://github.com/abachaa/liveqa_medicaltask_trec2017
- Ensembles de données MEDIQA-2019 sur NLI, RQE et QA (Ben Abacha et al., 2019): https://github.com/abachaa/mediqa2019
- Ensemble de données de Mediqa-Ans des résumés de réponses axés sur les questions (Savery et al., 2020): https://osf.io/fyg46/ papier: https://www.nature.com/articles/s41597-020-00667-Z
- Collection MedQuad de 47K QA paires (Ben Abacha et Demner-Fushman, 2019): https://github.com/abachaa/medquad
- Collection des médicaments QA (Ben Abacha et al., 2019): https://github.com/abachaa/medication_qa_medinfo2019
- Résumé des questions de santé des consommateurs (Ben Abacha et Demner-Fushman, 2019): https://github.com/abachaa/meqsum
- EMRQA: QA sur les dossiers médicaux électroniques (Pampari et al., 2018). Scripts pour générer EMRQA à partir de données I2B2: https://github.com/panushri25/emrqa
- Ensemble de données EPIC-QA sur Covid-19 (Goodwin et al., 2020): https://bionlp.nlm.nih.gov/epic_qa/
- Biqa Corpus (Lamurias et al., 2020): https://github.com/lasigebiotm/biqa papier: https: //ieeexplore.ieee.org/document/9184044
- Ensemble de données HealthQA (Zhu et al., 2019): https://github.com/mingzhu0527/har papier: https://dmkd.cs.vt.edu/papers/www19.pdf
- Ensemble de données Mash-QA sur plusieurs réponses SURGES QUESTIONS DE SALES DE RÉPONDANCE, AVEC 35K PALAIRES QA (Zhu et al., 2020): https://github.com/mingzhu0527/mashqa papier: https://www.aclweb.org/anthology/2020.Findings-Emmlp.342.pdf
- MEDMCQA: Un ensemble de données multi-sujets à grande échelle multi-sujets pour la réponse aux questions du domaine médical. (Pal et al., Chil, pmlr 2022): https://github.com/medmcqa/medmcqa Papier: https://proceedings.mlr.press/v174/pal22a.html
Ii) ensembles de données VQA médicaux (radiologie):
- VQA-RAD (Lau et al. 2018): https://osf.io/89kps
- VQA-MED 2018 (Hasan et al. 2018): https://www.aicrowd.com/challenges/imageclef-2018-vqa-med
- VQA-MED 2019 (Ben Abacha et al. 2019): https://github.com/abachaa/vqa-med-2019
- VQA-MED 2020 (Ben Abacha et al. 2020): https://github.com/abachaa/vqa-med-2020
Iii) Systèmes QA en ligne:
- J'ai recherché et testé plusieurs systèmes (par exemple AskHermes, MIPACQ, SIMQ). Cette liste comprend uniquement les systèmes qui sont encore entretenus.
- CHIQA (Système de réponse aux questions de santé des consommateurs): Chiqa.nlm.nih.gov
- Neural Covidex: Covidex.ai
Iv) ensembles de données médicales pertinents pour répondre aux questions:
- Tâches partagées I2B2 (2006-2016): www.i2b2.org/nlp
- N2C2 NLP Clinical Challenges (2018-2019): https://n2c2.dbmi.hms.harvard.edu https://dbmi.hms.harvard.edu/programs/national-nlp-clinical-challenges-n2c2
- TREC Medical Records Track (2012-2013).
- TREC Clinical Decision Assistance Track (2014-2016): http://www.trec-cds.org
- Trec Precision Medicine Track (2017-2019): http://www.trec-cds.org
- Clef ehealth (2013-2020): https://clefehealth.imag.fr
- Ensemble de données Covid (Cord-19): https://www.kaggle.com/allen-institute-for-ai/cord-19-research-challenge
V) ensembles de données médicales pertinents pour VQA:
- ImageClef Medical Automatic Image Annotation (2008-2009): https://www.imageclef.org/2008/medaat et https://www.imageclef.org/2009/medanno
- Tâche de récupération d'image axée sur les utilisateurs médicaux ImageClelef (2011): https://www.imageclef.org/2011/MedicalUserOrientEd
- Tâche de récupération médicale ImageClelef (2008-2012): https://www.imageclef.org/2012/Medical
- ImageClef Amia: Medical Task (2013): https://www.imageclef.org/2013/Medical
- ImageClefmed: Medical Classification (2015): https://www.imageclef.org/2015/Medical
- ImageClef Medical Clustering (2015): https://www.imageclef.org/2015/clustering
- ImageClefmed (2016): https://www.imageclef.org/2016/Medical
- ImageClefcaption (2017-2020): https://www.imageclef.org/2017/caption
- Tâches ImageClelefmedical (2019-2020): https://www.imageclef.org/2019/Medical et https://www.imageclef.org/2020/Medical
- MIMIC-CXR DATABASE (2019): https://physionet.org/content/mimic-cxr/2.0.0/
Contact
- Asma Ben abacha (abenabacha at microsoft dot com)