Bestehende medizinische QA- und VQA -Datensätze
Multimodal Frage zur Beantwortung (QA) im medizinischen Bereich: Eine Zusammenfassung vorhandener Datensätze und Systeme
Ich habe diese Zusammenfassung für mein CMU/LTI -Talk über multimodale QA vorbereitet. Meine Folien finden Sie unter https://www.slideshare.net/benabacha/multimodal-question-answering-in-medical-domain-cmulti-2020
Diese Liste ist nicht erschöpfend. Sie können mir Links und Referenzen relevanter medizinischer QA -Datensätze und -systeme per E -Mail senden, und ich werde die Liste so schnell wie möglich aktualisieren. Außerdem sind mehrere Herausforderungsdatensätze nicht mehr öffentlich verfügbar. Sie können die Organisatoren kontaktieren, um die Daten zu haben.
*** Zwei Hauptaufgaben: medizinische Frage Beantwortung (QA) und visuelle Frage (VQA) ***
I) Medizinische QA -Datensätze:
- Corpus für evidenzbasierte medizinische Zusammenfassung (Mollá, 2010): https://sourceforge.net/projects/ebmsumcorpus
- CLEF QA4MRE -Alzheimer -Aufgabe (Peñas et al., 2012).
- Bioask-Datensätze (2012-2020): http://bioasq.org/Partices/Challengeles
- TREC Liveqa-med (Ben Abacha et al., 2017): https://github.com/abachaa/liveqa_medicaltask_trec2017
- Mediqa-2019-Datensätze zu NLI, RQE und QA (Ben Abacha et al., 2019): https://github.com/abachaa/mediqa2019
- Mediqa-Ans-Datensatz von fragionsgetriebenen Zusammenfassungen von Antworten (Savery et al., 2020): https://osf.io/fyg46/ Papier: https://www.nature.com/articles/s41597-020-00667-zz
- Medquad-Sammlung von 47K-QA-Paaren (Ben Abacha und Demner-Fushman, 2019): https://github.com/abachaa/medquad
- Medikamente QA -Sammlung (Ben Abacha et al., 2019): https://github.com/abachaa/medication_qa_medinfo2019
- Zusammenfassung der Verbrauchergesundheit Frage (Ben Abacha und Demner-Fushman, 2019): https://github.com/abachaa/meqsum
- EMRQA: QA über elektronische Krankenakten (Pampari et al., 2018). Skripte zum Generieren von EMRQA aus i2b2 Daten: https://github.com/panushri25/emrqa
- Epic-QA-Datensatz auf Covid-19 (Goodwin et al., 2020): https://bionlp.nlm.nih.gov/epic_qa/
- Biqa Corpus (Lamurias et al., 2020): https://github.com/lasigebiotm/biqa Paper: https: //ieexplore.ieee.org/document/9184044444444444444444444444444444440
- HealthQa -Datensatz (Zhu et al., 2019): https://github.com/mingzhu0527/har Paper: https://dmkd.cs.vt.edu/papers/www19.pdf
- MASH-QA-Datensatz über mehrere Antwortspannweite Fragen zur Beantwortung von 35K-QA-Paaren (Zhu et al., 2020): https://github.com/mingzhu0527/mashqa Paper: https://www.aclweb.org/Anthology/2020.finding-220.finding-220.finding--
- Medmcqa: Ein groß angelegter Multi-Subject-Datensatz für medizinische Domänen zur Beantwortung von Frage. (Pal et al., Chil, PMLR 2022): https://github.com/medmcqa/medmcqa Paper: https://proceedings.mlr.press/v174/pal22a.html
Ii) Medizinische VQA -Datensätze (Radiologie):
- VQA-rad (Lau et al. 2018): https://osf.io/89kps
- VQA-MED 2018 (Hasan et al. 2018): https://www.aicrowd.com/challenges/imageclef-2018-vqa-med
- VQA-med 2019 (Ben Abacha et al. 2019): https://github.com/abachaa/vqa-med-2019
- VQA-med 2020 (Ben Abacha et al. 2020): https://github.com/abachaa/vqa-med-2020
Iii) Online -QA -Systeme:
- Ich habe mehrere Systeme durchsucht und getestet (z. B. Askhermes, MIPACQ, SIMQ). Diese Liste enthält nur die Systeme, die noch gewartet werden.
- Chiqa (Frage Antwortsystem für Verbrauchergesundheit): chiqa.nlm.nih.gov
- Neural Covidex: Covidex.ai
Iv) Medizinische Datensätze, die für die Beantwortung von Fragen relevant sind:
- I2B2 Shared Tasks (2006-2016): www.i2b2.org/nlp
- N2C2 NLP Klinische Herausforderungen (2018-2019): https://n2c2.dbmi.hms.harvard.edu https://dbmi.hms.harvard.edu/programs/national-nlp-clinicalges-n2c2c2
- TREC Medical Records Track (2012-2013).
- TREC Clinical Decision Support Track (2014-2016): http://www.trec-cds.org
- Trec Precision Medicine Track (2017-2019): http://www.trec-cds.org
- Clef EHealth (2013-2020): https://clefehealth.imag.fr
- Covid-Datensatz (Cord-19): https://www.kaggle.com/allen-institute-for-ai/cord-19-research-chalenge
V) für VQA relevante medizinische Datensätze:
- ImageClef Medical Automatic Image Annotation (2008-2009): https://www.imageclef.org/2008/medaat und https://www.imageclef.org/2009/Medanno
- ImageCLEF Medical User-oriented Image Abrufenaufgabe (2011): https://www.imageclef.org/2011/medicaluSeroriented
- ImageClef Medical Abruf Task (2008-2012): https://www.imageclef.org/2012/medical
- ImageCLEF AMIA: Medizinische Aufgabe (2013): https://www.imageclef.org/2013/medical
- ImageClefmed: Medizinische Klassifikation (2015): https://www.imageclef.org/2015/medical
- ImageCLEF Medical Clustering (2015): https://www.imageclef.org/2015/clustering
- ImageClefmed (2016): https://www.imageclef.org/2016/medical
- ImageClefCaption (2017-2020): https://www.imageclef.org/2017/caption
- ImageClefmedical Tasks (2019-2020): https://www.imageclef.org/2019/medical und https://www.imageclef.org/2020/medical
- MIMIC-CXR-Datenbank (2019): https://physionet.org/content/mimic-cxr/2.0.0/
Kontakt
- Asma Ben abacha (abenabacha at microsoft dot com)