Существующие наборы данных о медицинских QA & VQA
Ответ с мультимодальным вопросом (QA) в медицинской области: сводка существующих наборов данных и систем
Я подготовил это резюме для моего разговора CMU/LTI о мультимодальном QA. Мои слайды доступны по адресу https://www.slideshare.net/benabacha/multimodal-question-answering-in-the-medical-domain-cmulti-2020
Этот список не является исчерпывающим. Вы можете написать мне ссылки и ссылки на соответствующие наборы данных и систем медицинского QA, и я обновлю список как можно скорее. Кроме того, несколько наборов данных, связанных с вызовами, больше не доступны. Вы можете связаться с организаторами, чтобы получить данные.
*** Две основные задачи: ответный ответ на медицинский вопрос (QA) и визуальный вопрос ответа (VQA) ***
I) Медицинские наборы данных QA:
- Корпус для обобщения на основе доказательств медицины (Mollá, 2010): https://sourceforge.net/projects/ebmsumcorpus
- Задача Clef QA4MRE Alzheimer (Peñas et al, 2012).
- Наборы данных Bioask (2012-2020): http://bioasq.org/participate/challenges
- Trec Liveqa-Med (Ben Abacha et al, 2017): https://github.com/abachaa/liveqa_medicaltask_trec2017
- Наборы данных Mediqa-2019 на NLI, RQE и QA (Ben Abacha et al., 2019): https://github.com/abachaa/mediqa2019
- Mediqa-Ass набор данных о том, что справляется с вопросами сводки ответов (Savery et al., 2020): https://osf.io/fyg46/ Paper: https://www.nature.com/articles/s41597-020-00667-z
- Коллекция Medquad 47K QA пар (Ben Abacha and Demner-Fushman, 2019): https://github.com/abachaa/medquad
- Коллекция QA лекарства (Ben Abacha et al., 2019): https://github.com/abachaa/medication_qa_medinfo2019
- Суммизация вопросов здоровья потребителей (Бен Абача и Демнер-Фушман, 2019): https://github.com/abachaa/meqsum
- EMRQA: QA по электронным медицинским записям (Pampari et al., 2018). Сценарии для генерации EMRQA из I2B2 Data: https://github.com/panushri25/emrqa
- Набор данных EPIC-QA на COVID-19 (Goodwin et al., 2020): https://bionlp.nlm.nih.gov/epic_qa/
- Biqa Corpus (Lamurias et al., 2020): https://github.com/lasigebiotm/biqa Paper: https: //ieexplore.ieee.org/document/9184044
- Набор данных HealthQA (Zhu et al., 2019): https://github.com/mingzhu0527/har Paper: https://dmkd.cs.vt.edu/papers/www19.pdf
- Набор данных MASH-QA на множественном ответе на вопрос о ответах на вопросы о медицинских вопросах, с 35K QA пары (Zhu et al., 2020): https://github.com/mingzhu0527/mashqa Paper: https://www.aclweb.org/anthology/2020.findings-mumnl
- MedMCQA: крупномасштабный многофункциональный набор данных для ответа на вопрос о медицинской области. (Pal et al., Chil, PMLR 2022): https://github.com/medmcqa/medmcqa.
Ii) Медицинские наборы данных VQA (радиология):
- VQA-rad (Lau et al. 2018): https://osf.io/89 кпс.
- VQA-MED 2018 (Hasan et al. 2018): https://www.aicrowd.com/challenges/imageclef-2018-vqa-med
- VQA-MED 2019 (Ben Abacha et al. 2019): https://github.com/abachaa/vqa-med-2019
- VQA-MED 2020 (Ben Abacha et al. 2020): https://github.com/abachaa/vqa-med-2020
Iii) Онлайн QA Systems:
- Я искал и проверил несколько систем (например, Askhermes, Mipacq, SIMQ). Этот список включает в себя только системы, которые все еще поддерживаются.
- Chiqa (система ответов на вопросы о здоровье потребителей): Chiqa.nlm.nih.gov
- Нейронная Covidex: Covidex.ai
Iv) Медицинские наборы данных, имеющие отношение к вопросам ответа:
- I2B2 Общие задачи (2006-2016): www.i2b2.org/nlp
- N2C2 NLP Клинические проблемы (2018-2019): https://n2c2.dbmi.hms.harvard.edu https://dbmi.hms.harvard.edu/programs/national-nlp-clinical-challenges-n2c2
- Трек Trec Medical Records (2012-2013).
- Трек поддержки клинических решений TREC (2014-2016): http://www.trec-cds.org
- Трек Trec Precision Medicine (2017-2019): http://www.trec-cds.org
- Clef eHealth (2013-2020): https://clefehealth.imag.fr
- Набор данных Covid (Cord-19): https://www.kaggle.com/allen-institute-for-ai/cord-19-research-challenge
V) Медицинские наборы данных, относящиеся к VQA:
- ImageClef Medical Automatic Annotation (2008-2009): https://www.imageclef.org/2008/medaat и https://www.imageclef.org/2009/medanno
- ImageClef Медицинский пользователь ориентированный на пользователь задание поиска изображений (2011): https://www.imageclef.org/2011/medicaluseriented
- ImageClef Медицинский поиск задания (2008-2012): https://www.imageclef.org/2012/medical
- ImageClef Amia: Медицинская задача (2013): https://www.imageclef.org/2013/medical
- ImageClefmed: Медицинская классификация (2015): https://www.imageclef.org/2015/medical
- Медицинская кластеризация ImageClef (2015): https://www.imageclef.org/2015/clustering
- ImageClefmed (2016): https://www.imageclef.org/2016/medical
- ImageClefcaption (2017-2020): https://www.imageclef.org/2017/caption
- ImageClefmedical Задачи (2019-2020): https://www.imageclef.org/2019/medical и https://www.imageclef.org/2020/medical
- База данных Mimic-CXR (2019): https://physionet.org/content/mimic-cxr/2.0.0/
Контакт
- Asma Ben abacha (abenabacha at microsoft dot com)