Conjuntos de dados médicos de controle de qualidade e VQA existentes
Resposta de perguntas multimodais (QA) no domínio médico: um resumo dos conjuntos de dados e sistemas existentes
Eu preparei este resumo para a minha palestra da CMU/LTI sobre controle de qualidade multimodal. Meus slides estão disponíveis em https://www.slideshare.net/benabacha/multimodal-question-answering-in-the-medical-domain-cmulti-2020
Esta lista não é exaustiva. Você pode enviar -me links e referências de conjuntos de dados e sistemas de controle de qualidade relevantes e atualizarei a lista o mais rápido possível. Além disso, vários conjuntos de dados relacionados a desafios não estão mais disponíveis ao público. Você pode entrar em contato com os organizadores para ter os dados.
*** Duas tarefas principais: Resposta de perguntas médicas (controle de qualidade) e resposta visual de perguntas (VQA) ***
I) conjuntos de dados médicos de controle de qualidade:
- Corpus para resumo da medicina baseado em evidências (Mollá, 2010): https://sourceforge.net/projects/ebmsumcorpus
- A tarefa de Clef Qa4mre Alzheimer (Peñas et al, 2012).
- Bioask DataSets (2012-2020): http://bioasq.org/participate/challenges
- Trec LiveQa-Med (Ben Abacha et al, 2017): https://github.com/abachaa/liveqa_medicaltask_trec2017
- Conjuntos de dados MEDIQA-2019 em NLI, RQE e QA (Ben Abacha et al., 2019): https://github.com/abachaa/mediqa2019
- DataSet Mediqa-INS de resumos orientados a perguntas das respostas (Savery et al., 2020): https://osf.io/fyg46/ Paper: https://www.nature.com/articles/s41597-020-00667-z
- Coleção Medquad de 47 mil pares de controle de qualidade (Ben Abacha e Demner-Fushman, 2019): https://github.com/abachaa/medquad
- Coleção de QA de medicamentos (Ben Abacha et al., 2019): https://github.com/abachaa/medication_qa_medinfo2019
- Resumo de perguntas sobre saúde do consumidor (Ben Abacha e Demner-Fushman, 2019): https://github.com/abachaa/meqsum
- EMRQA: QA sobre registros médicos eletrônicos (Pampari et al., 2018). Scripts para gerar EMRQA a partir de dados i2b2: https://github.com/panushri25/emrqa
- DataSet Epic-qa no Covid-19 (Goodwin et al., 2020): https://bionlp.nlm.nih.gov/epic_qa/
- Biqa Corpus (Lamurias et al., 2020): https://github.com/lasigebiotm/biqa Paper: https: //ieeexplore.ieee.org/document/9184044
- DataSet HealthQA (Zhu et al., 2019): https://github.com/mingzhu0527/har Paper: https://dmkd.cs.vt.edu/papers/www19.pdf
- MASH-QA Dataset on Multiple Answer Spans Healthcare Question Answering, with 35k QA pairs (Zhu et al., 2020): https://github.com/mingzhu0527/MASHQA Paper: https://www.aclweb.org/anthology/2020.findings-emnlp.342.pdf
- MedMCQA: Um conjunto de dados de multi-escolha de grande escala para resposta de perguntas de domínio médico. (Pal et al., Chil, PMLR 2022): https://github.com/medmcqa/medmcqa Paper: https://proecedings.mlr.press/v174/pal22a.html
Ii) conjuntos de dados Medical VQA (radiologia):
- VQA-Rad (Lau et al. 2018): https://osf.io/89kps
- VQA-MED 2018 (Hasan et al. 2018): https://www.aicrowd.com/challenges/imageclef-2018-vqa-med
- VQA-MED 2019 (Ben Abacha et al. 2019): https://github.com/abachaa/vqa-med-2019
- VQA-MED 2020 (Ben Abacha et al. 2020): https://github.com/abachaa/vqa-med-2020
Iii) sistemas de controle de qualidade online:
- Eu pesquisei e testei vários sistemas (por exemplo, Askhermes, MIPACQ, SIMQ). Esta lista inclui apenas os sistemas que ainda são mantidos.
- Chiqa (sistema de resposta a perguntas sobre saúde do consumidor): chiqa.nlm.nih.gov
- Covidex neural: covidex.ai
Iv) conjuntos de dados médicos relevantes para a resposta das perguntas:
- I2B2 Tarefas compartilhadas (2006-2016): www.i2b2.org/nlp
- Desafios clínicos do NLP N2C2 (2018-2019): https://n2c2.dbmi.hms.harvard.edu https://dbmi.hms.harvard.edu/programs/national-nlp-clinical-challeges-n2c22
- Trec Medical Records Track (2012-2013).
- Trec Clinical Decision Support Track (2014-2016): http://www.trec-cds.org
- Trec Precision Medicine Track (2017-2019): http://www.trec-cds.org
- Clef Ehealth (2013-2020): https://clefehealth.imag.fr
- CoVID DataSet (CORD-19): https://www.kaggle.com/allen-institute-for-ai/cord-19-research-challenge
V) conjuntos de dados médicos relevantes para o VQA:
- ImageClef Medical Automatic Image Anotation (2008-2009): https://www.imageclef.org/2008/medaat e https://www.imageclef.org/2009/medanno
- ImageClef Medical Oriented Recuperação de Imagem Médica Tarefa (2011): https://www.imageclef.org/2011/medicalUserorienteded
- Tarefa de recuperação médica do ImageClef (2008-2012): https://www.imageclef.org/2012/medical
- ImageClef Amia: Medical Task (2013): https://www.imageclef.org/2013/Medical
- ImageClefmed: Classificação Médica (2015): https://www.imageclef.org/2015/Medical
- ImageClef Medical Clustering (2015): https://www.imageclef.org/2015/clustering
- ImageClefmed (2016): https://www.imageclef.org/2016/medical
- ImageClefcaption (2017-2020): https://www.imageclef.org/2017/caption
- ImageClefMedical Tasks (2019-2020): https://www.imageclef.org/2019/medical e https://www.imageclef.org/2020/Medical
- Banco de dados Mimic-CXR (2019): https://physionet.org/content/mimic-cxr/2.0.0/
Contato
- Asma Ben abacha (abenabacha at microsoft dot com)