Dataset Medis QA & VQA yang ada
Penjawaban Pertanyaan Multimodal (QA) dalam Domain Medis: Ringkasan Dataset dan Sistem yang Ada
Saya menyiapkan ringkasan ini untuk pembicaraan CMU/LTI saya tentang QA multimodal. Slide saya tersedia di https://www.slideshare.net/benabacha/multimodal-question-answering-in-y-medical-domain-cmulti-2020
Daftar ini tidak lengkap. Anda dapat mengirimi saya email tautan dan referensi dari set data dan sistem QA medis yang relevan dan saya akan memperbarui daftar secepatnya. Juga, beberapa kumpulan data terkait tantangan tidak tersedia untuk umum lagi. Anda dapat menghubungi penyelenggara untuk memiliki data.
*** Dua Tugas Utama: Penjawab Pertanyaan Medis (QA) & Penjawab Pertanyaan Visual (VQA) ***
I) Dataset Medis QA:
- Corpus for Evidence Based Medicine Summarisasi (Mollá, 2010): https://sourceForge.net/projects/ebmsumcorpus
- Tugas Clef Qa4mre Alzheimer (Peñas et al, 2012).
- Dataset Bioask (2012-2020): http://bioasq.org/particentate/challenges
- TREC LIVEQA-MED (Ben Abacha et al, 2017): https://github.com/abachaa/liveqa_medicaltask_trec2017
- Dataset Mediqa-2019 di NLI, RQE, dan QA (Ben Abacha et al., 2019): https://github.com/abachaa/mediqa2019
- Dataset Mediqa-Ans dari Ringkasan Jawaban yang Diberikan Pertanyaan (Savery et al., 2020): https://osf.io/fyg46/ kertas: https://www.nature.com/articles/s41597-020-00667-z
- Medquad Collection dari 47K QA Pairs (Ben Abacha dan Demner-Fushman, 2019): https://github.com/abachaa/medquad
- Koleksi QA Obat (Ben Abacha et al., 2019): https://github.com/abachaa/medication_qa_medinfo2019
- Ringkasan Pertanyaan Kesehatan Konsumen (Ben Abacha dan Demner-Fushman, 2019): https://github.com/abachaa/meqsum
- EMRQA: QA pada catatan medis elektronik (Pampari et al., 2018). Script untuk menghasilkan EMRQA dari data I2B2: https://github.com/panushri25/emrqa
- Dataset Epic-QA di COVID-19 (Goodwin et al., 2020): https://bionlp.nlm.nih.gov/epic_qa/
- Biqa Corpus (Lamurias et al., 2020): https://github.com/lasigebiotm/biqa Paper: https: //eeeeexplore.ieee.org/document/9184044
- Dataset HealthQA (Zhu et al., 2019): https://github.com/mingzhu0527/har Paper: https://dmkd.cs.vt.edu/papers/www19.pdf
- Dataset Mash-QA pada beberapa jawaban mencakup pertanyaan perawatan kesehatan, dengan 35K QA pair (Zhu et al., 2020): https://github.com/mingzhu0527/mashqa Paper: https://www.aclweb.org/anthologi/2020.findpps:/www.aclweb.org/anthologi/2020.2020.2020.2020.2020.2020.2020.2020.2020.2020.2020.2020.2020.2020.2020.2020.2020.2020.2020.2020.2020.2020.2020.2020.2020.2020.2020.2020.2020.2020.2020.2020
- MedMCQA: Dataset multi-subyek multi-subjek skala besar untuk menjawab pertanyaan domain medis. (Pal et al., Chil, PMLR 2022): https://github.com/medmcqa/medmcqa Kertas: https://proedings.mlr.press/v174/pal22a.html
Ii) Dataset Medis VQA (Radiologi):
- VQA-RAD (Lau et al. 2018): https://osf.io/89kps
- VQA-MED 2018 (Hasan et al. 2018): https://www.aicrowd.com/challenges/imageclef-2018-vqa-med
- VQA-MED 2019 (Ben Abacha et al. 2019): https://github.com/abachaa/vqa-med-2019
- VQA-MED 2020 (Ben Abacha et al. 2020): https://github.com/abachaa/vqa-med-2020
Iii) Sistem QA online:
- Saya mencari dan menguji beberapa sistem (misalnya Askhermes, MipaCQ, SIMQ). Daftar ini hanya mencakup sistem yang masih dipertahankan.
- Chiqa (Sistem Penjawab Pertanyaan Kesehatan Konsumen): Chiqa.nlm.nih.gov
- Neural Covidex: covidex.ai
Iv) Dataset medis yang relevan dengan pertanyaan menjawab:
- I2B2 Tugas Bersama (2006-2016): www.i2b2.org/nlp
- Tantangan Klinis N2C2 NLP (2018-2019): https://n2c2.dbmi.hms.harvard.edu https://dbmi.hms.harvard.edu/programs/national-nlp-clinical-challenges-n2c2
- Trec Medical Records Track (2012-2013).
- Trec Dukungan Keputusan Klinis TREC (2014-2016): http://www.trec-cds.org
- Trec Precision Medicine Track (2017-2019): http://www.trec-cds.org
- Clef EHealth (2013-2020): https://clefehealth.imag.fr
- Dataset Covid (Cord-19): https://www.kaggle.com/allen-institute-for-ai/cord-19-research-challenge
V) Dataset medis yang relevan dengan VQA:
- Imageclef Medical Automatic Image Anotation (2008-2009): https://www.imageclef.org/2008/medaat dan https://www.imageclef.org/2009/medanno
- Tugas Pengambilan Gambar Berorientasi Pengguna Medis Medis (2011): https://www.imageclef.org/2011/medicaluseroriented
- Tugas Pengambilan Medis Imageclef (2008-2012): https://www.imageclef.org/2012/medical
- Imageclef Amia: Tugas Medis (2013): https://www.imageclef.org/2013/medical
- ImageclefMed: Klasifikasi Medis (2015): https://www.imageclef.org/2015/medical
- Imageclef Medical Clustering (2015): https://www.imageclef.org/2015/clustering
- ImageclefMed (2016): https://www.imageclef.org/2016/medical
- ImagecleFcaption (2017-2020): https://www.imageclef.org/2017/caption
- Tugas Imageclefmedical (2019-2020): https://www.imageclef.org/2019/medical dan https://www.imageclef.org/2020/medical
- Database Mimic-CXR (2019): https://physionet.org/content/mimic-cxr/2.0.0/
Kontak
- Asma Ben abacha (abenabacha at microsoft dot com)