既存の医療QAおよびVQAデータセット
医療ドメインのマルチモーダル質問応答(QA):既存のデータセットとシステムの概要
マルチモーダルQAに関するCMU/LTIトークのこの要約を作成しました。私のスライドは、https://www.slideshare.net/benabacha/multimodal-question-answering-in-the-medical-domain-cmulti-2020で入手できます
このリストは網羅的ではありません。関連する医療QAデータセットとシステムのリンクと参照をメールで送信できます。リストをできるだけ早く更新します。また、いくつかのチャレンジ関連データセットは公開されなくなりました。主催者に連絡してデータを作成できます。
*** 2つの主要なタスク:医療質問応答(QA)および視覚的な質問応答(VQA)***
i)医療QAデータセット:
- 証拠に基づいた医学の要約のためのコーパス(Mollá、2010):https://sourceforge.net/projects/ebmsumcorpus
- クレフQA4MRE Alzheimerのタスク(Peñasetal、2012)。
- Bioask Datasets(2012-2020):http://bioasq.org/partipate/challenges
- TREC LiveQa-Med(Ben Abacha et al、2017):https://github.com/abachaa/liveqa_medicaltask_trec2017
- NLI、RQE、およびQAのMediqa-2019データセット(Ben Abacha et al。、2019):https://github.com/abachaa/mediqa2019
- 回答の質問駆動型要約のMediqa-ansデータセット(Savery et al。、2020):https://osf.io/fyg46/ Paper:https://www.nature.com/articles/S41597-020-00667-Z
- 47K QAペアのMedquadコレクション(Ben Abacha and Demner-Fushman、2019):https://github.com/abachaa/medquad
- 薬物QAコレクション(Ben Abacha et al。、2019):https://github.com/abachaa/medication_qa_medinfo2019
- 消費者の健康質問の要約(Ben Abacha and Demner-Fushman、2019):https://github.com/abachaa/meqsum
- EMRQA:電子医療記録に関するQA(Pampari et al。、2018)。 i2b2データからEMRQAを生成するスクリプト:https://github.com/panushri25/emrqa
- covid-19のepic-qaデータセット(Goodwin et al。、2020):https://bionlp.nlm.nih.gov/epic_qa/
- Biqa Corpus(Lamurias et al。、2020):https://github.com/lasigebiotm/biqa Paper:https://ieeexplore.ieee.org/document/9184044
- Healthqa Dataset(Zhu et al。、2019):https://github.com/mingzhu0527/har論文:https://dmkd.cs.vt.edu/papers/www19.pdf
- 複数の回答のMASH-QAデータセットは、35K QAペア(Zhu et al。、2020)を備えたヘルスケア質問の回答に及びます:https://github.com/mingzhu0527/mashqaペーパー:https://www.aclweb.org/anthology/2020.findings-emurnlp.342.pdf.pdf.pdf.pdf.pdf.
- MEDMCQA:医療ドメイン質問応答用の大規模なマルチサブジェクトマルチ選択データセット。 (Pal et al。、Chil、PMLR 2022):https://github.com/medmcqa/medmcqa Paper:https://proceedings.mlr.press/v174/pal22a.html
ii)医療VQAデータセット(放射線学):
- VQA-Rad(Lau etal。2018):https://osf.io/89kps
- VQA-Med 2018(Hasan etal。2018):https://www.aicrowd.com/challenges/imageclef-2018-vqa-med
- VQA-Med 2019(Ben Abacha etal。2019):https://github.com/abachaa/vqa-med-2019
- VQA-Med 2020(Ben Abacha etal。2020):https://github.com/abachaa/vqa-med-2020
iii)オンラインQAシステム:
- いくつかのシステム(Askhermes、Mipacq、SIMQなど)を検索してテストしました。このリストには、まだ維持されているシステムのみが含まれます。
- Chiqa(消費者健康質問応答システム):chiqa.nlm.nih.gov
- Neural Covidex:Covidex.ai
iv)質問に関連する医療データセット:
- I2B2共有タスク(2006-2016):www.i2b2.org/nlp
- N2C2 NLP Clinical Changele(2018-2019):https://n2c2.dbmi.hms.harvard.edu https://dbmi.hms.harvard.edu/programs/national-nlp-clinical-challenges-n2c2
- TREC Medical Records Track(2012-2013)。
- TREC Clinical Decision Support Track(2014-2016):http://www.trec-cds.org
- TREC Precision Medicine Track(2017-2019):http://www.trec-cds.org
- Clef Ehealth(2013-2020):https://clefehealth.imag.fr
- Covid Dataset(cord-19):https://www.kaggle.com/allen-institute-for-ai/cord-19-research-challenge
v)VQAに関連する医療データセット:
- ImageClef Medical Automatic Image Annotation(2008-2009):https://www.imageclef.org/2008/medaatおよびhttps://www.imageclef.org/2009/medanno
- ImageClef Medicalユーザー指向の画像検索タスク(2011):https://www.imageclef.org/2011/medicaluseroriented
- ImageClef Medical Retrieval Task(2008-2012):https://www.imageclef.org/2012/medical
- ImageClef Amia:Medical Task(2013):https://www.imageclef.org/2013/medical
- ImageClefMed:Medical Slassification(2015):https://www.imageclef.org/2015/medical
- ImageClef Medical Clustering(2015):https://www.imageclef.org/2015/clustering
- ImageClefmed(2016):https://www.imageclef.org/2016/medical
- ImageClefCaption(2017-2020):https://www.imageclef.org/2017/caption
- ImageClefmedical Tasks(2019-2020):https://www.imageclef.org/2019/medical and https://www.imagelef.org/2020/medical
- Mimic-CXRデータベース(2019):https://physionet.org/content/mimic-cxr/2.0.0/
接触
- Asma Ben abacha (abenabacha at microsoft dot com)