Medical_NLP
醫療NLP領域評測/比賽,數據集,論文和預訓練模型資源匯總。
Summary of medical NLP evaluations/competitions, datasets, papers and pre-trained models.
News
- ? 2024/11/14新增
4. VLM数据集、 5.3 医疗VLM 、 5.4 医疗VLM Benchmark ,後續將重點維護Medical VLM 方向相關資源匯總,repo由Rongsheng Wang維護。 - ? 2024/11/14之前由於Cris Lee2021年離開醫療NLP領域,此repo現由Xidong Wang, Ziyue Lin, Jing Tang繼續維護。
Contents
- 1. 評測
- 1.1 中文醫療基準測評:CMB / CMExam / PromptCBLUE
- 1.2 英文醫療基準測評:
- 2. 比賽
- 3. LLM 數據集
- 4. VLM 數據集
- 5. 開源預訓練模型
- 5.1 醫療PLM
- 5.2 醫療LLM
- 5.3 醫療VLM
- 5.4 醫療VLM Benchmark
- 6. 相關論文
- 6.1 後ChatGPT時代可能有幫助的論文
- 6.2 綜述類文章
- 6.3 特定任務文章
- 6.4 會議索引
- 7. 開源工具包
- 8. 工業級產品解決方案
- 9. blog分享
- 10. 友情鏈接
1. 評測
1.1 中文醫療基準測評:CMB / CMExam / PromptCBLUE
CMB
- 地址:https://github.com/FreedomIntelligence/CMB
- 來源:各個臨床醫學工種各階段考試;臨床複雜病例問診
CMExam
- 地址:https://github.com/williamliujl/CMExam
- 來源:執業醫師資格考試往年題
PromptCBLUE
- 地址:https://github.com/michael-wzhu/PromptCBLUE
- 來源:CBLUE
PromptCBLUE
- 地址:https://github.com/CBLUEbenchmark/CBLUE
- 來源:CHIP會議往屆的學術評測比賽和阿里夸克醫療搜索業務的數據集組成
MedBench
- 地址:https://arxiv.org/abs/2312.12806
- 來源:包含來自執醫考試和報告的40,041個問題,覆蓋各個專科。
1.2 英文醫療基準測評:
↥ back to top
2. 比賽
2.1 正在進行的比賽
醫學搜索Query相關性判斷
- 地址:https://tianchi.aliyun.com/competition/entrance/532001/introduction
- 來源:阿里天池
2.2 已經結束的比賽
2.2.1 英文比賽
2.2.2 中文比賽
↥ back to top
3. LLM數據集
3.1 中文
3.2 英文
MedMentions
- 地址:https://github.com/chanzuckerberg/MedMentions
- 簡介:基於Pubmed摘要的生物醫學實體鏈接數據集
webMedQA
- 地址:https://github.com/hejunqing/webMedQA
- 簡介:醫療問答
COMETA
- 地址:https://www.siphs.org/
- 簡介:社交媒體中的醫療實體鏈接數據。發表於EMNLP2020
PubMedQA
- 地址:https://arxiv.org/abs/1909.06146
- 簡介:基於Pubmed提取的醫學問答數據集
MediQA
- 地址:https://sites.google.com/view/mediqa2021
- 簡介:文本概括
ChatDoctor Dataset-1
- 地址:https://drive.google.com/file/d/1lyfqIwlLSClhgrCutWuEe_IACNq6XNUt/view?usp=sharing
- 簡介:來自HealthCareMagic.com 的10 萬條病人與醫生之間的真實對話
ChatDoctor Dataset-2
- 地址:https://drive.google.com/file/d/1ZKbqgYqWc7DJHs3N9TQYQVPdDQmZaClA/view?usp=sharing
- 簡介:來自icliniq.com 的10k 條病人與醫生之間的真實對話
BioInstruct
- 地址:https://github.com/bio-nlp/BioInstruct
- 簡介: 超過25,000條為生物醫學任務量身定制的指令,包括但不限於問答(QA)、信息提取(IE)和文本生成
Visual Med-Alpaca Data
- 地址:https://github.com/cambridgeltl/visual-med-alpaca/tree/main/data
- 簡介:用於Visual Med-Alpaca訓練的數據,源自BigBio, ROCO and GPT-3.5-Turbo
CheXpert Plus
- 地址:https://github.com/Stanford-AIMI/chexpert-plus
- 簡介: 放射學領域公開發布的最大文本數據集,共有3600 萬個文本tokens,均配有DICOM 格式的高質量圖像,以及涵蓋各種臨床和社會群體的大量圖像和患者元數據,以及許多病理標籤和RadGraph註釋
↥ back to top
4. VLM數據集
| Dataset | Paper | Github | Keywords |
|---|
| MedTrinity-25M | link | link | 25 million images 、 10 modalities 、 65 diseases 、 VQA 、 EN |
| LLaVA-Med | link | link | 630k images 、 VQA 、 EN |
| Chinese-LLaVA-Med | - | link | 60k images 、 VQA 、 ZH |
| HuatuoGPT-Vision | link | link | 647k images 、 VQA 、 EN |
| MedVidQA | link | link | 7k videos 、 VQA 、 EN |
| ChiMed-VL | link | link | 1M images 、 VQA 、 EN 、 ZH |
| RadFM | link | link | 16M images 、 5000 diseases 、 VQA 、 EN 、 2D/3D |
| BiomedParseData | link | link | 6.8 million image-mask-description 、 45 biomedical image segmentation datasets 、 9 modalities 、 EN 、 2D |
| OmniMedVQA | link | link | 118,010 images 、 12 modalities 、 2D 、 20 human anatomical regions |
| PreCT | link | link | 160K volumes 、 42M slices 、 3D 、 CT |
| GMAI-VL-5.5M | link | link | 5.5m image and text 、 219 specialized medical imaging datasets 、 2D 、 VQA |
| SA-Med2D-20M | link | link | 4.6 million 2D medical images and 19.7 million corresponding masks 、 2D 、 EN |
| IMIS-Bench | link | link | 6.4 million images, 273.4 million masks (56 masks per image), 14 imaging modalities, and 204 segmentation targets 、 EN |
↥ back to top
5. 開源預訓練模型
5.1 醫療PLM
BioBERT:
- 地址:https://github.com/naver/biobert-pretrained
- 簡介:BioBERT是一種生物醫學領域的語言表示模型,專門用於生物醫學文本挖掘任務,如生物醫學命名實體識別、關係提取、問答等。
5.2 醫療LLM
5.2.1 多語言醫療大模型
ApolloMoE:
- 地址:https://github.com/FreedomIntelligence/ApolloMoE
- 簡介:通過語言家族專家的混合,有效地實現50 種語言醫學LLM的民主化
Apollo:
- 地址:https://github.com/FreedomIntelligence/Apollo
- 簡介:輕量級多語言醫學LLM,將醫療人工智能普及到60億人群
MMedLM:
- 地址:https://github.com/MAGIC-AI4Med/MMedLM
- 簡介:第一個開源的多語言醫學語言模型
5.2.2 中文醫療大語言模型
- BenTsao:
- 地址:https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese
- 簡介:BenTsao以LLaMA-7B為基礎,經過中文醫學指令精調/指令微調得到。研究人員通過醫學知識圖譜和GPT3.5 API構建了中文醫學指令數據集,並在此基礎上對LLaMA進行了指令微調,提高了LLaMA在醫療領域的問答效果。
- BianQue:
- 地址:https://github.com/scutcyr/BianQue
- 簡介:一個經過指令與多輪問詢對話聯合微調的醫療對話大模型,以ClueAI/ChatYuan-large-v2作為底座,使用中文醫療問答指令與多輪問詢對話混合數據集進行微調。
- SoulChat:
- 地址:https://github.com/scutcyr/SoulChat
- 簡介:靈心以ChatGLM-6B作為初始化模型,經過百萬規模心理諮詢領域中文長文本指令與多輪共情對話數據聯合指令微調,提升模型的共情能力、引導用戶傾訴能力以及提供合理建議的能力。
- DoctorGLM:
- 地址:https://github.com/xionghonglin/DoctorGLM
- 簡介:一個基於ChatGLM-6B的中文問診大模型。該模型通過中文醫療對話數據集進行微調,實現了包括lora、p-tuningv2等微調及部署。
- HuatuoGPT:
- 地址:https://github.com/FreedomIntelligence/HuatuoGPT
- 簡介:華佗GPT是一個經過中文醫學指令精調/指令微調(Instruct-tuning)得到的一個GPT-like模型。該模型是專門為醫療諮詢設計的中文LLM,它的訓練數據包含了從ChatGPT處蒸餾得到的數據和來自醫生的真實數據,在訓練過程中加入了RLHF的反饋。
- HuatuoGPT-II:
- 地址:https://github.com/FreedomIntelligence/HuatuoGPT-II
- 簡介:華佗GPT2採用了創新的領域適應方法,大大提高了其醫學知識和對話能力。它在多個醫療基準測試中表現出了一流的性能,尤其是在專家評估和新醫學執業資格考試中超越了GPT-4。
5.2.3 英文醫療大語言模型
- GatorTron:
- 地址:https://github.com/uf-hobi-informatics-lab/GatorTron
- 簡介:一個醫療健康領域的早期大模型,致力於研究使用非結構化的電子健康病例的系統是如何從有數十億參數的醫療大模型中獲益。
- Codex-Med:
- 地址:https://github.com/vlievin/medical-reasoning
- 簡介:致力於研究GPT-3.5模型回答和推理實際醫療問題的能力。使用了醫療測試數據集USMLE和MedMCQA, 醫療閱讀理解數據集PubMedQA。
- Galactica:
- 地址:https://galactica.org/
- 簡介:Galactica致力於解決科學領域的信息過載問題,儲存合併了包括醫療醫療健康領域在內的科學知識。 Galactica在大型論文語料庫,參考文獻的基礎上訓練而成,嘗試發現不同領域研究之間的潛在關係。
- DeID-GPT:
- 地址:https://github.com/yhydhx/ChatGPT-API
- 簡介:一個創新的的支持GPT4的去識別框架,可以自動識別和刪除識別信息。
- ChatDoctor:
- 地址:https://github.com/Kent0n-Li/ChatDoctor
- 簡介:一個利用醫療領域基礎知識,基於LLaMA進行微調得到的醫療對話模型。
- MedAlpaca:
- 地址:https://github.com/kbressem/medAlpaca
- 簡介:MedAlpaca採用了一種開源策略,致力於解決醫療系統中的隱私問題。該模型基於70億和130億參數量的LLaMa構建。
- PMC-LLaMA:
- 地址:https://github.com/chaoyi-wu/PMC-LLaMA
- 簡介: PMC-LLaMA是一個開源語言模型,通過對LLaMA-7B在總計480萬篇生物醫學學術論文上進行調質,進一步灌輸醫學知識,以增強其在醫學領域的能力。
- Visual Med-Alpaca:
- 地址:https://github.com/cambridgeltl/visual-med-alpaca
- 簡介: Visual Med-Alpaca是一個開源的、參數高效的生物醫學基礎模型,可以與醫學的“視覺專家”集成,用於多模式生物醫學任務。該模型基於LLaMa-7B架構構建,使用由GPT-3.5-Turbo和人類專家共同策劃的指令集進行訓練。
- GatorTronGPT:
- 地址:https://github.com/uf-hobi-informatics-lab/GatorTronGPT
- 簡介:GatorTronGPT 是一個醫療生成大語言模型。該模型基於GPT-3構建,含有50億或200億參數。該模型使用了含有2770億單詞的,由臨床和英語文本組成的龐大語料庫。
- MedAGI:
- 地址:https://github.com/JoshuaChou2018/MedAGI
- 簡介:MedAGI一個範例,以最低的成本將領域特定的醫療語言模型統一起來,為實現醫療通用人工智能提供了一條可能的途徑。
- LLaVA-Med:
- 地址:https://github.com/microsoft/LLaVA-Med
- 簡介:LLaVA- med使用通用領域LLaVA進行初始化,然後以課程學習方式進行持續訓練(首先是生物醫學概念對齊,然後是全面的指令調整)。
- Med-Flamingo:
- 地址:https://github.com/snap-stanford/med-flamingo
- 簡介:Med-Flamingo是一個視覺語言模型,專門設計用於處理包含圖像和文本的交錯多模態數據。以Flamingo為基礎,Med-Flamingo通過對不同醫學學科的多種多模式知識來源進行預訓練,進一步增強了在這些醫學領域的能力。
5.3 醫療VLM
| Model | Paper | Github |
|---|
| MedVInT | link | link |
| Med-Flamingo | link | link |
| LLaVA-Med | link | link |
| Qilin-Med-VL | link | link |
| RadFM | link | link |
| MedDr | link | link |
| HuatuoGPT-Vision | link | link |
| BiomedGPT | link | link |
| Med-MoE | link | link |
| R-LLaVA | link | - |
| Med-2E3 | link | - |
| GMAI-VL | link | link |
5.4 醫療VLM Benchmark
| Benchmark | Paper | Github |
|---|
| GMAI-MMBench | link | link |
| OmniMedVQA | link | link |
| MMMU | link | link |
| MultiMedEval | link | link |
| WorldMedQA-V | link | - |
↥ back to top
6. 相關論文
6.1 後ChatGPT時代可能有幫助的論文
大型語言模型編碼臨床知識論文地址:https://arxiv.org/abs/2212.13138
ChatGPT在USMLE上的表現:使用大型語言模型進行AI 輔助醫學教育的潛力論文地址:https://journals.plos.org/digitalhealth/article?id=10.1371/journal.pdig.0000198
對ChatGPT 的醫療建議進行(圖靈)測試論文地址:https://arxiv.org/abs/2301.10035
Toolformer:語言模型可以自學使用工具論文地址:https://arxiv.org/abs/2302.04761
檢查你的事實並再試一次:利用外部知識和自動反饋改進大型語言模型論文地址:https://arxiv.org/abs/2302.12813
GPT-4 在醫學挑戰問題上的能力論文地址:https://arxiv.org/abs/2303.13375
6.2 綜述類文章
- 生物醫學領域的預訓練語言模型:系統調查論文地址
- 醫療保健深度學習指南論文地址nature medicine發表的綜述
- 醫療保健領域大語言模型綜述論文地址
6.3 特定任務文章
電子病歷相關文章
- Transfer Learning from Medical Literature for Section Prediction in Electronic Health Records 論文地址
- MUFASA: Multimodal Fusion Architecture Search for Electronic Health Records 論文地址
醫學關係抽取
- Leveraging Dependency Forest for Neural Medical Relation Extraction 論文地址
醫學知識圖譜
- Learning a Health Knowledge Graph from Electronic Medical Records 論文地址
輔助診斷
- Evaluation and accurate diagnoses of pediatric diseases using artificial intelligence 論文地址
醫療實體Linking(標準化)
- Medical Entity Linking using Triplet Network 論文地址
- A Generate-and-Rank Framework with Semantic Type Regularization for Biomedical Concept Normalization 論文地址
- Deep Neural Models for Medical Concept Normalization in User-Generated Texts 論文地址
6.4 會議索引
ACL2020醫學領域相關論文列表
- A Generate-and-Rank Framework with Semantic Type Regularization for Biomedical Concept Normalization 論文地址
- Biomedical Entity Representations with Synonym Marginalization 論文地址
- Document Translation vs. Query Translation for Cross-Lingual Information Retrieval in the Medical Domain 論文地址
- MIE: A Medical Information Extractor towards Medical Dialogues 論文地址
- Rationalizing Medical Relation Prediction from Corpus-level Statistics 論文地址
AAAI2020 醫學NLP相關論文列表
- On the Generation of Medical Question-Answer Pairs 論文地址
- LATTE: Latent Type Modeling for Biomedical Entity Linking 論文地址
- Learning Conceptual-Contextual Embeddings for Medical Text 論文地址
- Understanding Medical Conversations with Scattered Keyword Attention and Weak Supervision from Responses 論文地址
- Simultaneously Linking Entities and Extracting Relations from Biomedical Text without Mention-level Supervision 論文地址
- Can Embeddings Adequately Represent Medical Terminology? New Large-Scale Medical Term Similarity Datasets Have the Answer! 論文地址
EMNLP2020 醫學NLP相關論文列表
- Towards Medical Machine Reading Comprehension with Structural Knowledge and Plain Text 論文地址
- MedDialog: Large-scale Medical Dialogue Datasets 論文地址
- COMETA: A Corpus for Medical Entity Linking in the Social Media 論文地址
- Biomedical Event Extraction as Sequence Labeling 論文地址
- FedED: Federated Learning via Ensemble Distillation for Medical Relation Extraction 論文地址論文解析:FedED:用於醫學關係提取的聯邦學習(基於融合蒸餾)
- Infusing Disease Knowledge into BERT for Health Question Answering, Medical Inference and Disease Name Recognition 論文地址
- A Knowledge-driven Generative Model for Multi-implication Chinese Medical Procedure Entity Normalization 論文地址
- BioMegatron: Larger Biomedical Domain Language Model 論文地址
- Querying Across Genres for Medical Claims in News 論文地址
↥ back to top
7. 開源工具包
- 分詞工具:PKUSEG 項目地址項目說明: 北京大學推出的多領域中文分詞工具,支持選擇醫學領域。
↥ back to top
8. 工業級產品解決方案
靈醫智慧
左手醫生
醫渡雲研究院-醫學自然語言處理
百度-醫學文本結構化
阿里雲-醫學自然語言處理
↥ back to top
9. blog分享
- Alpaca:一個強大的開源指令跟隨模型
- 醫療領域構建自然語言處理系統的經驗教訓
- 大數據時代的醫學公共數據庫與數據挖掘技術簡介
- 從ACL 2021中看NLP在醫療領域應用的發展,附資源下載
↥ back to top
10. 友情鏈接
- awesome_Chinese_medical_NLP
- 中文NLP數據集搜索
- medical-data(海量醫療相關數據)
- 天池數據集(其中包含多個醫療NLP數據集)
↥ back to top
11. reference
@misc { medical_NLP_github ,
author = { Xidong Wang, Ziyue Lin and Jing Tang, Rongsheng Wang, Benyou Wang } ,
title = { Medical NLP } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub repository } ,
howpublished = { url{https://github.com/FreedomIntelligence/Medical_NLP} }
}