awesome_Chinese_medical_NLP
中文醫學NLP公開資源整理:術語集/語料庫/詞向量/預訓練模型/知識圖譜/命名實體識別/QA/信息抽取/etc
Benchmark
- 中文醫療信息處理挑戰榜CBLUE數據集Baseline 中文醫療信息處理挑戰榜CBLUE(Chinese Biomedical Language Understanding Evaluation)是中國中文信息學會醫療健康與生物信息處理專業委員會在合法開放共享的理念下發起,由阿里雲天池平台承辦,並由醫渡雲(北京)技術有限公司、平安醫療科技、北京大學、鄭州大學、鵬城實驗室、哈爾濱工業大學(深圳)、同濟大學、夸克、阿里巴巴達摩院等開展智慧醫療研究的單位共同協辦,旨在推動中文醫學NLP技術和社區的發展。
術語集/語料庫
- medical-news 中文醫學新聞爬蟲
- medical-books 中文LaTex開源醫學書籍
- THUOCL 清華大學thunlp組醫學詞彙
- ICD9 ICD-9中文對應
- ICD10 ICD-10中文對應
- ICD11 ICD-11中文對應
- OMAHA七巧板醫學術語集樣例數據
- 中文糖尿病標註數據集包含實體標註和關係標註
詞向量/預訓練模型
- ChineseEHRBert 中文電子病歷預訓練Bert;用Bert測試命名實體識別,問答模型,關係提取任務
- MC-BERTChineseBLUE數據集和模型
- bertcner 用於命名實體識別的預訓練的中文醫學Bert模型
- PCL-MedBERT 鵬城醫療BERT預訓練模型
- medbert BERT模型在中文臨床自然語言處理中的應用探索與研究
- Chinese-Word2vec-Medicine 中文生物醫學領域詞向量
- SMedBERT SMedBERT
- eHealth Building Chinese Biomedical Language Models via Multi-Level Text Discrimination
分詞
- PKUSEG PKUSEG分詞工具,模型支持選擇醫學
- cmekg醫學分詞工具github cmekg醫學分詞
- GTS 包含922句粗細兩種粒度標註的中文醫學分詞測試集
知識圖譜/ 關係提取
- cMeKG github Chinese Medical Knowledge Graph
- 瑞金醫院人工智能輔助構建知識圖譜大賽糖尿病相關的學術論文以及糖尿病臨床指南的實體標註和抽取實體關係任務
- OMAHA知識圖譜(藥品適應症) 開放醫療與健康聯盟(Open Medical and Healthcare Alliance,OMAHA)構建的藥品與藥品適應證的知識圖譜數據
- 醫療知識圖譜數據醫療知識圖譜數據(ownthink)
- 病人事件圖譜數據集病人事件圖譜是一種新的基於RDF的醫療觀察性數據表示模型,可以清晰地表示臨床檢查、診斷、治療等多種事件類型以及事件的時序關係。使用三家上海三甲醫院的電子病歷數據,構建了包括3個專科、173395個醫療事件、501335個事件時序關係以及與5313個知識庫概念鏈接的醫療數據集。
- 中文症狀庫這是一個包含症狀實體和症狀相關三元組的數據集。中文症狀庫的數據來自8個主流的健康諮詢網站、3個中文百科網站和電子病歷。它還包含了中文症狀與UMLS中概念的鏈接結果。
- 中醫醫案知識圖譜從醫案中抽取臨床知識構建知識圖譜,幫助用戶了解中醫特色療法,以及疾病(如“慢性胃炎”)的臨床表現、相關療法、相關養生保健方法等
- herbnet 面向中藥研究,根據中藥領域模型的特點,構建了一個包括中醫疾病,方劑,中藥, 中藥化學成分,藥理作用,中藥實驗,化學實驗方法在內的中藥本體。 進而,基於本體實現了一系列數據庫的集成,從而構建了一個中藥知識圖譜。
- CHIP2020 中文醫學文本實體關係抽取
- CCKS2020 新冠知識圖譜構建與問答
- cmekg醫學關係提取工具cmekg醫學關係提取
命名實體識別
- CCKS2017 面向中文電子病歷的醫療實體識別及屬性抽取數據集
- CCKS2018 面向中文電子病歷的醫療實體識別及屬性抽取數據集
- CCKS2019 數據下載面向中文電子病歷的醫療實體識別及屬性抽取數據集
- CHIP2020 中文醫學文本命名實體識別
- CHIP2020 中藥說明書實體識別
- CCKS2020 面向中文電子病歷的醫療實體及事件抽取
- cmekg醫學ner工具cmekg醫學ner
- CCKS2021 面向中文電子病歷的醫療實體及事件抽取
QA
- CCIR2019 CCIR 2019 基於電子病歷的數據查詢類問答
- cMedQA 中文醫學QA數據集
- cMedQA2 中文醫學QA數據集
- CMID 中文醫學QA意圖理解數據集
- KGQA 基於醫藥知識圖譜的智能問答系統
- chatbot-base-on-Knowledge-Graph 使用深度學習方法解析問題知識圖譜存儲查詢知識點基於醫療垂直領域的對話系統
- 中文醫療對話數據集Chinese medical dialogue data 中文醫療對話數據集
- webMedQA webMedQA
- MedDialog The MedDialog dataset contains conversations (in Chinese) between doctors and patients. It has 1.1 million dialogues and 4 million utterances.
- CHIP2020 中醫文獻問題生成
- NLPEC A Medical Multi-Choice Question Dataset for the National Licensed Pharmacist Examination in China
- CCKS2021 蘊含實體的中文醫療對話生成
- IMCS21 CBLUE@Tianchi 中醫療對話數據集IMCS21
- EMPEC Examinations-for-Medical-PErsonnel-in-Chinese (EMPEC)
術語標準化
- CHIP2019 臨床術語標準化任務:醫渡雲標準化7K數據集
- CHIP2020 臨床術語標準化任務
相似句對判斷
- “公益AI之星”挑戰賽-新冠疫情相似句對判定大賽比賽整理近萬條真實語境下疫情相關的肺炎、支原體肺炎、支氣管炎、上呼吸道感染、肺結核、哮喘、胸膜炎、肺氣腫、感冒、咳血等患者提問句對,要求選手通過自然語言處理技術識別相似的患者問題。
文本分類
其他
- CHIP2018 針對中文的真實患者健康諮詢語料,進行問句意圖匹配
- CHIP2019 平安醫療科技疾病問答遷移學習比賽
- CCLUE 中文臨床自然語言處理算法評估基準
- CCKS2021 面向中文醫療科普知識的內容理解