awesome_Chinese_medical_NLP下載awesome_Chinese_medical

awesome_Chinese_medical_NLP

其他源碼

1.0.0

下載

awesome_Chinese_medical_NLP

中文醫學NLP公開資源整理：術語集/語料庫/詞向量/預訓練模型/知識圖譜/命名實體識別/QA/信息抽取/etc

Benchmark

中文醫療信息處理挑戰榜CBLUE數據集Baseline 中文醫療信息處理挑戰榜CBLUE(Chinese Biomedical Language Understanding Evaluation)是中國中文信息學會醫療健康與生物信息處理專業委員會在合法開放共享的理念下發起，由阿里雲天池平台承辦，並由醫渡雲（北京）技術有限公司、平安醫療科技、北京大學、鄭州大學、鵬城實驗室、哈爾濱工業大學(深圳）、同濟大學、夸克、阿里巴巴達摩院等開展智慧醫療研究的單位共同協辦，旨在推動中文醫學NLP技術和社區的發展。

術語集/語料庫

medical-news 中文醫學新聞爬蟲
medical-books 中文LaTex開源醫學書籍
THUOCL 清華大學thunlp組醫學詞彙
ICD9 ICD-9中文對應
ICD10 ICD-10中文對應
ICD11 ICD-11中文對應
OMAHA七巧板醫學術語集樣例數據
中文糖尿病標註數據集包含實體標註和關係標註

詞向量/預訓練模型

ChineseEHRBert 中文電子病歷預訓練Bert；用Bert測試命名實體識別，問答模型，關係提取任務
MC-BERTChineseBLUE數據集和模型
bertcner 用於命名實體識別的預訓練的中文醫學Bert模型
PCL-MedBERT 鵬城醫療BERT預訓練模型
medbert BERT模型在中文臨床自然語言處理中的應用探索與研究
Chinese-Word2vec-Medicine 中文生物醫學領域詞向量
SMedBERT SMedBERT
eHealth Building Chinese Biomedical Language Models via Multi-Level Text Discrimination

分詞

PKUSEG PKUSEG分詞工具，模型支持選擇醫學
cmekg醫學分詞工具github cmekg醫學分詞
GTS 包含922句粗細兩種粒度標註的中文醫學分詞測試集

知識圖譜/ 關係提取

cMeKG github Chinese Medical Knowledge Graph
瑞金醫院人工智能輔助構建知識圖譜大賽糖尿病相關的學術論文以及糖尿病臨床指南的實體標註和抽取實體關係任務
OMAHA知識圖譜（藥品適應症）開放醫療與健康聯盟（Open Medical and Healthcare Alliance，OMAHA）構建的藥品與藥品適應證的知識圖譜數據
醫療知識圖譜數據醫療知識圖譜數據（ownthink）
病人事件圖譜數據集病人事件圖譜是一種新的基於RDF的醫療觀察性數據表示模型，可以清晰地表示臨床檢查、診斷、治療等多種事件類型以及事件的時序關係。使用三家上海三甲醫院的電子病歷數據，構建了包括3個專科、173395個醫療事件、501335個事件時序關係以及與5313個知識庫概念鏈接的醫療數據集。
中文症狀庫這是一個包含症狀實體和症狀相關三元組的數據集。中文症狀庫的數據來自8個主流的健康諮詢網站、3個中文百科網站和電子病歷。它還包含了中文症狀與UMLS中概念的鏈接結果。
中醫醫案知識圖譜從醫案中抽取臨床知識構建知識圖譜，幫助用戶了解中醫特色療法，以及疾病（如“慢性胃炎”）的臨床表現、相關療法、相關養生保健方法等
herbnet 面向中藥研究，根據中藥領域模型的特點，構建了一個包括中醫疾病，方劑，中藥，中藥化學成分，藥理作用，中藥實驗，化學實驗方法在內的中藥本體。進而，基於本體實現了一系列數據庫的集成，從而構建了一個中藥知識圖譜。
CHIP2020 中文醫學文本實體關係抽取
CCKS2020 新冠知識圖譜構建與問答
cmekg醫學關係提取工具cmekg醫學關係提取

命名實體識別

CCKS2017 面向中文電子病歷的醫療實體識別及屬性抽取數據集
CCKS2018 面向中文電子病歷的醫療實體識別及屬性抽取數據集
CCKS2019 數據下載面向中文電子病歷的醫療實體識別及屬性抽取數據集
CHIP2020 中文醫學文本命名實體識別
CHIP2020 中藥說明書實體識別
CCKS2020 面向中文電子病歷的醫療實體及事件抽取
cmekg醫學ner工具cmekg醫學ner
CCKS2021 面向中文電子病歷的醫療實體及事件抽取

QA

CCIR2019 CCIR 2019 基於電子病歷的數據查詢類問答
cMedQA 中文醫學QA數據集
cMedQA2 中文醫學QA數據集
CMID 中文醫學QA意圖理解數據集
KGQA 基於醫藥知識圖譜的智能問答系統
chatbot-base-on-Knowledge-Graph 使用深度學習方法解析問題知識圖譜存儲查詢知識點基於醫療垂直領域的對話系統
中文醫療對話數據集Chinese medical dialogue data 中文醫療對話數據集
webMedQA webMedQA
MedDialog The MedDialog dataset contains conversations (in Chinese) between doctors and patients. It has 1.1 million dialogues and 4 million utterances.
CHIP2020 中醫文獻問題生成
NLPEC A Medical Multi-Choice Question Dataset for the National Licensed Pharmacist Examination in China
CCKS2021 蘊含實體的中文醫療對話生成
IMCS21 CBLUE@Tianchi 中醫療對話數據集IMCS21
EMPEC Examinations-for-Medical-PErsonnel-in-Chinese (EMPEC)