此存儲庫包含我們的紙質代碼“ PickertLink:利用大型語言模型進行跨源生物醫學概念鏈接”。
在本文中,我們介紹了鏈接的生物醫學概念,該任務的目的是基於其語義含義和生物醫學知識來跨來源/系統的生物醫學概念。它完全依靠概念名稱,因此可以涵蓋更廣泛的現實應用程序。此任務不同於現有任務,例如實體鏈接,實體對齊和本體匹配,這些任務取決於其他上下文或拓撲信息。下圖描述了生物醫學概念鏈接任務的玩具示例。

圖1:玩具示例。左:EHR中的概念。右:生物醫學kg中的概念。
Pickerlink是一種新型的生物醫學概念,將利用大型語言模型(LLM)的框架聯繫起來。它首先採用專門研究生物醫學的預訓練的語言模型來產生適合LLM上下文窗口中的候選概念。然後,它利用LLM通過兩個階段的提示來鏈接概念。第一階段的提示旨在從LLM中獲取概念鏈接任務的生物醫學先驗知識,而第二階段的提示則迫使LLM反思自己的預測以進一步提高其可靠性。下圖說明了Pickerlink框架的概述。

圖2:我們提出的下午鏈接框架的概述。
[“ unignts.txt”文件可用於自動下載Python軟件包]
Python == 3.8.10
EditDistance == 0.6.2
火== 0.5.0
numpy == 1.19.5
OpenAi == 0.28.1
熊貓== 1.3.4
rank_bm25 == 0.2.2
Scipy == 1.12.0
simString-fast == 0.3.0
textDistance == 4.6.1
TORCH == 1.10.0+CU111
TQDM == 4.66.1
變形金剛== 4.33.3
We curate two biomedical concept linking benchmark datasets: MIID (MIMIC-III-iBKH-Disease) and CISE (CRADLE-iBKH-Side-Effect), using data from MIMIC-III EHR dataset MIMIC Link, CRADLE EHR dataset (a private EHR dataset collected from a large healthcare system in the United States), iBKH KG dataset IBKH鏈接和UMLS編碼系統UMLS鏈接。由於醫療數據和隱私注意事項的敏感性,對數據共享存在限制。為了訪問這些醫療數據集,可能需要進行適當的培訓和證書。有關數據訪問或其他相關查詢的進一步幫助,請隨時與我們的作者團隊聯繫。
大多數代碼存儲在三個文件夾中:“ gen_candidates”,“ gen_gpt_responses”和“ baselines”。可以分別在這些文件夾中找到更多細節。
文件夾“ gen_candidates”:此文件夾包含Pickerlink概念表示和候選生成過程的代碼。
文件夾“ gen_gpt_responses”:此文件夾顯示瞭如何利用LLM檢索最終預測答案。
文件夾“ Baselines”:此文件夾包含用於運行所有基線方法的代碼,包括BM25,Levenshtein距離,Biobert和Sapbert。