
如何從非結構化的生物醫學數據和文本中提取信息。
什麼是Bioie?它包括從非結構化(或至少結構不一致的)生物學,臨床或其他生物醫學數據中提取結構化信息的任何努力。數據源通常是用技術語言編寫的文本文檔的一些集合。如果所得的信息在各種來源之間都是可驗證的且一致的,那麼我們可能會考慮其知識。從生物數據中提取信息並產生知識需要適應針對其他類型的非結構化數據開發的方法。
自從引入伯特(Bert)和最近創建的大型語言模型(例如,gpt-3/4,llama2/3,gemini等)的語言模型以來,Bioie經歷了巨大的變化。
此處包括的資源優先是以無貨幣成本和有限的許可要求提供的資源。方法和數據集應公開訪問並積極維護。
另請參見Awesome-NLP,Awesome-Dobology和Awesome-BioInformitics。
在貢獻之前,請閱讀貢獻指南。請通過提出拉動請求來添加您喜歡的資源。
內容
- 研究概述
- 活躍在現場
- 組織
- 期刊和事件
- 教程
- 代碼庫
- 工具,平台和服務
- 技術和模型
- 數據集
- 生物醫學文本來源
- 註釋的文本數據
- 蛋白質 - 蛋白質相互作用註釋語料庫
- 其他數據集
- 本體和受控詞彙
- 數據模型
- 學分
研究概述
生物醫學IE中的LLM
- 醫療保健中的大型語言模型:一種綜合基準 - 對適用於醫學語言任務的16種不同LLM的統計和人類評估。
- 評估大語言模型的研究格局和臨床實用性:範圍審查 - 截至2024年3月,對LLM醫學應用的高級評論。
- 大型語言模型在醫學中的道德和監管挑戰 - 對LLM在生物醫學中的應用引起的道德問題的回顧。
- 關於隨機鸚鵡的危險:語言模型會太大嗎? ? - 關於語言模型的角色,應用程序和風險的經常引用但仍然相關的工作。
pre-llm概述
- 雲上的生物醫學信息學:尋寶追求心血管醫學 - 概述生物和生物信息學工作流程如何將其應用於心血管健康和醫學研究中的問題。
- 臨床信息提取應用:文獻綜述 - 截至2016年9月發表的臨床IE論文綜述。來自Mayo Clinic Group(見下文)。
- 基於文獻的發現:模型,方法和趨勢 - 基於文獻的發現(LBD)的綜述,或者在看似無關的科學文獻之間可以發現有意義的聯繫的理念。
- 有關LBD的一些歷史背景,請參閱芝加哥大學的Don Swanson和Neil Smalheiser的論文,包括未被發現的公共知識(PayWalled)和重新發現Don Swanson:基於文學的發現的過去,現在和未來。
- 採礦電子健康記錄(EHRS):一項調查 - 對採礦電子健康記錄背後的方法和理念的審查,包括使用它們進行不良事件檢測。截至2017年中期,有關相關論文列表,請參見表2。
- 捕捉患者的觀點:對健康相關文本的自然語言處理進步的回顧 - 2017年對健康記錄和社交媒體文本中信息提取的自然語言處理方法的回顧。這篇評論的一個重要說明:“該領域的主要挑戰之一是可以共享的數據的可用性,並且可以被社區使用,以推動基於可比和可重複性研究的方法開發”。
回到頂部
活躍在現場
- 波士頓兒童醫院自然語言處理實驗室 - 由Guergana Savova博士領導,該博士以前是Mayo Clinic和Apache Ctakes項目。
- 布朗生物醫學信息學中心 - 位於布朗大學,由尼爾·薩卡爾(Neil Sarkar)博士執導,尼爾·薩卡爾(Neil Sarkar)的研究小組在臨床NLP和IE中致力於主題。
- 計算藥理學中心NLP小組 - 位於丹佛分校,由Larry Hunter領導 - 在此處查看他們的GitHub回購。
- 美國國家衛生研究院(NIH) /國家醫學圖書館(NLM)的小組:
- NLM的Demner-Fushman Group
- NCBI的BIONLP組 - 由Zhiyong Lu博士領導的生物醫學文獻搜索和策展(例如,通過PubMed)的改進。
- Jensenlab-總部位於丹麥哥本哈根大學Novo Nordisk蛋白質研究中心。
- 國家文本挖掘中心(NACTEM) - 位於曼徹斯特大學,由NACTEM的Sophia Ananiadou教授領導,一般關注文本挖掘,但特別關註生物醫學應用。
- Mayo診所的臨床自然語言處理計劃 - 在過去的20年中,Mayo Clinic的幾個小組為Bioie(例如,Apache Ctakes平台)做出了重大貢獻。
- 君主倡議 - 俄勒岡州立大學,俄勒岡州健康與科學大學,勞倫斯·伯克利國家實驗室,傑克遜實驗室和其他一些團體之間的共同努力,試圖“使用語義來整合生物學信息,並以新穎的方式介紹它,並利用表型來彌合知識差距”。
- Turkunlp-總部位於Turku大學,與NLP有關,關注Bionlp和臨床應用。
- Uthealth Houston Houston生物醫學自然語言處理實驗室 - 位於休斯敦的德克薩斯大學健康科學中心,生物醫學信息學學院,由Hua Xu博士領導。
- VCU自然語言處理實驗室 - 位於弗吉尼亞聯邦大學,由Bridget McInnes博士領導。
- Zaklab-由哈佛醫學院生物醫學信息學系的Isaac Kohane博士領導(Kohane博士也是N2C2(以前是I2B2)數據集的管家 - 請參見下面的數據集)。
- 哥倫比亞大學生物醫學信息學系 - 由博士領導。 George Hripcsak和NoémieElhadad。
回到頂部
組織
- 阿米亞(Amia) - 許多 - 但並非全部 - 研究生物醫學信息學的個人是美國醫學信息學協會的成員。阿米亞(Amia)出版了賈米亞(Jamia)期刊(見下文)。
- IMIA-國際醫學信息學協會。出版《 IMIA醫學信息學年鑑》。
回到頂部
期刊和事件
Bioie的跨學科性質意味著該領域的研究人員可能會以多種方式分享他們的發現和工具。他們可能會在期刊上發表論文,就像生物醫學和生命科學中一樣。他們可能會發表會議論文,並在接受後發表海報和/或口頭介紹;這是計算機科學和工程領域的常見實踐。會議論文通常發表在訴訟集合中。預印本出版物也是一種越來越受歡迎且在機構上接受的方式發表發現的方式。圍繞這些正式的書面產品是開放科學,開放數據和開源的思想:代碼,數據和軟件Bioie研究人員開發的是社區的寶貴資源。
期刊
對於預印象,請嘗試ARXIV,尤其是主題計算和語言(CS.CL)和信息檢索(CS.IR); Biorxiv;或MEDRXIV,尤其是健康信息學主題領域。
- 數據庫 - 其字幕是“生物數據庫和策展雜誌”。開放訪問。
- NAR-核酸研究。具有廣泛的生物分子重點,但在其年度數據庫問題上尤其值得注意。
- 賈米亞 - 美國醫學信息學協會雜誌。關注“臨床護理,臨床研究,翻譯科學,實施科學,成像,教育,消費者健康,公共衛生和政策領域的文章”。
- JBI-生物醫學信息學雜誌。默認情況下,儘管它確實具有開放式“ X”版本,但默認情況下不開放訪問。
- 科學數據 - 開放式春季自然雜誌出版“科學有價值的數據集的描述,以及進步的科學數據共享和再利用的研究”。
會議和其他事件
- ACM -BCB-關於生物信息學,計算生物學和健康信息學的ACM會議。自2010年以來每年舉行。
- BIBM- IEEE國際生物信息學和生物醫學會議。
- ISMB-國際分子生物學智能係統會議是國際計算生物學學會自1993年以來舉辦的年度會議。它的大部分重點都涉及生物信息學和計算生物學,而沒有明確的臨床重點,儘管它包括越來越多的文本挖掘內容(例如,2019年的2019年會議,包括在本科生中進行的全天特別會議,包括生物學的文本分鐘和醫療課程)。該會議與奇數年的歐洲計算生物學會議(ECCB)結合在一起。
- PSB-生物計算的太平洋研討會。
挑戰
Bioie中的某些事件是圍繞正式任務和挑戰組織的,在這些任務和挑戰中,鑑於數據集,小組開發自己的計算解決方案。
- Bioasq-生物醫學語義索引和問題回答的挑戰。自2013年以來每年舉行的挑戰和研討會。
- 生物公制研討會 - 這些研討會自2004年以來就成立了,生物保存VI舉行了2017年2月,以及2018年舉行的Biocreative/OHNLP挑戰。請參見下面的數據集。
- Semeval研討會 - 計算語義分析中的任務和評估。任務因年份而有所不同,但經常涵蓋科學和/或生物醫學語言,例如Semeval-2019 Task 12在科學論文中的最高分辨率上。
- EHealth -KD-鼓勵“開發軟件技術的挑戰,可以自動從用西班牙語寫的EHealth文檔中提取大量知識”。以前是TASS的一部分,這是西班牙語的年度語義分析研討會。
- EHR Dream挑戰 - 與其他幾個以生物信息學為重點的挑戰一起舉行,該挑戰於2019年10月開始,著重於使用電子健康記錄數據來預測患者死亡率。使用合成數據集,而不是真實的EHR內容。
回到頂部
教程
該領域的變化很快,以至於幾年以上的任何年齡段的教程都缺少關鍵細節。下面列出了一些最近的教育資源。對文本挖掘技術的良好基本理解非常有用,與Python和R語言的一些基本經驗也是如此。最好的選擇可能是學習。
LLM指南
TBD-觀看這個空間!
前指導,講座和課程
- 入門文本採礦 - 對Cohen and Hunter的生物文本挖掘簡要介紹。十多年的歷史,但仍然很重要。另請參見同一作者的早期論文。
- 生物醫學文獻挖掘 - 2014年分子生物學中的A(非免費)方法。章節涵蓋文本挖掘中的入門原理,生物科學中的應用以及在臨床或醫療安全方案中使用的潛力。
- Coursera-採礦非結構化醫療數據的基礎 - 關於使用各種類型和結構(包括文本和圖像數據)的醫療數據,大約三個小時的視頻講座。看起來相當高,旨在為初學者。
- Jensenlab文本挖掘練習
- VIB文字挖掘和策展培訓 - 該培訓研討會於2013年進行,但幻燈片仍在網上。
回到頂部
代碼庫
- Biopython-紙 - 代碼 - Python工具主要用於生物信息學和計算分子生物學的目的,但也是獲取數據的便利方法,包括來自PubMed的文檔/摘要(請參閱文檔的第9章)。
- 生物分數 - 紙 - 生物醫學核心分辨率的框架。
- 冥想 - 建立預測性醫學自然語言處理模型的系統。建立在Spacy框架上。
- Scispacy-紙 - 科學和生物醫學文檔的Spacy框架的版本。
- Rentrez-用於訪問NCBI資源的公用事業,包括PubMed。
- Med7-紙 - 代碼 - 用於與藥物相關概念進行NER的Python軟件包和模型(與Spacy一起使用)。
特定數據集的存儲庫
- 模擬代碼 - 與MIMIC-III數據集關聯的代碼(見下文)。包括一些有用的教程。
回到頂部
工具,平台和服務
- Ctakes-紙 - 代碼 - 用於在電子病歷中處理文本的系統。廣泛使用和開源。
- 夾具 - 紙 - 一種自然語言處理工具包,旨在與臨床報告中的文本一起使用。首先查看他們的現場演示,看看它的作用。無需用於學術研究的費用。
- Deepphe-一種處理描述癌症表現的文件的系統。基於Ctakes(見上文)。
- DNOM-紙 - 一種疾病歸一化的方法,即,將疾病名稱和首字母縮寫詞與唯一概念標識符聯繫起來。可下載的版本包括NCBI疾病語料庫和BC5CDR(請參閱下面的帶註釋的文本數據)。
- PubTator Central -Paper-一個網絡平台,標識了PubMed文章和PubMed Central全文中五種不同類型的生物醫學概念。完整的註釋集可下載(請參閱下面的註釋文本數據)。
- PubRunner -PubMed的最新文檔集合中運行文本挖掘工具的框架。
- Semehr-紙 - 電子健康記錄(EHR)的IE基礎架構。建立在Cogstack項目上。
- taggerone-紙 - 執行概念歸一化(另請參見上面的DNorm)。可以接受特定概念類型的訓練,並且可以獨立於其他標準化功能執行NER。
- Tabinout-紙 - 文獻中表的IE框架。
註釋工具
- Anafora-紙 - 具有裁決和進度跟踪功能的註釋工具。
- 小子 - 紙 - 代碼 - 小子快速註釋工具。通過瀏覽器以視覺上的形式支持文本註釋。不具體主體;適合許多註釋項目。可視化基於STAV工具的可視化。
- Medtator-紙 - 代碼 - 一種註釋工具,旨在具有最小的依賴性。
回到頂部
技術和模型
大型語言模型
TBD-觀看這個空間!
BERT模型
- Biobert-紙 - 代碼 - BERT語言模型的PubMed和PubMed中央訓練版本。
- Clinicalbert-通過臨床文本培訓的兩種語言模型具有相似的名稱。兩者都是BERT模型,對模擬物III數據集的臨床註釋文本進行了訓練。
- Alsentzer等人臨床BERT-紙
- Huang等人Clinicalbert-紙張
- SCIBERT-紙 - 在語義學者數據庫中> 1M紙上訓練的BERT模型。
- Bluebert -Paper- PubMed文本和MIMIC -III註釋預先訓練的BERT模型。
- PubMedbert -Paper -BERT模型在PubMed上從頭開始訓練,並在摘要+全文和摘要上接受了培訓的版本。
GPT-2型號
- BioGPT-紙 - 在1500萬PubMed摘要上預先訓練的GPT-2模型,以及用於幾項生物醫學任務的微調版本。
其他型號
- PubMed的Flair嵌入 - 一種通過Flair框架和嵌入方法獲得的語言模型。直到2015年,培訓了超過5%的PubMed摘要樣本,或者總共培訓了120萬次摘要。
文本嵌入
- 據Mayo Clinic的Hongfang Liu小組的本文展示了對生物醫學或臨床文本培訓的文本嵌入方式如何,但並非總是在生物醫學自然語言處理任務上表現更好。話雖如此,預訓練的嵌入可能適合您的需求,尤其是在訓練領域特定的嵌入可能是計算密集型的。
- BioASQWord2Vec -Paper -Qord嵌入使用流行Word2Vec工具從生物醫學文本(> 1000萬個PubMed摘要)得出的QORD嵌入。
- Biowordvec-紙 - 代碼 - 源自生物醫學文本(> 2700萬PubMed標題和摘要)的單詞嵌入,包括基於網格的子詞嵌入模型。
回到頂部
數據集
下面列出的一些數據集需要UMLS術語服務(UTS)帳戶才能訪問。請注意,使用UTS帳戶授予的許可要求用戶提交有關其使用UMLS資源的年度報告。這比聽起來更具挑戰性。
生物醫學文本來源
以下資源包含生物醫學科學中的索引文本文檔。
- OHSUMED -PAPER -348,566 MEDLINE條目(標題,有時是抽象),1987年至1991年之間。包括網狀標籤。主要具有歷史意義。
- PubMed Central Open Access子集 - 一組PubMed Central文章可根據傳統版權以外的許可使用,儘管確切的許可因出版物和來源而異。文章可作為PDF和XML提供。
- CORD-19-關於Covid-19的學術手稿語料庫。文章主要來自PubMed Central和預印式服務器,儘管該集合還包括沒有全文可用性的論文上的元數據。
註釋的文本數據
- SPL-ADR-200DB-紙 - 一個含有標准信息的試點數據集,文本中發生的出現註釋,約有200名FDA批准藥物的約5,000個已知不良反應。
- 生物保存1-紙-15,000個句子(10,000次培訓和5,000次測試)註釋了蛋白質和基因名稱。 1,000個全文生物醫學研究文章,註釋了蛋白質名稱和基因本體論術語。
- 生物證券2-紙-15,000句(10,000次培訓和5,000次測試,與第一個語料庫不同),以註釋蛋白質和基因名稱。 542摘要鏈接到腸結構標識符。針對蛋白質 - 蛋白質相互作用的特徵所註釋的各種研究文章。
- Biocreative V CDR任務語料庫(BC5CDR) - 紙 - 2014年或更高版本發表的1,500篇文章(標題和摘要),註釋了4,409種化學藥品,5,818種疾病和3116個化學 - 疾病相互作用。需要註冊。
- Biocreative VI Chemprot語料庫 - 紙 - > 2,400篇文章,以各種關係類型的化學蛋白質相互作用註釋。需要註冊。
- 手工藝品 - 紙 - 67個全文生物醫學文章以各種方式註釋,包括概念和核心。現在在版本5上,包括將概念與蒙多病本體論聯繫起來的註釋。
- N2C2(以前是I2B2)數據 - 哈佛醫學院的生物醫學信息學(DBMI)管理國家NLP臨床挑戰的數據,以及自2006年以來生物學和床頭挑戰的信息學。它們需要在訪問和使用之前進行註冊。數據集包括各種主題。請參閱各個描述的數據挑戰列表。
- NCBI疾病語料庫 - 紙 - 一個793個生物醫學摘要的語料庫,帶有疾病的名稱以及來自網狀和OMIM的相關概念的名稱。
- PubTator Central數據集 - 紙 - 可通過Restful API或FTP下載訪問。包括> 2900萬個摘要和約300萬本全文文檔的註釋。
- 單詞感官歧義(WSD) - 紙 - 203個模棱兩可的單詞和37,888自動提取了它們在生物醫學研究出版物中使用的實例。需要UTS帳戶。
- 臨床問題收集 - 也稱為CQC或愛荷華州的收藏,這是醫生在辦公室訪問期間提出的幾千個問題以及相關的答案。
- Bionlp ST 2013數據集 - 來自六個共享任務的數據,儘管有些可能不容易訪問;嘗試CG任務集(BIONLP2013CG)進行廣泛的實體和事件註釋。
- Bioscope-紙 - 醫學和生物文件的句子語料庫,以否定,投機和語言範圍註釋。
- Biored -Paper-一組> 6.5K的生物醫學關係註釋,以及用於新發現的標籤。
蛋白質 - 蛋白質相互作用註釋語料庫
蛋白質 - 蛋白質相互作用縮寫為PPI。以下組以Bioc格式提供。較舊的套件(Aimed,Bioinfer,HPRD50,IEPA和LLL)提供由WBI Corpora存儲庫提供的,最初是由Turku University的一組原始集合得出的。
- 瞄準 - 紙-225用於PPI註釋的MEDLINE摘要。
- Bioc -Biogroid-紙 - 120個針對PPI和遺傳相互作用的全文文章。用於生物公約V BIOC任務。
- 生物學 - 紙 - 生物醫學研究摘要的1,100句摘要(包括PPI),命名實體和句法依賴性。其他信息和下載鏈接在這裡。
- HPRD50-紙-50個由人類蛋白參考數據庫引用的科學摘要,用於PPI。
- IEPA-紙-486個來自生物醫學研究摘要的句子,該摘要對成對的同時發生化學物質,包括蛋白質(因此,PPI註釋)。
- LLL-紙-77個有關枯草芽孢桿菌的研究文章的句子,用於蛋白質 - 葡萄構相互作用的註釋(因此,相當接近PPI註釋)。其他信息在這裡。
其他數據集
- 哥倫比亞開放健康數據 - 紙 - 從電子健康記錄中提取的條件,藥物,程序和患者人口統計的患病率和同時出現頻率的數據庫。不包括原始記錄文本。
- 比較毒物學數據庫 - 紙 - 化學物質,基因產物,表型,疾病和環境暴露之間手動策劃關聯的數據庫。有助於組裝相關概念的本體論,例如化學物質類型。
- MIMIC -III-紙質 - 來自約60,000個重症監護病房的識別健康數據。需要完成在線培訓課程(花旗培訓),並在使用前接受數據使用協議。
- Mimic-CXR-模擬胸部X射線數據庫。包含超過377,000張射線照相圖像和隨附的自由文本放射學報告。與Mimic-III一樣,需要接受數據使用協議。
- UMLS知識來源 - 參考手冊 - 生物醫學術語和標識符以及隨附的工具和腳本的大量收集。根據您的目的,單個文件MRCONSO.RRF可能足夠,因為該文件包含UMLS Metathesaurus中所有概念的唯一標識符和名稱。另請參見下面的本體和受控詞彙部分。
- MIMIC-IV-對Mimic-III的多模式患者數據的更新,現在涵蓋了近年來的入學,以及新的數據結構,急診部門記錄以及符合模擬CXR圖像的鏈接。
- EICU協作研究數據庫 - 論文 - 來自超過20萬個重症監護病房的觀察數據庫,具有一致的結構。需要註冊,培訓課程完成和數據使用協議。
回到頂部
本體和受控詞彙
- 疾病本體論 - 紙 - 人類疾病的本體論。具有與網格,ICD,NCI詞庫,snomed和Omim的交聯。公共領域。在Github和Obo Foundry上可用。
- rxnorm-紙張 - 臨床藥物和藥物包的歸一化名稱,具有組合成分,優勢和形式,並從語義網絡中分配了類型(請參見下文)。每月發布。
- 專業詞典 - 紙 - 一般英語詞典,其中包括許多生物醫學術語。自1994年以來每年更新,但仍在2019年更新。 UMLS的一部分,但不需要UTS帳戶才能下載。
- UMLS Metathesaurus-紙 - 構圖> 380萬個概念,1400萬個概念名稱以及> 200個生物醫學詞彙和標識符來源。很大。使用Metamorphosys安裝工具準備了Metathesaurus的子集,但我們仍在談論2019年版本所需的約30 GB磁盤空間。在這裡查看手冊。需要UTS帳戶。
- UMLS語義網絡 - 紙 - 133種語義類型和54個語義關係的列表涵蓋了生物醫學概念和詞彙。 Metathesaurus是否滿足您的需求?嘗試一下。不需要UTS帳戶即可下載。
回到頂部
數據模型
您需要數據模型嗎?如果您正在使用生物醫學數據,那麼答案可能是“是”。
- Biolink-代碼 - 生物實體的數據模型。作為yaml文件提供。
- Biouml-紙 - 生物醫學數據分析,集成和可視化的體系結構。從概念上講,基於視覺建模語言UML。
- OMOP通用數據模型 - 觀察性醫療保健數據的標準。
回到頂部
學分
策展人和來源的學分。
執照
執照