
如何从非结构化的生物医学数据和文本中提取信息。
什么是Bioie?它包括从非结构化(或至少结构不一致的)生物学,临床或其他生物医学数据中提取结构化信息的任何努力。数据源通常是用技术语言编写的文本文档的一些集合。如果所得的信息在各种来源之间都是可验证的且一致的,那么我们可能会考虑其知识。从生物数据中提取信息并产生知识需要适应针对其他类型的非结构化数据开发的方法。
自从引入伯特(Bert)和最近创建的大型语言模型(例如,gpt-3/4,llama2/3,gemini等)的语言模型以来,Bioie经历了巨大的变化。
此处包括的资源优先是以无货币成本和有限的许可要求提供的资源。方法和数据集应公开访问并积极维护。
另请参见Awesome-NLP,Awesome-Dobology和Awesome-BioInformitics。
在贡献之前,请阅读贡献指南。请通过提出拉动请求来添加您喜欢的资源。
内容
- 研究概述
- 活跃在现场
- 组织
- 期刊和事件
- 教程
- 代码库
- 工具,平台和服务
- 技术和模型
- 数据集
- 生物医学文本来源
- 注释的文本数据
- 蛋白质 - 蛋白质相互作用注释语料库
- 其他数据集
- 本体和受控词汇
- 数据模型
- 学分
研究概述
生物医学IE中的LLM
- 医疗保健中的大型语言模型:一种综合基准 - 对适用于医学语言任务的16种不同LLM的统计和人类评估。
- 评估大语言模型的研究格局和临床实用性:范围审查 - 截至2024年3月,对LLM医学应用的高级评论。
- 大型语言模型在医学中的道德和监管挑战 - 对LLM在生物医学中的应用引起的道德问题的回顾。
- 关于随机鹦鹉的危险:语言模型会太大吗? ? - 关于语言模型的角色,应用程序和风险的经常引用但仍然相关的工作。
pre-llm概述
- 云上的生物医学信息学:寻宝追求心血管医学 - 概述生物和生物信息学工作流程如何将其应用于心血管健康和医学研究中的问题。
- 临床信息提取应用:文献综述 - 截至2016年9月发表的临床IE论文综述。来自Mayo Clinic Group(见下文)。
- 基于文献的发现:模型,方法和趋势 - 基于文献的发现(LBD)的综述,或者在看似无关的科学文献之间可以发现有意义的联系的理念。
- 有关LBD的一些历史背景,请参阅芝加哥大学的Don Swanson和Neil Smalheiser的论文,包括未被发现的公共知识(PayWalled)和重新发现Don Swanson:基于文学的发现的过去,现在和未来。
- 采矿电子健康记录(EHRS):一项调查 - 对采矿电子健康记录背后的方法和理念的审查,包括使用它们进行不良事件检测。截至2017年中期,有关相关论文列表,请参见表2。
- 捕捉患者的观点:对健康相关文本的自然语言处理进步的回顾 - 2017年对健康记录和社交媒体文本中信息提取的自然语言处理方法的回顾。这篇评论的一个重要说明:“该领域的主要挑战之一是可以共享的数据的可用性,并且可以被社区使用,以推动基于可比和可重复性研究的方法开发”。
回到顶部
活跃在现场
- 波士顿儿童医院自然语言处理实验室 - 由Guergana Savova博士领导,该博士以前是Mayo Clinic和Apache Ctakes项目。
- 布朗生物医学信息学中心 - 位于布朗大学,由尼尔·萨卡尔(Neil Sarkar)博士执导,尼尔·萨卡尔(Neil Sarkar)的研究小组在临床NLP和IE中致力于主题。
- 计算药理学中心NLP小组 - 位于丹佛分校,由Larry Hunter领导 - 在此处查看他们的GitHub回购。
- 美国国家卫生研究院(NIH) /国家医学图书馆(NLM)的小组:
- NLM的Demner-Fushman Group
- NCBI的BIONLP组 - 由Zhiyong Lu博士领导的生物医学文献搜索和策展(例如,通过PubMed)的改进。
- Jensenlab-总部位于丹麦哥本哈根大学Novo Nordisk蛋白质研究中心。
- 国家文本挖掘中心(NACTEM) - 位于曼彻斯特大学,由NACTEM的Sophia Ananiadou教授领导,一般关注文本挖掘,但特别关注生物医学应用。
- Mayo诊所的临床自然语言处理计划 - 在过去的20年中,Mayo Clinic的几个小组为Bioie(例如,Apache Ctakes平台)做出了重大贡献。
- 君主倡议 - 俄勒冈州立大学,俄勒冈州健康与科学大学,劳伦斯·伯克利国家实验室,杰克逊实验室和其他一些团体之间的共同努力,试图“使用语义来整合生物学信息,并以新颖的方式介绍它,并利用表型来弥合知识差距”。
- Turkunlp-总部位于Turku大学,与NLP有关,关注Bionlp和临床应用。
- Uthealth Houston Houston生物医学自然语言处理实验室 - 位于休斯敦的德克萨斯大学健康科学中心,生物医学信息学学院,由Hua Xu博士领导。
- VCU自然语言处理实验室 - 位于弗吉尼亚联邦大学,由Bridget McInnes博士领导。
- Zaklab-由哈佛医学院生物医学信息学系的Isaac Kohane博士领导(Kohane博士也是N2C2(以前是I2B2)数据集的管家 - 请参见下面的数据集)。
- 哥伦比亚大学生物医学信息学系 - 由博士领导。 George Hripcsak和NoémieElhadad。
回到顶部
组织
- 阿米亚(Amia) - 许多 - 但并非全部 - 研究生物医学信息学的个人是美国医学信息学协会的成员。阿米亚(Amia)出版了贾米亚(Jamia)期刊(见下文)。
- IMIA-国际医学信息学协会。出版《 IMIA医学信息学年鉴》。
回到顶部
期刊和事件
Bioie的跨学科性质意味着该领域的研究人员可能会以多种方式分享他们的发现和工具。他们可能会在期刊上发表论文,就像生物医学和生命科学中一样。他们可能会发表会议论文,并在接受后发表海报和/或口头介绍;这是计算机科学和工程领域的常见实践。会议论文通常发表在诉讼集合中。预印本出版物也是一种越来越受欢迎且在机构上接受的方式发表发现的方式。围绕这些正式的书面产品是开放科学,开放数据和开源的思想:代码,数据和软件Bioie研究人员开发的是社区的宝贵资源。
期刊
对于预印象,请尝试ARXIV,尤其是主题计算和语言(CS.CL)和信息检索(CS.IR); Biorxiv;或MEDRXIV,尤其是健康信息学主题领域。
- 数据库 - 其字幕是“生物数据库和策展杂志”。开放访问。
- NAR-核酸研究。具有广泛的生物分子重点,但在其年度数据库问题上尤其值得注意。
- 贾米亚 - 美国医学信息学协会杂志。关注“临床护理,临床研究,翻译科学,实施科学,成像,教育,消费者健康,公共卫生和政策领域的文章”。
- JBI-生物医学信息学杂志。默认情况下,尽管它确实具有开放式“ X”版本,但默认情况下不开放访问。
- 科学数据 - 开放式春季自然杂志出版“科学有价值的数据集的描述,以及进步的科学数据共享和再利用的研究”。
会议和其他事件
- ACM -BCB-关于生物信息学,计算生物学和健康信息学的ACM会议。自2010年以来每年举行。
- BIBM- IEEE国际生物信息学和生物医学会议。
- ISMB-国际分子生物学智能系统会议是国际计算生物学学会自1993年以来举办的年度会议。它的大部分重点都涉及生物信息学和计算生物学,而没有明确的临床重点,尽管它包括越来越多的文本挖掘内容(例如,2019年的2019年会议,包括在本科生中进行的全天特别会议,包括生物学的文本分钟和医疗课程)。该会议与奇数年的欧洲计算生物学会议(ECCB)结合在一起。
- PSB-生物计算的太平洋研讨会。
挑战
Bioie中的某些事件是围绕正式任务和挑战组织的,在这些任务和挑战中,鉴于数据集,小组开发自己的计算解决方案。
- Bioasq-生物医学语义索引和问题回答的挑战。自2013年以来每年举行的挑战和研讨会。
- 生物公制研讨会 - 这些研讨会自2004年以来就成立了,生物保存VI举行了2017年2月,以及2018年举行的Biocreative/OHNLP挑战。请参见下面的数据集。
- Semeval研讨会 - 计算语义分析中的任务和评估。任务因年份而有所不同,但经常涵盖科学和/或生物医学语言,例如Semeval-2019 Task 12在科学论文中的最高分辨率上。
- EHealth -KD-鼓励“开发软件技术的挑战,可以自动从用西班牙语写的EHealth文档中提取大量知识”。以前是TASS的一部分,这是西班牙语的年度语义分析研讨会。
- EHR Dream挑战 - 与其他几个以生物信息学为重点的挑战一起举行,该挑战于2019年10月开始,着重于使用电子健康记录数据来预测患者死亡率。使用合成数据集,而不是真实的EHR内容。
回到顶部
教程
该领域的变化很快,以至于几年以上的任何年龄段的教程都缺少关键细节。下面列出了一些最近的教育资源。对文本挖掘技术的良好基本理解非常有用,与Python和R语言的一些基本经验也是如此。最好的选择可能是学习。
LLM指南
TBD-观看这个空间!
前指导,讲座和课程
- 入门文本采矿 - 对Cohen and Hunter的生物文本挖掘简要介绍。十多年的历史,但仍然很重要。另请参见同一作者的早期论文。
- 生物医学文献挖掘 - 2014年分子生物学中的A(非免费)方法。章节涵盖文本挖掘中的入门原理,生物科学中的应用以及在临床或医疗安全方案中使用的潜力。
- Coursera-采矿非结构化医疗数据的基础 - 关于使用各种类型和结构(包括文本和图像数据)的医疗数据,大约三个小时的视频讲座。看起来相当高,旨在为初学者。
- Jensenlab文本挖掘练习
- VIB文字挖掘和策展培训 - 该培训研讨会于2013年进行,但幻灯片仍在网上。
回到顶部
代码库
- Biopython-纸 - 代码 - Python工具主要用于生物信息学和计算分子生物学的目的,但也是获取数据的便利方法,包括来自PubMed的文档/摘要(请参阅文档的第9章)。
- 生物分数 - 纸 - 生物医学核心分辨率的框架。
- 冥想 - 建立预测性医学自然语言处理模型的系统。建立在Spacy框架上。
- Scispacy-纸 - 科学和生物医学文档的Spacy框架的版本。
- Rentrez-用于访问NCBI资源的公用事业,包括PubMed。
- Med7-纸 - 代码 - 用于与药物相关概念进行NER的Python软件包和模型(与Spacy一起使用)。
特定数据集的存储库
- 模拟代码 - 与MIMIC-III数据集关联的代码(见下文)。包括一些有用的教程。
回到顶部
工具,平台和服务
- Ctakes-纸 - 代码 - 用于在电子病历中处理文本的系统。广泛使用和开源。
- 夹具 - 纸 - 一种自然语言处理工具包,旨在与临床报告中的文本一起使用。首先查看他们的现场演示,看看它的作用。无需用于学术研究的费用。
- Deepphe-一种处理描述癌症表现的文件的系统。基于Ctakes(见上文)。
- DNOM-纸 - 一种疾病归一化的方法,即,将疾病名称和首字母缩写词与唯一概念标识符联系起来。可下载的版本包括NCBI疾病语料库和BC5CDR(请参阅下面的带注释的文本数据)。
- PubTator Central -Paper-一个网络平台,标识了PubMed文章和PubMed Central全文中五种不同类型的生物医学概念。完整的注释集可下载(请参阅下面的注释文本数据)。
- PubRunner -PubMed的最新文档集合中运行文本挖掘工具的框架。
- Semehr-纸 - 电子健康记录(EHR)的IE基础架构。建立在Cogstack项目上。
- taggerone-纸 - 执行概念归一化(另请参见上面的DNorm)。可以接受特定概念类型的训练,并且可以独立于其他标准化功能执行NER。
- Tabinout-纸 - 文献中表的IE框架。
注释工具
- Anafora-纸 - 具有裁决和进度跟踪功能的注释工具。
- 小子 - 纸 - 代码 - 小子快速注释工具。通过浏览器以视觉上的形式支持文本注释。不具体主体;适合许多注释项目。可视化基于STAV工具的可视化。
- Medtator-纸 - 代码 - 一种注释工具,旨在具有最小的依赖性。
回到顶部
技术和模型
大型语言模型
TBD-观看这个空间!
BERT模型
- Biobert-纸 - 代码 - BERT语言模型的PubMed和PubMed中央训练版本。
- Clinicalbert-通过临床文本培训的两种语言模型具有相似的名称。两者都是BERT模型,对模拟物III数据集的临床注释文本进行了训练。
- Alsentzer等人临床BERT-纸
- Huang等人Clinicalbert-纸张
- SCIBERT-纸 - 在语义学者数据库中> 1M纸上训练的BERT模型。
- Bluebert -Paper- PubMed文本和MIMIC -III注释预先训练的BERT模型。
- PubMedbert -Paper -BERT模型在PubMed上从头开始训练,并在摘要+全文和摘要上接受了培训的版本。
GPT-2型号
- BioGPT-纸 - 在1500万PubMed摘要上预先训练的GPT-2模型,以及用于几项生物医学任务的微调版本。
其他型号
- PubMed的Flair嵌入 - 一种通过Flair框架和嵌入方法获得的语言模型。直到2015年,培训了超过5%的PubMed摘要样本,或者总共培训了120万次摘要。
文本嵌入
- 据Mayo Clinic的Hongfang Liu小组的本文展示了对生物医学或临床文本培训的文本嵌入方式如何,但并非总是在生物医学自然语言处理任务上表现更好。话虽如此,预训练的嵌入可能适合您的需求,尤其是在训练领域特定的嵌入可能是计算密集型的。
- BioASQWord2Vec -Paper -Qord嵌入使用流行Word2Vec工具从生物医学文本(> 1000万个PubMed摘要)得出的QORD嵌入。
- Biowordvec-纸 - 代码 - 源自生物医学文本(> 2700万PubMed标题和摘要)的单词嵌入,包括基于网格的子词嵌入模型。
回到顶部
数据集
下面列出的一些数据集需要UMLS术语服务(UTS)帐户才能访问。请注意,使用UTS帐户授予的许可要求用户提交有关其使用UMLS资源的年度报告。这比听起来更具挑战性。
生物医学文本来源
以下资源包含生物医学科学中的索引文本文档。
- OHSUMED -PAPER -348,566 MEDLINE条目(标题,有时是抽象),1987年至1991年之间。包括网状标签。主要具有历史意义。
- PubMed Central Open Access子集 - 一组PubMed Central文章可根据传统版权以外的许可使用,尽管确切的许可因出版物和来源而异。文章可作为PDF和XML提供。
- CORD-19-关于Covid-19的学术手稿语料库。文章主要来自PubMed Central和预印式服务器,尽管该集合还包括没有全文可用性的论文上的元数据。
注释的文本数据
- SPL-ADR-200DB-纸 - 一个含有标准信息的试点数据集,文本中发生的出现注释,约有200名FDA批准药物的约5,000个已知不良反应。
- 生物保存1-纸-15,000个句子(10,000次培训和5,000次测试)注释了蛋白质和基因名称。 1,000个全文生物医学研究文章,注释了蛋白质名称和基因本体论术语。
- 生物证券2-纸-15,000句(10,000次培训和5,000次测试,与第一个语料库不同),以注释蛋白质和基因名称。 542摘要链接到肠结构标识符。针对蛋白质 - 蛋白质相互作用的特征所注释的各种研究文章。
- Biocreative V CDR任务语料库(BC5CDR) - 纸 - 2014年或更高版本发表的1,500篇文章(标题和摘要),注释了4,409种化学药品,5,818种疾病和3116个化学 - 疾病相互作用。需要注册。
- Biocreative VI Chemprot语料库 - 纸 - > 2,400篇文章,以各种关系类型的化学蛋白质相互作用注释。需要注册。
- 手工艺品 - 纸 - 67个全文生物医学文章以各种方式注释,包括概念和核心。现在在版本5上,包括将概念与蒙多病本体论联系起来的注释。
- N2C2(以前是I2B2)数据 - 哈佛医学院的生物医学信息学(DBMI)管理国家NLP临床挑战的数据,以及自2006年以来生物学和床头挑战的信息学。它们需要在访问和使用之前进行注册。数据集包括各种主题。请参阅各个描述的数据挑战列表。
- NCBI疾病语料库 - 纸 - 一个793个生物医学摘要的语料库,带有疾病的名称以及来自网状和OMIM的相关概念的名称。
- PubTator Central数据集 - 纸 - 可通过Restful API或FTP下载访问。包括> 2900万个摘要和约300万本全文文档的注释。
- 单词感官歧义(WSD) - 纸 - 203个模棱两可的单词和37,888自动提取了它们在生物医学研究出版物中使用的实例。需要UTS帐户。
- 临床问题收集 - 也称为CQC或爱荷华州的收藏,这是医生在办公室访问期间提出的几千个问题以及相关的答案。
- Bionlp ST 2013数据集 - 来自六个共享任务的数据,尽管有些可能不容易访问;尝试CG任务集(BIONLP2013CG)进行广泛的实体和事件注释。
- Bioscope-纸 - 医学和生物文件的句子语料库,以否定,投机和语言范围注释。
- Biored -Paper-一组> 6.5K的生物医学关系注释,以及用于新发现的标签。
蛋白质 - 蛋白质相互作用注释语料库
蛋白质 - 蛋白质相互作用缩写为PPI。以下组以Bioc格式提供。较旧的套件(Aimed,Bioinfer,HPRD50,IEPA和LLL)提供由WBI Corpora存储库提供的,最初是由Turku University的一组原始集合得出的。
- 瞄准 - 纸-225用于PPI注释的MEDLINE摘要。
- Bioc -Biogroid-纸 - 120个针对PPI和遗传相互作用的全文文章。用于生物公约V BIOC任务。
- 生物学 - 纸 - 生物医学研究摘要的1,100句摘要(包括PPI),命名实体和句法依赖性。其他信息和下载链接在这里。
- HPRD50-纸-50个由人类蛋白参考数据库引用的科学摘要,用于PPI。
- IEPA-纸-486个来自生物医学研究摘要的句子,该摘要对成对的同时发生化学物质,包括蛋白质(因此,PPI注释)。
- LLL-纸-77个有关枯草芽孢杆菌的研究文章的句子,用于蛋白质 - 葡萄构相互作用的注释(因此,相当接近PPI注释)。其他信息在这里。
其他数据集
- 哥伦比亚开放健康数据 - 纸 - 从电子健康记录中提取的条件,药物,程序和患者人口统计的患病率和同时出现频率的数据库。不包括原始记录文本。
- 比较毒物学数据库 - 纸 - 化学物质,基因产物,表型,疾病和环境暴露之间手动策划关联的数据库。有助于组装相关概念的本体论,例如化学物质类型。
- MIMIC -III-纸质 - 来自约60,000个重症监护病房的识别健康数据。需要完成在线培训课程(花旗培训),并在使用前接受数据使用协议。
- Mimic-CXR-模拟胸部X射线数据库。包含超过377,000张射线照相图像和随附的自由文本放射学报告。与Mimic-III一样,需要接受数据使用协议。
- UMLS知识来源 - 参考手册 - 生物医学术语和标识符以及随附的工具和脚本的大量收集。根据您的目的,单个文件MRCONSO.RRF可能足够,因为该文件包含UMLS Metathesaurus中所有概念的唯一标识符和名称。另请参见下面的本体和受控词汇部分。
- MIMIC-IV-对Mimic-III的多模式患者数据的更新,现在涵盖了近年来的入学,以及新的数据结构,急诊部门记录以及符合模拟CXR图像的链接。
- EICU协作研究数据库 - 论文 - 来自超过20万个重症监护病房的观察数据库,具有一致的结构。需要注册,培训课程完成和数据使用协议。
回到顶部
本体和受控词汇
- 疾病本体论 - 纸 - 人类疾病的本体论。具有与网格,ICD,NCI词库,snomed和Omim的交联。公共领域。在Github和Obo Foundry上可用。
- rxnorm-纸张 - 临床药物和药物包的归一化名称,具有组合成分,优势和形式,并从语义网络中分配了类型(请参见下文)。每月发布。
- 专业词典 - 纸 - 一般英语词典,其中包括许多生物医学术语。自1994年以来每年更新,但仍在2019年更新。UMLS的一部分,但不需要UTS帐户才能下载。
- UMLS Metathesaurus-纸 - 构图> 380万个概念,1400万个概念名称以及> 200个生物医学词汇和标识符来源。很大。使用Metamorphosys安装工具准备了Metathesaurus的子集,但我们仍在谈论2019年版本所需的约30 GB磁盘空间。在这里查看手册。需要UTS帐户。
- UMLS语义网络 - 纸 - 133种语义类型和54个语义关系的列表涵盖了生物医学概念和词汇。 Metathesaurus是否满足您的需求?尝试一下。不需要UTS帐户即可下载。
回到顶部
数据模型
您需要数据模型吗?如果您正在使用生物医学数据,那么答案可能是“是”。
- Biolink-代码 - 生物实体的数据模型。作为yaml文件提供。
- Biouml-纸 - 生物医学数据分析,集成和可视化的体系结构。从概念上讲,基于视觉建模语言UML。
- OMOP通用数据模型 - 观察性医疗保健数据的标准。
回到顶部
学分
策展人和来源的学分。
执照
执照