
구조화되지 않은 생체 의학 데이터 및 텍스트에서 정보를 추출하는 방법.
Bioie는 무엇입니까? 여기에는 구조화되지 않은 (또는 적어도 일관되지 않은) 생물학적, 임상 또는 기타 생물 의학 데이터에서 구조화 된 정보를 추출하려는 노력이 포함됩니다. 데이터 소스는 종종 기술 언어로 작성된 일부 텍스트 문서 모음입니다. 결과 정보가 검증 가능하고 소스에서 일관된 경우 지식을 고려할 수 있습니다. 바이오 데이터에서 정보를 추출하고 지식을 생성하려면 다른 유형의 구조화되지 않은 데이터에 대해 개발 된 방법에 대한 적응이 필요합니다.
Bioie는 Bert와 같은 언어 모델을 도입 한 이후 큰 변화를 겪었습니다.
여기에 포함 된 리소스는 금전적 비용 및 제한된 라이센스 요구 사항으로 이용 가능한 리소스입니다. 방법과 데이터 세트는 공개적으로 액세스 할 수 있고 적극적으로 유지해야합니다.
Awesome-NLP, Awesome Biology 및 Awesome Bioinformatics도 참조하십시오.
기부하기 전에 기여 가이드 라인을 읽으십시오. 풀 요청을 제기하여 좋아하는 리소스를 추가하십시오.
내용물
- 연구 개요
- 현장에서 활동하는 그룹
- 조직
- 저널 및 이벤트
- 튜토리얼
- 코드 라이브러리
- 도구, 플랫폼 및 서비스
- 기술과 모델
- 데이터 세트
- 생의학 텍스트 출처
- 주석이 달린 텍스트 데이터
- 단백질-단백질 상호 작용 주석이 달린 Corpora
- 다른 데이터 세트
- 온톨로지 및 통제 어휘
- 데이터 모델
- 크레딧
연구 개요
생물 의학 IE의 LLM
- 의료의 대형 언어 모델 : 포괄적 인 벤치 마크 - 의료 언어 작업에 적용되는 16 개의 다른 LLM에 대한 통계 및 인간 평가.
- 대형 언어 모델의 연구 환경 및 임상 적 유용성 평가 : 범위 검토 - 2024 년 3 월 현재 의학의 LLM 응용 프로그램에 대한 높은 수준의 검토.
- 의학에서 큰 언어 모델의 윤리 및 규제 문제 - 생물 의학에서 LLM의 적용으로 인해 발생하는 윤리적 문제에 대한 검토.
- 확률 앵무새의 위험에 대해 : 언어 모델이 너무 커질 수 있습니까? ? - 언어 모델의 역할, 응용 프로그램 및 위험에 관한 자주 참조되지만 여전히 관련된 작업.
Pre-LLM 개요
- 클라우드에 대한 생물 의학 정보학 : 심혈관 의학 발전을위한 보물 사냥 - 생물 및 생물 정보학 워크 플로우가 심혈관 건강 및 의학 연구의 질문에 어떻게 적용될 수 있는지에 대한 개요.
- 임상 정보 추출 응용 프로그램 : 문헌 검토 - 2016 년 9 월 현재 발표 된 임상 IE 논문의 검토. Mayo Clinic Group (아래 참조).
- 문헌 기반 발견 : 모델, 방법 및 트렌드 - 문헌 기반 발견 (LBD) 또는 관련없는 과학 문헌 사이에서 의미있는 연결이 발견 될 수 있다는 철학.
- LBD에 대한 역사적 맥락은 시카고 대학교의 Don Swanson과 Neil Smalheiser의 논문을 참조 하십시오 .
- Mining Electronic Health Records (EHRS) : 설문 조사 - 부작용 감지를 위해 사용을 포함하여 전자 건강 기록을 채굴하는 방법과 철학을 검토합니다. 2017 년 중반 기준 관련 논문 목록은 표 2를 참조하십시오.
- 환자의 관점 캡처 : 건강 관련 텍스트의 자연 언어 처리의 발전 검토 - 건강 기록 및 소셜 미디어 텍스트의 정보 추출에 적용되는 자연 언어 처리 방법에 대한 2017 년 검토. 이 검토의 중요한 참고 사항 : "이 분야의 주요 과제 중 하나는 공유 할 수 있고 커뮤니티에서 사용할 수있는 데이터의 가용성이며 비교할 수 있고 재현 가능한 연구를 기반으로 방법의 개발을 추진하는 것입니다."
위로 돌아갑니다
현장에서 활동하는 그룹
- Boston Children 's Hospital Natural Language Processing Laboratory -Guergana Savova 박사가 이끄는 Mayo Clinic 및 Apache Ctakes Project.
- Brown Center for Biomedical Informatics- Brown University에 본사를두고 있으며 Neil Sarkar 박사가 감독 한 연구 그룹은 임상 NLP 및 IE의 주제에 관한 연구 그룹입니다.
- 덴버 콜로라도 대학교 (University of Colorado)에 본사를 둔 Computational Pharmacology Center NLP Group은 Larry Hunter가 이끄는 Github Repos를 참조하십시오.
- 미국 국립 보건원 (NIH) / 국립 의학 도서관 (NLM)의 그룹 :
- NLM의 Demner-Fushman 그룹
- NCBI의 Bionlp Group- Zhiyong Lu 박사가 이끄는 생의학 문헌 검색 및 큐 레이션 (예 : PubMed)의 개선을 개발합니다.
- Jensenlab- 덴마크 코펜하겐 대학교에서 Novo Nordisk 재단 단백질 연구 센터에 본사를 둔
- Nactem (National Center for Text Mining) - 맨체스터 대학교에 본사를두고 있으며 Sophia Ananiadou 교수가 이끄는 Nactem은 일반적으로 텍스트 마이닝에 관심이 있지만 생물 의학 응용에 특히 중점을두고 있습니다.
- Mayo Clinic의 임상 자연 언어 처리 프로그램 - Mayo Clinic의 여러 그룹은 지난 20 년 동안 Bioie (예 : Apache Ctakes 플랫폼)에 큰 기여를했습니다.
- Monarch Initiative- 오레곤 주립 대학교, 오레곤 보건 및 과학 대학교, 로렌스 버클리 국립 실험실, 잭슨 연구소 등의 그룹 간의 공동 노력으로, 시맨틱을 사용하여 생물학적 정보를 통합하여 새로운 방식으로 제시하여 표현형을 활용하여 지식 격차를 해소합니다.
- Turkunlp- Turku University에 본사를 둔 Bionlp 및 임상 적용에 중점을 둔 NLP와 관련이 있습니다.
- Uthealth Houston Biomedical Natural Language Processing Lab -Hua Xu 박사가 이끄는 휴스턴의 텍사스 대학교 건강 과학 센터에 본사를두고 있습니다.
- VCU Natural Language Processing Lab -Virginia Commonwealth University에 본사를 둔 Bridget McInnes 박사가 이끄는.
- ZAKLAB- 하버드 의과 대학 생물 의학 정보학과의 Isaac Kohane 박사가 이끄는 그룹 (Kohane 박사는 N2C2 (이전 I2B2) 데이터 세트의 청지기이기도합니다. 아래 데이터 세트 참조).
- Columbia University Biomedical Informatics 부서 - Drs가 이끄는. George Hripcsak와 Noémie Elhadad.
위로 돌아갑니다
조직
- Amia- 많은 사람들은 생명 의학 정보학을 연구하는 개체가 미국 의료 정보학 협회의 회원입니다. Amia는 JAMIA를 게시합니다 (아래 참조).
- IMIA- 국제 의료 정보학 협회. 의료 정보학의 IMIA 연감을 게시합니다.
위로 돌아갑니다
저널 및 이벤트
Bioie의 학제 간 특성은이 공간의 연구원들이 그들의 발견과 도구를 다양한 방식으로 공유 할 수 있음을 의미합니다. 생물 의학 및 생명 과학에서 흔히 볼 수 있듯이 저널에 논문을 게시 할 수 있습니다. 그들은 컨퍼런스 서류를 출판 할 수 있으며, 수락되면 행사에서 포스터 및/또는 구두 프레젠테이션을 제공 할 수 있습니다. 이것은 컴퓨터 과학 및 엔지니어링 분야에서 일반적인 관행입니다. 회의 논문은 종종 절차 컬렉션에 출판됩니다. Preprint Publication은 점점 인기 있고 제도적으로 수용되는 결과를 게시하는 방법입니다. 이러한 공식적인 서면 제품을 둘러싼 개방형 과학, 공개 데이터 및 오픈 소스의 아이디어는 코드, 데이터 및 소프트웨어 Bioie 연구자가 개발 한 소스가 커뮤니티에 귀중한 리소스입니다.
저널
프리 프린트의 경우 Arxiv, 특히 주제 계산 및 언어 (Cs.Cl) 및 정보 검색 (Cs.ir)을 사용해보십시오. biorxiv; 또는 MEDRXIV, 특히 건강 정보학 주제 영역.
- 데이터베이스 - 자막은 "생물학적 데이터베이스 및 큐 레이션 저널"입니다. 오픈 액세스.
- NAR- 핵산 연구. 광범위한 생체 분자 초점은 있지만 특히 연간 데이터베이스 문제에 유명합니다.
- JAMIA- 미국 의학 정보학 협회 저널. "임상 치료, 임상 연구, 번역 과학, 구현 과학, 이미징, 교육, 소비자 건강, 공중 보건 및 정책 분야의 기사".
- JBI- 생물 의학 정보 저널. 기본적으로 오픈 액세스가 아니지만 공개 액세스 "X"버전이 있습니다.
- 과학 데이터 - 공개 액세스 스프링거 자연 저널 출판 "과학적으로 귀중한 데이터 세트에 대한 설명과 과학 데이터의 공유 및 재사용을 발전시키는 연구".
회의 및 기타 행사
- ACM -BCB- 생물 정보학, 계산 생물학 및 건강 정보학에 관한 ACM 회의. 2010 년부터 매년 개최됩니다.
- BIBM- 생물 정보학 및 생물 의학에 관한 IEEE 국제 회의.
- ISMB- 분자 생물학을위한 지능형 시스템에 관한 국제 회의는 1993 년부터 국제 전산 생물학 협회 (International Society for Computational Biology)가 주최하는 연례 컨퍼런스입니다. 그 중 대부분의 초점은 명시 적 임상 중심없이 생물 정보학 및 전산 생물학에 관한 것입니다. 이 회의는 회의가 홀수 기간 동안 유럽 전산 생물학 (ECCB) 회의와 결합되어 있습니다.
- PSB- 바이오 컴퓨팅에 관한 태평양 심포지엄.
도전
Bioie의 일부 이벤트는 데이터 세트가 주어지면 그룹이 자체 계산 솔루션을 개발하는 공식적인 작업 및 과제를 중심으로 구성됩니다.
- BioASQ- 생의학적 의미 론적 인덱싱 및 질문 답변에 대한 도전. 2013 년부터 매년 개최되는 도전과 워크샵.
- Biocreative Workshop-이 워크샵은 2004 년부터 조직되었으며 2017 년 2 월 Biocreative VI와 2018 년에 개최 된 Biocreative/OHNLP 챌린지는 아래 데이터 세트를 참조하십시오.
- Semeval Workshop- 계산 시맨틱 분석의 작업 및 평가. 과제는 연도에 따라 다르지만 과학 및/또는 생물 의학 언어 (예 : Semeval-2019 과제 12 과학 논문의 위조 결의안에 대한 과학 및/또는 생물 의학 언어를 자주 다루고 있습니다.
- eHealth -KD- "스페인어로 작성된 eHealth 문서에서 다양한 지식을 자동으로 추출하기위한 소프트웨어 기술 개발"을 장려하기위한 도전. 스페인어의 시맨틱 분석을위한 연례 워크숍 인 Tass의 일부로 이전에 개최되었습니다.
- EHR DREAM Challenge- 다른 몇 가지 생물 정보학 중심의 도전과 함께이 도전은 2019 년 10 월에 문을 열었으며 전자 건강 기록 데이터를 사용하여 환자 사망률을 예측하는 데 중점을 둡니다. 실제 EHR 내용이 아닌 합성 데이터 세트를 사용합니다.
위로 돌아갑니다
튜토리얼
몇 년이 지난 튜토리얼에 중요한 세부 사항이 누락 될 정도로이 분야는 빠르게 변경됩니다. 최근 몇 가지 최근 교육 자료가 아래에 나열되어 있습니다. 텍스트 마이닝 기술에 대한 좋은 기본 이해는 파이썬 및 또는 R 언어에 대한 기본 경험과 마찬가지로 매우 유용합니다. 최선의 선택은 행동함으로써 배우는 것입니다.
LLM 안내서
TBD-이 공간을보십시오!
Pre-LLM 가이드, 강의 및 과정
- 텍스트 마이닝 시작 - Cohen과 Hunter의 바이오 텍스트 채굴에 대한 간략한 소개. 10 세 이상이지만 여전히 관련이 있습니다. 같은 저자의 이전 논문도 참조하십시오.
- 생물 의학 문헌 마이닝 - 2014 년부터 분자 생물학의 (비가없는) 방법의 양의 양은 텍스트 마이닝의 입문 원리, 생물학적 과학 응용 및 임상 또는 의료 안전 시나리오에서의 사용 가능성을 다룹니다.
- Coursera- 비 구조화 의료 데이터의 기초 - 텍스트 및 이미지 데이터를 포함한 다양한 유형 및 구조의 의료 데이터 작업에 대한 약 3 시간 분량의 비디오 강의. 상당히 높은 수준으로 보이며 초보자를위한 것입니다.
- Jensenlab 텍스트 마이닝 연습
- VIB 텍스트 마이닝 및 큐 레이션 교육 -이 교육 워크숍은 2013 년에 발생하지만 슬라이드는 여전히 온라인 상태입니다.
위로 돌아갑니다
코드 라이브러리
- Biopython- 종이 - 코드 - 주로 생물 정보학 및 계산 분자 생물학 목적을위한 파이썬 도구뿐만 아니라 PubMed의 문서/초록을 포함한 데이터를 얻는 편리한 방법 (문서의 9 장 참조).
- 바이오 스코어 - 종이 - 생물 의학적 혼합 해상도를위한 프레임 워크.
- Medacy- 예측 의료 자연어 처리 모델을 구축하기위한 시스템. 스파크 프레임 워크를 기반으로합니다.
- Scispacy- 논문 - 과학 및 생물 의학 문서를위한 스파크 프레임 워크의 버전.
- Rentrez -R PubMed를 포함한 NCBI 자원에 액세스하기위한 유틸리티.
- MED7- 용지 - 코드 - 약물 관련 개념으로 NER을 수행하기위한 파이썬 패키지 및 모델 (스파크와 함께 사용).
특정 데이터 세트에 대한 저장소
- MIMIC-CODE- MIMIC-III 데이터 세트와 관련된 코드 (아래 참조). 유용한 튜토리얼이 포함되어 있습니다.
위로 돌아갑니다
도구, 플랫폼 및 서비스
- Ctakes- 종이 - 코드 - 전자 의료 기록에서 텍스트를 처리하는 시스템. 널리 사용되고 오픈 소스.
- 클램프 - 종이 - 임상 보고서의 텍스트와 함께 사용하기위한 자연어 처리 툴킷. 라이브 데모를 먼저 확인하여 그것이 무엇을하는지 확인하십시오. 학업 연구 비용없이 사용할 수 있습니다.
- Deepphe- 암 발표를 설명하는 문서를 처리하는 시스템. Ctakes를 기반으로합니다 (위 참조).
- DNORM- 논문 - 질병 정규화 방법, 즉 질병 이름 및 약어를 고유 한 개념 식별자와 연결하는 방법. 다운로드 가능한 버전에는 NCBI 질병 코퍼스 및 BC5CDR이 포함됩니다 (아래 주석이 달린 텍스트 데이터 참조).
- PubTator Central- 종이 - PubMed 기사와 PubMed Central 전체 텍스트에서 5 가지 유형의 생물 의학 개념을 식별하는 웹 플랫폼. 전체 주석 세트는 다운로드 할 수 있습니다 (아래 주석이 달린 텍스트 데이터 참조).
- Pubrunner- PubMed의 최신 문서 세트에서 텍스트 마이닝 도구를 실행하기위한 프레임 워크.
- SEMEHR- 종이 - 전자 건강 기록 (EHR)을위한 IE 인프라. Cogstack 프로젝트에 구축되었습니다.
- Taggerone- 종이 - 개념 정규화를 수행합니다 (위의 dnorm 참조). 특정 개념 유형에 대해 교육을받을 수 있으며 다른 정규화 기능과 무관하게 수행 할 수 있습니다.
- Tabinout- 종이 - 문헌의 표에서 IE를위한 프레임 워크.
주석 도구
- Anafora- 종이 - 판결 및 진행 추적 기능이있는 주석 도구.
- BRAT- 종이 - 코드 - Brat Rapid Annotation Tool. 브라우저를 통해 시각적으로 텍스트 주석 생성을 지원합니다. 주제에 따라 다릅니다. 많은 주석 프로젝트에 적합합니다. 시각화는 STAV 도구의 시각화를 기반으로합니다.
- Medtator- 종이 - 코드 - 최소한 의존성을 갖도록 설계된 주석 도구.
위로 돌아갑니다
기술과 모델
큰 언어 모델
TBD-이 공간을보십시오!
버트 모델
- Biobert- 종이 - 코드 - Bert Language 모델의 PubMed 및 PubMed 중앙 훈련 버전.
- Clinicalbert- 임상 텍스트로 훈련 된 두 가지 언어 모델은 비슷한 이름을 가지고 있습니다. 둘 다 MIMIC-III 데이터 세트의 임상 음표 텍스트에 대해 훈련 된 BERT 모델입니다.
- Alsentzer et al Clinical Bert- 종이
- Huang et al Clinicalbert- 종이
- Scibert- 종이 - Semantic Scholar 데이터베이스에서 1m 논문을 훈련 한 버트 모델.
- Bluebert -Paper- PubMed 텍스트 및 Mimic -III 노트에서 미리 훈련 된 버트 모델.
- PubMedbert -Paper- PubMed에서 처음부터 훈련 된 버트 모델, 초록+전체 텍스트 및 초록만으로 교육을받은 버전.
GPT-2 모델
- Biogpt- 종이-여러 생의학 작업을위한 미세 조정 된 버전과 함께 1,500 만 개의 PubMed 초록에 미리 훈련 된 GPT-2 모델.
다른 모델
- PubMed의 Flair Embedding- Flair Framework 및 Embedding Method를 통해 이용할 수있는 언어 모델. 2015 년까지 PubMed 초록의 5% 이상의 훈련 또는 총 120 만 건의 초록.
텍스트 임베딩
- Mayo Clinic의 Hongfang Liu Group 의이 논문은 생의학 또는 임상 텍스트에 대해 훈련 된 텍스트 임베드가 생의학 자연 언어 처리 작업에서 항상 더 잘 수행 할 수있는 방법을 보여줍니다. 즉, 미리 훈련 된 임베딩은 특히 훈련 도메인-특이 적 임베딩이 계산 집약적 일 수 있으므로 귀하의 요구에 적합 할 수 있습니다.
- BioAsqword2Vec -Paper -Quord Embeddings는 인기있는 Word2Vec 도구를 사용하여 생의학 텍스트 (> 1 천만 PubMed Abstracts)에서 파생됩니다.
- BiowordVec- 종이 - 코드 - 메시를 기반으로 한 서브 워드 임베딩 모델을 포함하여 생물 의학 텍스트 (> 27 백만 PubMed 제목 및 초록)에서 파생 된 단어 임베딩.
위로 돌아갑니다
데이터 세트
아래에 나열된 일부 데이터 세트에는 UTS (UMLS Terminology Services) 계정이 필요합니다. UTS 계정에 부여 된 라이센스는 사용자가 UMLS 자원 사용에 대한 연례 보고서를 제출해야합니다. 이것은 소리보다 덜 도전적입니다.
생의학 텍스트 출처
다음 자료에는 생물 의학 과학에 인덱스 된 텍스트 문서가 포함되어 있습니다.
- OHSUMED- 종이 -348,566 1987 년에서 1991 년 사이의 Medline 항목 (제목 및 때로는 초록). 메쉬 레이블이 포함되어 있습니다. 주로 역사적 중요성.
- PubMed Central Open Access Subset- 전통적인 저작권 이외의 라이센스 하에서 사용할 수있는 PubMed Central 기사 세트는 출판 및 출처에 따라 다릅니다. 기사는 PDF 및 XML로 제공됩니다.
- CORD-19- COVID-19에 관한 학술 원고의 코퍼스. 기사는 주로 PubMed Central 및 Preprint Server에서 이루어 지지만 세트에는 전체 텍스트 가용성이없는 종이의 메타 데이터도 포함됩니다.
주석이 달린 텍스트 데이터
- SPL-ADR-200dB- 용지-표준화 된 정보를 포함하는 파일럿 데이터 세트 및 텍스트에 발생하는 주석, 200 개의 FDA 승인 약물에 대한 약 5,000 개의 알려진 부작용.
- Biocreative 1- 종이 - 단백질 및 유전자 이름에 대해 15,000 문장 (10,000 개의 훈련 및 5,000 테스트)에 주석이 달린다. 단백질 이름과 유전자 온톨로지 용어로 주석을 달은 1,000 개의 전문 생물 의학 연구 기사.
- Biocreative 2- 종이 - 단백질 및 유전자 이름에 대해 주석이 달린 15,000 문장 (10,000 개의 훈련 및 5,000 개의 테스트). 542 초록은 Entrezgene 식별자와 연결되어 있습니다. 단백질 - 단백질 상호 작용의 특징에 대해 주석이 달린 다양한 연구 기사.
- Biocreative v CDR Task Corpus (BC5CDR) - 논문 - 2014 년 이후에 출판 된 1,500 개의 기사 (제목 및 초록) 4,409 개의 화학 물질, 5,818 개의 질병 및 3116 화학 물질 상호 작용에 주석이 달린다. 등록이 필요합니다.
- Biocreative VI Chemprot Corpus- 종이 -> 2,400 개의 논문은 다양한 관계 유형의 화학 - 단백질 상호 작용으로 주석이 달린 기사. 등록이 필요합니다.
- Craft -Paper -67 개념 및 핵심을 포함하여 다양한 방식으로 주석이 달린 전체 텍스트 생물 의학 기사. 이제 몬도 질병 온톨로지에 개념을 연결하는 주석을 포함하여 버전 5에서.
- N2C2 (이전의 I2B2) 데이터 - 하버드 의과 대학의 생물 의학 정보학과 (DBMI)는 2006 년 이래로 생물학을 통합하기위한 국가 NLP 임상 과제 및 정보를 통합하기위한 정보와 접근 및 사용 전에 등록이 필요합니다. 데이터 세트에는 다양한 주제가 포함됩니다. 개별 설명에 대한 데이터 문제 목록을 참조하십시오.
- NCBI Disease Corpus- 종이 - Mesh and Omim의 질병 이름과 관련 개념으로 주석이 달린 793 개의 생물 의학 초록의 코퍼스.
- Pubtator Central DataSets- 종이 - 편안한 API 또는 FTP 다운로드를 통해 액세스 할 수 있습니다. > 2,900 만 초록에 대한 주석이 포함되어 있으며 ~ 3 백만 개의 전문 문서가 포함되어 있습니다.
- WSD (Word Sense Disambiguation) - 종이 -203 모호한 단어와 37,888 개의 생체 의학 연구 간행물에서 사용되는 인스턴스를 자동으로 추출했습니다. UTS 계정이 필요합니다.
- 임상 질문 컬렉션 - CQC 또는 아이오와 컬렉션으로도 알려진 이들은 사무실 방문 중에 관련 답변과 함께 의사가 제기 한 수천 개의 질문입니다.
- BIONLP ST 2013 데이터 세트 - 6 개의 공유 작업의 데이터이지만 일부는 쉽게 액세스 할 수 없습니다. 광범위한 엔티티 및 이벤트 주석에 대해 CG 작업 세트 (BIONLP2013CG)를 사용해보십시오.
- Bioscope- 종이 - 의료 및 생물학적 문서의 문장, 부정, 추측 및 언어 적 범위를 위해 주석이 달린 문장.
- Biored- 종이 -> 6.5k 생물 의학 관계 주석 세트와 새로운 결과를위한 레이블.
단백질-단백질 상호 작용 주석이 달린 Corpora
단백질-단백질 상호 작용은 PPI로서 축약된다. 다음 세트는 BIOC 형식으로 제공됩니다. 구형 세트 (AIMED, BioInfer, HPRD50, IEPA 및 LLL)는 WBI Corpora 저장소에서 제공되며 원래 Turku University의 그룹에서 원래 세트에서 파생되었습니다.
- 목표 - 종이 -225 Medline Abstracts PPI에 주석.
- Bioc -Biogrid- 종이 -120 PPI 및 유전자 상호 작용을 위해 주석이 달린 풀 텍스트 기사. Biocreative v Bioc 작업에 사용됩니다.
- Bioinfer- 종이 - 생물 의학 연구에서 1,100 문장은 관계 (PPI 포함), 지명 된 엔티티 및 구문 의존성을 위해 주석이 달린 초록입니다. 추가 정보 및 다운로드 링크는 여기에 있습니다.
- HPRD50 -PAPER -50 인간 단백질 참조 데이터베이스에 의해 참조 된 50 개의 과학 초록, PPI에 주석이 달린다.
- IEPA -PAPER -486 개의 생물 의학 연구에서 단백질을 포함한 공동 발생 화학 물질 쌍 (따라서 PPI 주석)에 대해 주석이 달린 문장.
- LLL- 종이 -Bacillus subtilis 박테리아 Bacillus subtilis 에 관한 연구 기사에서 77 개 문장, 단백질 - 유전자 상호 작용에 주석이 달린다 (SO, PPI 주석에 상당히 가깝다). 추가 정보는 여기에 있습니다.
다른 데이터 세트
- Columbia Open Health Data- 논문 - 전자 건강 기록에서 추출한 조건, 약물, 절차 및 환자 인구 통계의 유병률 및 동시 발생 빈도 데이터베이스. 원본 레코드 텍스트는 포함되지 않습니다.
- 비교 독성 유전체학 데이터베이스 - 논문 - 화학 물질, 유전자 제품, 표현형, 질병 및 환경 노출 간의 수동으로 선별 된 연관성 데이터베이스. 화학 물질 유형과 같은 관련 개념의 온톨로지를 조립하는 데 유용합니다.
- MIMIC -III -PAPER- ~ 60,000 집중 치료실 입원에서 얻은 건강 데이터. 온라인 교육 과정 (Citi Training)을 완료하고 사용하기 전에 데이터 사용 계약 수락이 필요합니다.
- MIMIC-CXR- MIMIC 흉부 X- 레이 데이터베이스. 377,000 개가 넘는 방사선 사진 이미지와 함께 프리 텍스트 방사선과 보고서가 포함되어 있습니다. MIMIC-III과 마찬가지로 데이터 사용 계약을 수락해야합니다.
- UMLS 지식 소스 - 참조 매뉴얼 - 크고 포괄적 인 생물 의학 용어 및 식별자 모음뿐만 아니라 도구 및 스크립트와 함께 제공됩니다. 귀하의 목적에 따라, 단일 파일 MrConso.rrf는 충분할 수 있습니다.이 파일에는 UMLS Metathesaurus의 모든 개념에 대한 고유 식별자와 이름이 포함되어 있기 때문입니다. 아래 온톨로지 및 통제 어휘 섹션도 참조하십시오.
- MIMIC-IV- MIMIC-III의 멀티 모드 환자 데이터에 대한 업데이트로, 이제는 최근 몇 년간의 입학, 새로운 데이터 구조, 응급실 기록 및 MIMIC-CXR 이미지에 대한 링크를 다루고 있습니다.
- EICU Collaborative Research 데이터베이스 - 논문 - 일관된 구조를 가진 2 만 명 이상의 집중 치료실 입학의 관찰 데이터베이스. 등록, 교육 과정 완료 및 데이터 사용 계약이 필요합니다.
위로 돌아갑니다
온톨로지 및 통제 어휘
- 질병 온톨로지 - 논문 - 인간 질병의 온톨로지. 메쉬, ICD, NCI Thesaurus, Snomed 및 Omim에 가교가 있습니다. 공개 도메인. Github 및 Obo Foundry에서 제공됩니다.
- rxnorm- 종이 - 임상 약물 및 약물 팩의 정규화 된 이름, 결합 된 성분, 강도 및 형태 및 시맨틱 네트워크에서 할당 된 유형 (아래 참조). 매월 출시되었습니다.
- 전문 사전 - 종이 - 많은 생물 의학 용어를 포함하는 일반적인 영어 사전. 1994 년부터 매년 업데이트되었으며 2019 년 현재 여전히 업데이트되었지만 UMLS의 일부이지만 UTS 계정을 다운로드 할 필요는 없습니다.
- UMLS METATHESAURUS- 종이 -> 380 만 개 개념, 1,400 만 개념 이름 및> 200 개의 생체 의학 어휘 및 식별자 간의 매핑. 큽니다. 메타 모르 포스 설치 도구를 사용하여 메타 테 사우루스의 하위 집합을 준비하는 데 도움이 될 수 있지만 2019 년 릴리스에 필요한 ~ 30GB의 디스크 공간에 대해 여전히 이야기하고 있습니다. 여기서 설명서를 참조하십시오. UTS 계정이 필요합니다.
- UMLS 시맨틱 네트워크 - 종이 - 생의학 개념과 어휘를 다루는 133 개의 시맨틱 유형 및 54 개의 시맨틱 관계 목록. Metathesaurus가 귀하의 요구에 너무 복잡합니까? 이것을 시도하십시오. 다운로드하려면 UTS 계정이 필요하지 않습니다.
위로 돌아갑니다
데이터 모델
데이터 모델이 필요합니까? 생물 의학 데이터를 사용하는 경우 대답은 아마도 "예"일 것입니다.
- Biolink- 코드 - 생물학적 실체의 데이터 모델. YAML 파일로 제공됩니다.
- BiOUML- 논문 - 생의학 데이터 분석, 통합 및 시각화를위한 아키텍처. 시각적 모델링 언어 UML을 기반으로 개념적으로.
- OMOP Common Data Model- 관찰 의료 데이터의 표준.
위로 돌아갑니다
크레딧
큐레이터 및 출처를위한 크레딧.
특허
특허