
So extrahieren Sie Informationen aus unstrukturierten biomedizinischen Daten und Text.
Was ist Bioie? Es enthält alle Anstrengungen, strukturierte Informationen aus unstrukturierten (oder zumindest inkonsistent strukturierten) biologischen, klinischen oder anderen biomedizinischen Daten zu extrahieren. Die Datenquelle ist häufig eine Sammlung von Textdokumenten in der technischen Sprache. Wenn die resultierenden Informationen überquellen überprüfbar und konsistent sind, können wir das Wissen in Betracht ziehen. Das Extrahieren von Informationen und das Erstellen von Wissen aus Bio -Daten erfordert Anpassungen an Methoden, die für andere Arten von unstrukturierten Daten entwickelt wurden.
Bioie hat sich seit der Einführung von Sprachmodellen wie Bert und den kürzlich erstellten Großsprachmodellen (LLMs; z.
Hier enthaltene Ressourcen sind bevorzugte diejenigen, die ohne Geldkosten und begrenzten Lizenzanforderungen verfügbar sind. Methoden und Datensätze sollten öffentlich zugänglich und aktiv gepflegt sein.
Siehe auch Awesome-NLP, Awesome-Biology und Awesome-Bioinformatics.
Bitte lesen Sie die Beitragsrichtlinien vor, bevor Sie einen Beitrag leisten. Bitte fügen Sie Ihre Lieblingsressource hinzu, indem Sie eine Pull -Anfrage erheben.
Inhalt
- Forschungsübersichten
- Gruppen im Feld aktiv
- Organisationen
- Zeitschriften und Veranstaltungen
- Zeitschriften
- Konferenzen und andere Ereignisse
- Herausforderungen
- Tutorials
- Führer
- Videovorträge und Online -Kurse
- Code -Bibliotheken
- Repos für bestimmte Datensätze
- Tools, Plattformen und Dienste
- Techniken und Modelle
- Datensätze
- Biomedizinische Textquellen
- Annotierte Textdaten
- Protein-Protein-Interaktion kommentierte Korpora
- Andere Datensätze
- Ontologien und kontrolliertes Vokabular
- Datenmodelle
- Credits
Forschungsübersichten
Llms in biomedizinischer IE
- Großsprachige Modelle im Gesundheitswesen: Ein umfassender Benchmark - eine statistische und menschliche Bewertung von sechzehn verschiedenen LLMs, die auf Aufgaben der medizinischen Sprache angewendet werden.
- Bewertung der Forschungslandschaft und des klinischen Nutzens von Großsprachenmodellen: Ein Scoping -Überblick - eine hohe Übersicht über LLM -Anwendungen in der Medizin ab März 2024.
- Ethische und regulatorische Herausforderungen großer Sprachmodelle in der Medizin - Eine Überprüfung ethischer Fragen, die sich aus Anwendungen von LLMs in Biomedizin ergeben.
- Zu den Gefahren stochastischer Papageien: Können Sprachmodelle zu groß sein? ? - Eine häufig verwiesene, aber dennoch relevante Arbeit in Bezug auf die Rollen, Anwendungen und Risiken von Sprachmodellen.
Pre-Llm-Übersichten
- Biomedizinische Informatik in der Cloud: Eine Schatzsuche für die Förderung der kardiovaskulären Medizin - Ein Überblick darüber, wie Bioie- und Bioinformatik -Workflows auf Fragen der kardiovaskulären Gesundheit und Medizinforschung angewendet werden können.
- Anwendungen der klinischen Informationsextraktion: Eine Literaturübersicht - Eine Überprüfung klinischer IE -Artikel, die ab September 2016 veröffentlicht wurden. Aus der Mayo Clinic Group (siehe unten).
- Literaturbasierte Entdeckung: Modelle, Methoden und Trends - Eine Überprüfung der literaturbasierten Entdeckung (LBD) oder der Philosophie, dass sinnvolle Verbindungen zwischen scheinbar nicht verwandten wissenschaftlichen Literatur zu finden sind.
- Für einen historischen Kontext zu LBD finden Sie die Papiere von Don Swanson und Neil Smalheiser von University of Chicago, einschließlich unentdecktem öffentlichem Wissen (Paywalled) und der Wiederentdeckung von Don Swanson: Die Vergangenheit, Gegenwart und Zukunft der literaturbasierten Entdeckung .
- EHRS (Electronic Medical Records) für Mining: Eine Umfrage - eine Überprüfung der Methoden und der Philosophie hinter den medizinischen medizinischen Bergbaugebieten, einschließlich der Verwendung dieser für die Erkennung von Ereignissen. In Tabelle 2 finden Sie eine Liste der relevanten Artikel ab Mitte 2017.
- Erfassen der Perspektive des Patienten: Eine Überprüfung der Fortschritte bei der Verarbeitung natürlicher Sprache von gesundheitsbezogenen Text - Eine Überprüfung der Verarbeitungsmethoden für natürliche Sprachverarbeitungen, die auf die Informationsextraktion in Gesundheitsakten und sozialen Medien angewendet werden. Ein wichtiger Hinweis aus dieser Überprüfung: "Eine der Hauptherausforderungen in diesem Bereich ist die Verfügbarkeit von Daten, die gemeinsam genutzt werden können und die von der Community verwendet werden kann, um die Entwicklung von Methoden auf der Grundlage vergleichbarer und reproduzierbarer Studien voranzutreiben."
Zurück nach oben
Gruppen im Feld aktiv
- Das Boston Children's Hospital Natural Language Processing Laboratory - Leitung von Dr. Guergana Savova, früher in Mayo Clinic und dem Apache CTakes Project.
- Brown Center for Biomedical Informatics - Sitz an der Brown University und unter der Regie von Dr. Neil Sarkar, dessen Forschungsgruppe zu Themen in klinischer NLP und dh arbeitet.
- Center for Computational Pharmacology NLP Group - Sitz an der Universität von Colorado, Denver, geleitet von Larry Hunter - siehe ihre Github -Repos hier.
- Gruppen der US National Institutes of Health (NIH) / National Library of Medicine (NLM):
- Demner-Fushman-Gruppe bei NLM
- Die BionLP -Gruppe bei NCBI - entwickelt Verbesserungen an der Suche und Kuration der biomedizinischen Literatur (z. B. durch PubMed) unter der Leitung von Dr. Zhiyong Lu.
- Jensenlab - Sitz im Novo Nordisk Foundation Center für Proteinforschung an der Universität von Kopenhagen, Dänemark.
- Nationales Zentrum für Text Mining (NACTEM) - An der Universität von Manchester ansässig und unter der Leitung von Prof. Sophia Ananiadou befindet sich Nactem mit dem Textmining im Allgemeinen, hat jedoch einen besonderen Schwerpunkt auf biomedizinischen Anwendungen.
- Das klinische Verarbeitung von natürlichen Sprachen der Mayo Clinic - mehrere Gruppen der Mayo Clinic haben in den letzten 20 Jahren wichtige Beiträge zur Bioie (z. B. die Apache -CTakes -Plattform) geleistet.
- Monarch Initiative - Ein gemeinsamer Anstrengung zwischen Gruppen an der Oregon State University, der Oregon Health & Science University, Lawrence Berkeley National Lab, dem Jackson Laboratory und mehreren anderen, die "biologische Informationen mithilfe der Semantik integrieren und neu darstellen möchten, um Phänotypen zu nutzen, um die Wissenslücke zu schließen".
- Turkunlp - Sitz an der Universität von Turku und besorgt mit NLP im Allgemeinen mit Schwerpunkt auf BionLP und klinischen Anwendungen.
- Uthealth Houston Biomedical Natural Language Processing Lab - Sitz im Gesundheitswissenschaftszentrum der Universität von Texas in Houston, School of Biomedical Informatics und unter der Leitung von Dr. Hua Xu.
- VCU Natural Language Processing Lab - Sitz an der Virginia Commonwealth University und unter der Leitung von Dr. Bridget McInnes.
- ZAKLAB - Gruppe unter der Leitung von Dr. Isaac Kohane an der Abteilung für biomedizinische Informatik der Harvard Medical School (Dr. Kohane ist auch ein Verwalter der Datensätze N2C2 (ehemals I2B2) - siehe Datensätze unten).
- Abteilung für biomedizinische Informatik der Columbia University - Leitung von Dr. George Hripcsak und Noémie Elhadad.
Zurück nach oben
Organisationen
- Amia - viele - aber sicher nicht alle - Individuelle, die biomedizinische Informatik studieren, sind Mitglieder der American Medical Informatics Association. Amia veröffentlicht eine Zeitschrift, Jamia (siehe unten).
- IMIA - Die International Medical Informatics Association. Veröffentlicht das IMIA -Jahrbuch für medizinische Informatik.
Zurück nach oben
Zeitschriften und Veranstaltungen
Der interdisziplinäre Charakter von Bioie bedeutet, dass Forscher in diesem Bereich ihre Ergebnisse und Werkzeuge auf verschiedene Weise teilen können. Sie können Papiere in Zeitschriften veröffentlichen, wie es in den Biomedizinischen und Biowissenschaften üblich ist. Sie können Konferenzpapiere veröffentlichen und nach Akzeptanz ein Poster und/oder eine mündliche Präsentation bei einer Veranstaltung geben. Dies ist eine übliche Praxis in Informatik- und Ingenieurbereichen. Konferenzarbeiten werden häufig in Sammlungen von Proceedings veröffentlicht. Die Preprint-Veröffentlichung ist eine immer beliebtere und institutionell akzeptierte Methode, um die Ergebnisse zu veröffentlichen. In Bezug auf diese formalen, schriftlichen Produkte sind die Ideen offener Wissenschaft, offener Daten und Open Source: Die Entwicklung von Code, Daten und Software -Forschern sind wertvolle Ressourcen für die Community.
Zeitschriften
Versuchen Sie für Vorbereitungen Arxiv, insbesondere die Berechnung und Sprache (Cs.Cl) und das Abrufen von Informationen (cs.ir); Biorxiv; oder Medrxiv, insbesondere der Fachbereich für Gesundheitsinformatik.
- Datenbank - Der Untertitel ist "das Journal of Biological Databases and Curation". Open Access.
- NAR -Nukleinsäuren Forschung. Hat einen breiten biomolekularen Fokus, ist aber besonders bemerkenswert für das jährliche Datenbankproblem.
- JAMIA - Das Journal der American Medical Informatics Association. Bedenken "Artikel in den Bereichen klinische Versorgung, klinische Forschung, Translationale Wissenschaft, Implementierungswissenschaft, Bildgebung, Bildung, Gesundheit der Verbraucher, öffentliche Gesundheit und Politik".
- JBI - Das Journal of Biomedical Informatics. Standardmäßig nicht öffnen, obwohl es eine "X" -Version mit offenem Zugriff gibt.
- Wissenschaftliche Daten - Ein Open -Access Springer Natural Journal Publishing "Beschreibungen wissenschaftlich wertvoller Datensätze und Forschung, die die Freigabe und Wiederverwendung wissenschaftlicher Daten vorantreiben".
Konferenzen und andere Ereignisse
- ACM -BCB - Die ACM -Konferenz über Bioinformatik, Computerbiologie und Gesundheitsinformatik. Seit 2010 jährlich abgehalten.
- BIBM - Die IEEE Internationale Konferenz über Bioinformatik und Biomedizin.
- ISMB - Die internationale Konferenz über intelligente Systeme für die Molekularbiologie ist eine jährliche Konferenz, die seit 1993 von der International Society for Computational Biology veranstaltet wird. Ein Großteil ihres Fokus befasste sich mit Bioinformatik und Computerbiologie ohne explizites klinisches Fokus, obwohl es eine zunehmende Menge an Textabbau -Inhalten (z. B. das Treffen von 2019) umfasst. Das Treffen wird mit dem der Europäischen Konferenz über Computerbiologie (ECCB) über ungerade Jahre kombiniert.
- PSB - Das pazifische Symposium zum Biokomputieren.
Herausforderungen
Einige Veranstaltungen in Bioie sind in Bezug auf formelle Aufgaben und Herausforderungen organisiert, bei denen Gruppen angesichts eines Datensatzes ihre eigenen Rechenlösungen entwickeln.
- Bioasq - Herausforderungen bei der biomedizinischen semantischen Indexierung und Fragenbeantwortung. Herausforderungen und Workshops, die seit 2013 jährlich stattfinden.
- BIOCRITIVE WORKSHOP - Diese Workshops werden seit 2004 organisiert, wobei der Biokreativ -VI im Februar 2017 und die biokreative/OHNLP -Herausforderung im Jahr 2018 stattfindet. Siehe Datensätze unten.
- SEMEVAL Workshop - Aufgaben und Bewertungen in der semantischen Rechenanalyse. Die Aufgaben variieren je nach Jahr, decken jedoch häufig die wissenschaftliche und/oder biomedizinische Sprache ab, z. B. die Semeval-2019-Aufgabe 12 zur Toponymauflösung in wissenschaftlichen Arbeiten.
- EHealth -KD - Herausforderungen für die Förderung der „Entwicklung von Softwaretechnologien, um automatisch eine Vielzahl von Wissen aus eHealth -Dokumenten in spanischer Sprache zu extrahieren“. Zuvor im Rahmen von Tass, einem jährlichen Workshop für semantische Analysen auf Spanisch.
- EHR Dream Challenge - Diese Herausforderung wurde zusammen mit mehreren weiteren Bioinformatik -Herausforderungen im Oktober 2019 eröffnet und konzentriert sich auf die Verwendung elektronischer Gesundheitsdaten zur Vorhersage der Patientensterblichkeit. Verwendet eher einen synthetischen Datensatz als einen realen EHR -Inhalt.
Zurück nach oben
Tutorials
Das Feld ändert sich schnell so stark, dass Tutorials älter als ein paar Jahre entscheidende Details fehlen. Einige neuere Bildungsressourcen sind unten aufgeführt. Ein gutes grundlegendes Verständnis der Textmining -Techniken ist sehr hilfreich, ebenso wie einige grundlegende Erfahrung mit den Sprachen von Python und oder R. Die beste Option kann sein, durch das zu lernen.
LLM Guides
TBD - Sehen Sie sich diesen Raum an!
Vorlagen, Vorträge und Kurse
- Erste Schritte in Text Mining - Eine kurze Einführung in den Biotextabbau von Cohen und Hunter. Mehr als zehn Jahre alt, aber immer noch sehr relevant. Siehe auch ein früheres Papier derselben Autoren.
- Biomedical Literature Mining - Ein (nicht freies) Methodenvolumen in der molekularen Biologie aus dem Jahr 2014. In den Kapiteln werden Einführungsprinzipien im Textabbau, Anwendungen in den biologischen Wissenschaften und das Potenzial für die Verwendung in klinischen oder medizinischen Sicherheitsszenarien behandelt.
- Coursera - Grundlagen des Bergbaus nicht strukturierter medizinischer Daten - ungefähr drei Stunden Videovorträge zur Arbeit mit medizinischen Daten verschiedener Typen und Strukturen, einschließlich Text- und Bilddaten. Erscheint ziemlich hoch und für Anfänger.
- Jensenlab Text Mining -Übungen
- Vib Text Mining und Kurationstraining - Dieser Trainingsworkshop hat 2013 stattgefunden, aber die Folien sind noch online.
Zurück nach oben
Code -Bibliotheken
- Biopython - Papier - Code - Python -Tools, die hauptsächlich für Bioinformatik- und Berechnungsmolekularbiologiezwecke bestimmt sind, aber auch eine bequeme Möglichkeit, Daten zu erhalten, einschließlich Dokumente/Abstracts aus PubMed (siehe Kapitel 9 der Dokumentation).
- Bio -Scores - Papier - Ein Rahmen für die Auflösung der biomedizinischen Koreferenz.
- Medacy - Ein System zum Aufbau von Vorhersagemodellen für medizinische natürliche Sprachverarbeitungsmodelle. Auf dem Spacy -Framework aufgebaut.
- Skispacy - Papier - Eine Version des Spacy -Frameworks für wissenschaftliche und biomedizinische Dokumente.
- Rentrez - Ruption für den Zugriff auf NCBI -Ressourcen, einschließlich PubMed.
- MED7 - Papier - Code - Ein Python -Paket und Modell (zur Verwendung mit Spacy) für NER mit Medikamentenkonzepten.
Repos für bestimmte Datensätze
- MIMIC-CODE-Code, der dem Mimic-III-Datensatz zugeordnet ist (siehe unten). Enthält einige hilfreiche Tutorials.
Zurück nach oben
Tools, Plattformen und Dienste
- CTAKS - Papier - Code - Ein System zur Verarbeitung des Textes in elektronischen medizinischen Unterlagen. Weit verbreitete und Open Source.
- CLAMP - Papier - Ein Toolkit für natürliche Sprachverarbeitung, das für die Verwendung mit dem Text in klinischen Berichten vorgesehen ist. Schauen Sie sich zuerst ihre Live -Demo an, um zu sehen, was es tut. Nutzbar kostenlos für die akademische Forschung.
- Deepphe - Ein System zur Verarbeitung von Dokumenten zur Beschreibung von Krebspräsentationen. Basierend auf CTakes (siehe oben).
- DNORM - Papier - Eine Methode zur Normalisierung von Krankheiten, dh die Erwähnung von Krankheitsnamen und Akronymen mit einzigartigen Konzeptidentifikatoren. Die herunterladbare Version enthält den NCBI Disease Corpus und BC5CDR (siehe kommentierte Textdaten unten).
- PUBTATOR Central - Papier - eine Webplattform, die fünf verschiedene Arten von biomedizinischen Konzepten in PubMed -Artikeln und PubMed Central Volltexten identifiziert. Die vollständigen Annotationssätze können heruntergeladen werden (siehe kommentierte Textdaten unten).
- BUBRUNNER - Ein Framework zum Ausführen von Textmining -Tools auf den neuesten Sets von Dokumenten aus PubMed.
- Semehr - Papier - eine IE -Infrastruktur für elektronische Gesundheitsakten (EHR). Auf dem Cogstack -Projekt aufgebaut.
- Taggerone - Papier - führt die Konzeptnormalisierung durch (siehe auch DNOorm oben). Kann für bestimmte Konzepttypen geschult und NER unabhängig von anderen Normalisierungsfunktionen ausführen.
- Tabinout - Papier - Ein Framework für IE aus Tischen in der Literatur.
Annotationsinstrumente
- ANAFORA - Papier - Ein Annotationsinstrument mit Entscheidungsfunktionen und Fortschrittsfunktionen.
- Brat - Papier - Code - Das Brat Rapid Annotation Tool. Unterstützt das Erstellen von Textanmerkungen visuell über den Browser. Nicht unterhaltsam; geeignet für viele Annotationsprojekte. Die Visualisierung basiert auf dem des STAV -Tools.
- Medtator - Papier - Code - Ein Annotationstool für minimale Abhängigkeiten.
Zurück nach oben
Techniken und Modelle
Großsprachige Modelle
TBD - Sehen Sie sich diesen Raum an!
Bert -Modelle
- Biobert - Papier - Code - Eine von PubMed und PubMed Central ausgebildete Version des Bert -Sprachmodells.
- Clinicalbert - Zwei auf klinische Text geschulte Sprachmodelle haben ähnliche Namen. Beide sind Bert-Modelle, die auf dem Text klinischer Notizen aus dem Datensatz von Mimic-III ausgebildet sind.
- Alsentzer et al. Klinische Bert - Papier
- Huang et al. Clinicalbert - Papier
- Scibert - Papier - Ein Bert -Modell, das auf> 1m -Papieren aus der Semantic Scholar -Datenbank ausgebildet ist.
- Bluebert - Papier - Ein Bert -Modell, das auf PubMed Text und Mimic -III -Notizen ausgebildet ist.
- PubMedbert - Papier - Ein Bert -Modell, das auf PubMed von Grund auf neu trainiert wurde, mit Versionen auf Abstracts+Volltexte und allein auf Abstracts.
GPT-2-Modelle
- Biogpt-Papier-Ein GPT-2-Modell, das auf 15 Millionen PubMed-Abstracts vorgebracht ist, zusammen mit fein abgestimmten Versionen für mehrere biomedizinische Aufgaben.
Andere Modelle
- Flair -Einbettungen von PubMed - Ein Sprachmodell, das über das Flair -Framework und die Einbettungsmethode verfügbar ist. Bis 2015 über eine 5% ige Probe von PubMed -Abstracts ausgebildet, oder in der insgesamt 1,2 Millionen Abstracts.
Texteinbettungen
- In diesem Artikel aus der Gruppe von Hongfing Liu in der Mayo -Klinik wird gezeigt, wie Texteinbettungen, die auf biomedizinischem oder klinischem Text geschult sind, bei biomedizinischen Verarbeitungsaufgaben für biomedizinische Sprachen besser abschneiden können. Abgesehen von vorgebreiteten Einbettungen können für Ihre Bedürfnisse geeignet sein, zumal die Trainingsdomänenspezifikdings rechnerisch intensiv sein können.
- BioasqWord2VEC - Papier - Qord -Einbettungspunkte aus biomedizinischem Text (> 10 Millionen PubMed Abstracts) unter Verwendung des beliebten Word2VEC -Tools.
- BioWordVec - Papier - Code - Wort Einbettungspunkte aus biomedizinischem Text (> 27 Millionen PubMed -Titel und Abstracts), einschließlich Subword -Einbettungsmodell basierend auf Mesh.
Zurück nach oben
Datensätze
Einige der unten aufgeführten Datensätze erfordern ein UTS -Konto (UMLS Terminology Services) zum Zugriff. Bitte beachten Sie, dass die mit dem UTS -Konto erteilten Lizenz von Benutzern einen Jahresbericht über die Verwendung von UMLS -Ressourcen einreichen müssen. Dies ist weniger schwierig als es sich anhört.
Biomedizinische Textquellen
Die folgenden Ressourcen enthalten indizierte Textdokumente in den biomedizinischen Wissenschaften.
- OHSUMED - Papier - 348.566 Medline -Einträge (Titel und manchmal abstrakt) zwischen 1987 und 1991. Enthält Mesh -Etiketten. In erster Linie von historischer Bedeutung.
- PubMed Central Open Access Subset - eine Reihe von PubMed Central -Artikeln, die unter anderen Lizenzen als herkömmlichem Urheberrecht verwendet werden können, obwohl die genauen Lizenzen je nach Veröffentlichung und Quelle variieren. Artikel sind als PDF und XML erhältlich.
- Cord-19-Ein Korpus von wissenschaftlichen Manuskripten in Bezug auf Covid-19. Die Artikel stammen hauptsächlich von PubMed Central- und Preprint-Servern, aber das Set enthält auch Metadaten auf Papieren ohne Verfügbarkeit in voller Text.
Annotierte Textdaten
- SPL-ADR-200DB-Papier-Ein Pilotdatensatz mit standardisierten Informationen und Anmerkungen des Auftretens im Text, etwa ~ 5.000 bekannte nachteilige Reaktionen für 200 von FDA zugelassene Medikamente.
- Biocreative 1 - Papier - 15.000 Sätze (10.000 Schulungen und 5.000 Test) für Protein- und Gennamen. 1.000 Volltext Biomedizinische Forschungsartikel mit Proteinnamen und Gen -Ontologie -Begriffen.
- Biocreative 2 - Papier - 15.000 Sätze (10.000 Schulungen und 5.000 Tests, unterscheidet sich vom ersten Korpus), der für Protein- und Gennamen kommentiert wurde. 542 Abstracts, die mit Entrezgene -Identifikatoren verbunden sind. Eine Vielzahl von Forschungsartikeln für Merkmale von Protein -Protein -Wechselwirkungen.
- Biocreative V CDR Task Corpus (BC5CDR) - Papier - 1.500 Artikel (Titel und Zusammenfassung), veröffentlicht in den Jahren 2014 oder später, für 4.409 Chemikalien, 5.818 Krankheiten und 3116 chemische Disease -Wechselwirkungen. Erfordert Registrierung.
- Biocreative VI ChemProt Corpus - Papier -> 2.400 Artikel mit chemischen Proteinwechselwirkungen einer Vielzahl von Beziehungstypen. Erfordert Registrierung.
- Handwerk - Papier - 67 Biomedizinische Volltext -Artikel, die auf vielfältige Weise kommentiert sind, einschließlich für Konzepte und Kern. Jetzt auf Version 5, einschließlich Anmerkungen, die Konzepte mit der Mondo -Krankheit Ontology verknüpfen.
- N2C2 (ehemals I2B2) Daten - Die Abteilung für biomedizinische Informatik (DBMI) an der Harvard Medical School verwaltet Daten für die nationalen klinischen Herausforderungen der NLP und die Informatik für die Integration von Biologie und die seit 2006 ausgeführten Herausforderungen am Bett. Datensätze enthalten eine Vielzahl von Themen. Sehen Sie sich die Liste der Datenherausforderungen für einzelne Beschreibungen an.
- NCBI -Krankheit Corpus - Papier - Ein Korpus von 793 biomedizinischen Abstracts, die mit Namen von Krankheiten und verwandten Konzepten aus Mesh und Omim kommuniziert wurden.
- PUBTator Central Datasets - Papier - Zugriff über eine erholsame API oder einen FTP -Download. Enthält Anmerkungen für> 29 Millionen Abstracts und 3 Millionen Volltextdokumente.
- Word -Sense -Disambiguation (WSD) - Papier - 203 mehrdeutige Wörter und 37.888 automatisch extrahierte Fälle ihrer Verwendung in biomedizinischen Forschungsveröffentlichungen. Benötigt UTS -Konto.
- Klinische Fragen Sammlung - Auch als CQC oder die Iowa -Sammlung bekannt. Dies sind mehrere tausend Fragen, die von Ärzten während der Bürobesuche zusammen mit den damit verbundenen Antworten gestellt wurden.
- BionLP ST 2013 -Datensätze - Daten aus sechs gemeinsam genutzten Aufgaben, einige sind jedoch möglicherweise nicht leicht zugänglich. Probieren Sie den CG -Tasksatz (BionLP2013CG) für umfangreiche Entitäts- und Ereignisanmerkungen.
- Bioscope - Papier - Ein Korpus von Sätzen aus medizinischen und biologischen Dokumenten, die zur Verneinung, Spekulation und sprachlicher Umfang kommentiert werden.
- Biored - Papier - Ein Satz von> 6,5K -Annotationen für biomedizinische Beziehungen sowie Beschriftungen für neuartige Erkenntnisse.
Protein-Protein-Interaktion kommentierte Korpora
Protein-Protein-Wechselwirkungen werden als PPI abgekürzt. Die folgenden Sätze sind im BIOC -Format erhältlich. Die älteren Sets (gezielt, Bioinfer, HPRD50, IEPA und LLL) sind mit freundlicher Genehmigung des WBI Corpora Repository erhältlich und wurden ursprünglich von den ursprünglichen Sätzen einer Gruppe an der Turku University abgeleitet.
- Ziel - Papier - 225 Medline Abstracts für PPI.
- Bioc -Biogrid - Papier - 120 Volltextartikel für PPI und genetische Wechselwirkungen. Wird in der biokativen V -BIOC -Aufgabe verwendet.
- Bioinfer - Papier - 1.100 Sätze aus biomedizinischen Forschung Abstracts für Beziehungen (einschließlich PPI), benannte Entitäten und syntaktische Abhängigkeiten. Zusätzliche Informationen und Download -Links finden Sie hier.
- HPRD50 - Papier - 50 wissenschaftliche Abstracts, auf die die Datenbank der menschlichen Proteinreferenz verwiesen, für PPI kommentiert.
- IEPA - Papier - 486 Sätze aus biomedizinischen Forschungen Abstracts, die für Paare von gleichzeitig auftretenden Chemikalien, einschließlich Proteinen, kommentiert (daher PPI -Anmerkungen).
- LLL - Papier - 77 Sätze aus Forschungsartikeln über die Bakterium Bacillus subtilis , die für Protein -Gen -Wechselwirkungen kommentiert (also ziemlich nahe an PPI -Anmerkungen). Zusätzliche Informationen finden Sie hier.
Andere Datensätze
- Columbia Open Health -Daten - Papier - Eine Datenbank zur Prävalenz- und Ko -Aufgabe -Häufigkeit von Erkrankungen, Arzneimitteln, Verfahren und Patientendemografie, die aus elektronischen Gesundheitsakten extrahiert wurden. Enthält keinen Original -Datensatztext.
- Vergleichende Toxicogenomics -Datenbank - Papier - Eine Datenbank mit manuell kuratierten Assoziationen zwischen Chemikalien, Genprodukten, Phänotypen, Krankheiten und Umweltbelastungen. Nützlich zum Zusammenstellen von Ontologien der verwandten Konzepte wie Arten von Chemikalien.
- MIMIC -III - Papier - Nicht identifizierte Gesundheitsdaten aus ~ 60.000 Zulassungen für die Intensivstation. Erfordert den Abschluss eines Online -Schulungskurs (Citi -Schulung) und die Annahme einer Datennutzungsvereinbarung vor der Verwendung.
- MIMIC-CXR-Die Mimic Chest-Röntgendatenbank. Enthält mehr als 377.000 radiologische Bilder und begleitende Free-Text-Radiologieberichte. Wie bei Mimic-III muss eine Datenvereinbarung akzeptiert werden.
- UMLS -Wissensquellen - Referenzhandbuch - Eine große und umfassende Sammlung biomedizinischer Terminologie und Kennungen sowie begleitende Werkzeuge und Skripte. Abhängig von Ihren Zwecken kann die einzelne Datei mrconso.rrf ausreichen, da diese Datei eindeutige Kennungen und Namen für alle Konzepte im UMLS -Metathesaurus enthält. Siehe auch die Abschnitt über Ontologien und kontrollierten Vokabeln unten.
- MIMIC-IV-Ein Update zu Mimic-IIIs multimodalen Patientendaten, das jetzt in den letzten Jahren der Zulassungen abdeckt, sowie eine neue Datenstruktur, Notfallaufzeichnungen und Links zu Mimic-CXR-Bildern.
- EICU Collaborative Research Database - Papier - Eine Datenbank mit Beobachtungen aus mehr als 200.000 Intensivstationen Zulassungen mit konsistenter Struktur. Erfordert Registrierung, Abschluss des Schulungskurs und Datenvertragsvereinbarung.
Zurück nach oben
Ontologien und kontrolliertes Vokabular
- Krankheit Ontologie - Papier - Eine Ontologie menschlicher Krankheiten. Hat Vernetzungen zu Mesh, ICD, NCI Thesaurus, Snomed und Omim. Öffentlich zugängliche. Erhältlich auf Github und auf der OBO -Gießerei.
- RXNORM - Papier - Normalisierte Namen für klinische Arzneimittel und Arzneimittelpackungen mit kombinierten Zutaten, Stärken und Form sowie zugewiesenen Typen aus dem semantischen Netzwerk (siehe unten). Monatlich veröffentlicht.
- Spezialist Lexikon - Papier - Ein allgemeines englisches Lexikon, das viele biomedizinische Begriffe enthält. Seit 1994 jährlich aktualisiert und bis 2019 noch aktualisiert. Teil von UMLS, muss jedoch kein UTS -Konto heruntergeladen werden.
- UMLS Metathesaurus - Papier - Zuordnungen zwischen> 3,8 Millionen Konzepten, 14 Millionen Konzeptnamen und> 200 Quellen des biomedizinischen Vokabulars und der Identifikatoren. Es ist groß. Es kann helfen, eine Untergruppe des Metathesaurus mit dem Installationstool von Metamorphosys vorzubereiten, aber wir sprechen immer noch über ~ 30 GB Speicherplatz für die Veröffentlichung von 2019. Siehe das Handbuch hier. Benötigt UTS -Konto.
- UMLS Semantic Network - Papier - Listen von 133 semantischen Typen und 54 semantischen Beziehungen, die biomedizinische Konzepte und Wortschatze abdecken. Ist der Metathesaurus für Ihre Bedürfnisse zu komplex? Versuchen Sie das. Erfordert kein UTS -Konto zum Herunterladen.
Zurück nach oben
Datenmodelle
Benötigen Sie ein Datenmodell? Wenn Sie mit biomedizinischen Daten arbeiten, lautet die Antwort wahrscheinlich "Ja".
- Biolink - Code - Ein Datenmodell biologischer Entitäten. Als YAML -Datei bereitgestellt.
- Biouml - Papier - Eine Architektur für die biomedizinische Datenanalyse, Integration und Visualisierung. Konzeptionell basierend auf der visuellen Modellierungssprache UML.
- OMOP Common Data Model - Ein Standard für Beobachtungsgesundheitsdaten.
Zurück nach oben
Credits
Credits für Kuratoren und Quellen.
Lizenz
Lizenz