
Как извлечь информацию из неструктурированных биомедицинских данных и текста.
Что такое биои? Он включает в себя любые усилия по извлечению структурированной информации из неструктурированной (или, по крайней мере, непоследовательной структурированной) биологических, клинических или других биомедицинских данных. Источник данных часто представляет собой некоторый сбор текстовых документов, написанных на техническом языке. Если полученная информация подлежит проверке и последовательной между источниками, мы можем рассмотреть это знание . Извлечение информации и получение знаний из биоданных данных требует адаптации по методам, разработанным для других типов неструктурированных данных.
Bioie претерпел массовые изменения с момента введения языковых моделей, таких как BERT и более недавно созданные крупные языковые модели (LLMS; например, GPT-3/4, Llama2/3, Gemini и т. Д.).
Ресурсы, включенные здесь, являются преимущественно, которые доступны без денежных затрат и ограниченных требований к лицензии. Методы и наборы данных должны быть общедоступными и активно поддерживаться.
Смотрите также Awesome-NLP, потрясающая биология и потрясающая биоинформатика.
Пожалуйста, прочитайте руководящие принципы взноса, прежде чем внести свой вклад. Пожалуйста, добавьте свой любимый ресурс, подняв запрос на тягу.
Содержимое
- Обзоры исследований
- Группы активны в полевых условиях
- Организации
- Журналы и события
- Журналы
- Конференции и другие события
- Проблемы
- Учебные пособия
- Гиды
- Видео -лекции и онлайн -курсы
- Кодовые библиотеки
- Репо для конкретных наборов данных
- Инструменты, платформы и услуги
- Методы и модели
- Наборы данных
- Биомедицинские текстовые источники
- Аннотированные текстовые данные
- Взаимодействие белка-белка аннотированные корпуса
- Другие наборы данных
- Онтологии и контролируемые слова
- Модели данных
- Кредиты
Обзоры исследований
LLM в биомедицинской т.е.
- Большие языковые модели в здравоохранении: комплексный эталон - статистическая и человеческая оценка шестнадцати различных LLM, применяемых к задачам медицинского языка.
- Оценка исследовательской ландшафта и клинической полезности крупных языковых моделей: обзор обзора - обзор приложений LLM в медицине с высоким уровнем уровня в медицине.
- Этические и нормативные проблемы крупных языковых моделей в медицине - обзор этических проблем, возникающих в результате применения LLM в биомедицине.
- Об опасностях стохастических попугаев: могут ли языковые модели быть слишком большими? ? - Часто ссылается, но все еще актуальная работа, касающаяся ролей, приложений и рисков языковых моделей.
Предварительные обзоры
- Биомедицинская информатика в облаке: охота за сокровищами для продвижения сердечно -сосудистой медицины - обзор того, как могут применяться рабочие процессы биои и биоинформатики.
- Приложения для извлечения клинической информации: обзор литературы - обзор клинических документов IE, опубликованных по состоянию на сентябрь 2016 года. Из группы клиники Mayo (см. Ниже).
- Открытие на основе литературы: модели, методы и тенденции - обзор литературного открытия (LBD) или философии, которые можно найти для значимых связей между, казалось бы, не связанной с научной литературой.
- Для некоторого исторического контекста на LBD см. Документы от Дона Свансона и Нила Смалхейзера из Чикагского университета, в том числе не обнаруженные общественные знания (Paywalled) и заново открытие Дона Свансона: прошлое, настоящее и будущее открытия на основе литературы .
- Электронные медицинские записи добычи (EHRS): обзор - обзор методов и философии, лежащих в основе электронных медицинских карт добычи, включая их для обнаружения неблагоприятных событий. См. Таблица 2 для списка соответствующих документов по состоянию на середину 2017 года.
- Захват перспективы пациента: обзор достижений в обработке естественного языка текста, связанного со здоровьем, - обзор методов обработки естественного языка, применяемых к извлечению информации в медицинских записях и в тексте социальных сетей. Важным примечанием из этого обзора: «Одной из основных задач в этой области является доступность данных, которые могут быть переданы и которые могут использоваться сообществом для продвижения разработки методов, основанных на сопоставимых и воспроизводимых исследованиях».
Вернуться к вершине
Группы активны в полевых условиях
- Бостонская детская больница, лаборатория обработки естественного языка - во главе с доктором Герганой Савовой, ранее в клинике Майо и Проектом Apache Ctakes.
- Браун Центр биомедицинской информатики, базирующийся в Университете Брауна и режиссер доктора Нила Саркара, чья исследовательская группа работает по темам в клинических НЛП и IE.
- Центр вычислительной фармакологии NLP Group, базирующаяся в Университете Колорадо, Денвер, и возглавляемая Ларри Хантером - см. Их репонирование GitHub здесь.
- Группы в Национальных институтах здравоохранения США (NIH) / Национальная библиотека медицины (NLM):
- Группа Demner-Fushman в NLM
- Bionlp Group в NCBI - развивает улучшения в поиске и курировании биомедицинской литературы (например, через PubMed), возглавляемое доктором Чжиён Лу.
- Jensenlab, базирующаяся в Центре исследований белков Novo Nordisk Foundation в Университете Копенгагена, Дания.
- Национальный центр по добыче текста (NACTEM), базирующийся в Университете Манчестера и возглавляемый профессором Софией Ананиаду, NACTEM занимается добычей текста в целом, но уделяет особое внимание биомедицинским приложениям.
- За последние 20 лет несколько групп в клинике Mayo Clinic Clinical Natural Language.
- Инициатива Monarch - совместная работа между группами в Университете штата Орегон, Университете здравоохранения и науке Орегона, национальной лабораторией Лоуренса Беркли, лабораторией Джексона и несколькими другими, стремящимися «интегрировать биологическую информацию с использованием семантики и представить ее новым способом, используя фенотипы, чтобы преодолеть разрыв в знаниях».
- Turkunlp, базирующаяся в Университете Турку и занимается NLP в целом с акцентом на BionLP и клинические применения.
- Лаборатория биомедицинской обработки естественного языка в Уэтэл Хьюстон, базирующаяся в Центре здравоохранения Техасского университета в Хьюстоне, Школа биомедицинской информатики и во главе с доктором Хуа Сюй.
- VCU Trange Ranguing Lab, базирующаяся в Университете Содружества Вирджинии и возглавляемая доктором Бриджит Макиннес.
- ZAKLAB - Группа во главе с доктором Исааком Коханом в Департаменте биомедицинской информатики в Гарвардской медицинской школе (доктор Кохан также является управляющим наборов данных N2C2 (ранее I2B2) - см. Наборы данных ниже).
- Кафедра биомедицинской информатики Колумбийского университета - во главе с доктором. Джордж Хрипсак и Ноэми Элхадад.
Вернуться к вершине
Организации
- Амия - многие - но, конечно, не все - индивидуальные изучение биомедицинской информатики являются членами Американской ассоциации медицинской информатики. Амиа публикует журнал, Jamia (см. Ниже).
- Имиа - Международная ассоциация медицинской информатики. Публикует ежегодник Imia медицинской информатики.
Вернуться к вершине
Журналы и события
Междисциплинарный характер биои означает, что исследователи в этом пространстве могут поделиться своими выводами и инструментами различными способами. Они могут публиковать документы в журналах, как это обычно в биомедицинских и жизненных науках. Они могут публиковать документы на конференцию и, после принятия, дать плакат и/или устную презентацию на мероприятии; Это обычная практика в области компьютерных наук и инженерии. Конференции часто публикуются в коллекциях разбирательства. Preprint Publication-все более популярный и институциональный способ также опубликовать результаты. Окружающие эти официальные письменные продукты являются идеями открытой науки, открытых данных и открытого исходного кода: разрабатывают код, данные и программные биои -биои, являются ценными ресурсами для сообщества.
Журналы
Для препринтов попробуйте arxiv, особенно вычисления и языка субъектов (CS.CL) и поиск информации (CS.IR); Biorxiv; или medrxiv, особенно предметная область информатики для здоровья.
- База данных - его подзаголовок - «Журнал биологических баз данных и курирования». Открытый доступ.
- Нар - исследование нуклеиновых кислот. Имеет широкий биомолекулярный фокус, но особенно примечательна своей годовой проблемой базы данных.
- Jamia - Журнал Американской ассоциации медицинской информатики. Относится к тому, что «статьи в области клинической помощи, клинических исследований, трансляционной науки, науки о реализации, визуализации, образования, здоровья потребителей, общественного здравоохранения и политики».
- JBI - Журнал биомедицинской информатики. Не открытый доступ по умолчанию, хотя у него есть версия «X» с открытым доступом.
- Научные данные - открытый журнал Springer Nature Journal Publishing «Описания научно ценных наборов данных и исследования, которые продвигают обмен и повторное использование научных данных».
Конференции и другие события
- ACM -BCB - Конференция ACM по биоинформатике, вычислительной биологии и информатике здравоохранения. Проводится ежегодно с 2010 года.
- BIBM - Международная конференция IEEE по биоинформатике и биомедицине.
- ISMB - Международная конференция по интеллектуальным системам для молекулярной биологии - это ежегодная конференция, организованная Международным обществом вычислительной биологии с 1993 года. Большая часть его фокуса касалась биоинформатики и вычислительной биологии без явного клинического направления, хотя она включала в себя все большее количество контента добычи текста (например, на собрание 2019 года была включена специальная сессия в течение всего дня на управление текстами для биологии и здоровья). Встреча сочетается с собранием Европейской конференции по вычислительной биологии (ECCB) в нечетные годы.
- PSB - Тихоокеанский симпозиум на биокомпьютинге.
Проблемы
Некоторые события в биои организованы вокруг официальных задач и проблем, в которых группы разрабатывают свои собственные вычислительные решения, учитывая набор данных.
- BioASQ - Проблемы с биомедицинской семантической индексацией и ответом на вопросы. Проблемы и семинары проводится ежегодно с 2013 года.
- Семинар по биографии - эти семинары были организованы с 2004 года, при этом Biocreative VI происходит в феврале 2017 года, а вызов Biocreative/OHNLP состоялся в 2018 году. См. Наборы данных ниже.
- Семейный семинар - задачи и оценки в вычислительном семантическом анализе. Задачи варьируются в зависимости от года, но часто охватывают научный и/или биомедицинский язык, например, задача 12 Semeval-2019 по разрешению топоним в научных работах.
- eHealth -KD - проблемы для поощрения «разработки программных технологий для автоматического извлечения большого разнообразия знаний из документов электронного здравоохранения, написанных на испанском языке». Ранее проводился в рамках TASS, ежегодный семинар для семантического анализа на испанском.
- EHR Dream Challenge - в октябре 2019 года, проведенный вместе с несколькими другими проблемами с биоинформатикой. Использует набор синтетических данных, а не реальное содержание EHR.
Вернуться к вершине
Учебные пособия
Поле меняется достаточно быстро, чтобы урок, которые станут старше, чем несколько лет, не хватает важных деталей. Несколько более недавних образовательных ресурсов перечислены ниже. Хорошее основополагающее понимание методов добычи текста очень полезно, как и какой -то основной опыт работы с Python и или R -языками. Лучшим вариантом может быть учиться на выполнении.
LLM Руководства
TBD - Смотрите это пространство!
Руководство по предварительному LLM, лекции и курсы
- Начало работы в добыче текста - краткое представление о биотекстовом добыче от Коэна и Хантера. Более десяти лет, но все же довольно актуально. Смотрите также более раннюю статью тех же авторов.
- Биомедицинская литературная добыча - A (не свободный) объем методов в молекулярной биологии от 2014 года. Главы охватывают вводные принципы в добыче текста, применения в биологических науках и потенциал для использования в клинических или медицинских сценариях безопасности.
- Coursera - Основы добычи неструктурированных медицинских данных - видео -лекции на три часа по работе с медицинскими данными различных типов и структур, включая текстовые и изображения. Выглядит довольно высоким и предназначенным для начинающих.
- Упражнения по добыче текста Jensenlab
- В 2013 году в 2013 году проходил обучение текстовой и курировании VIB - этот учебный семинар произошел, но слайды все еще находятся в сети.
Вернуться к вершине
Кодовые библиотеки
- BiopyThon - Paper - Code - Инструменты Python, в основном предназначенные для биоинформатики и вычислительной молекулярной биологии, но также удобный способ получить данные, включая документы/тезисы из PubMed (см. Главу 9 документации).
- Bio -показатели - бумага - структура для разрешения биомедицинского ядра.
- Medacy - система для создания моделей обработки естественного языка медицинского языка. Построен на фреймворме Spacy.
- Scispacy - Paper - версия Spacy Framework для научных и биомедицинских документов.
- Rentrez - R Utilities для доступа к ресурсам NCBI, включая PubMed.
- MED7 - Paper - Code - пакет и модель Python (для использования со Spacy) для выполнения NER с концепциями, связанными с лекарствами.
Репо для конкретных наборов данных
- Mimic-Code-код, связанный с набором данных MIMIC-III (см. Ниже). Включает несколько полезных учебных пособий.
Вернуться к вершине
Инструменты, платформы и услуги
- Ctakes - Paper - Code - Система для обработки текста в электронных медицинских записях. Широко используемый и открытый исходный код.
- Зажим - бумага - инструментарий для обработки естественного языка, предназначенный для использования с текстом в клинических отчетах. Проверьте их живую демонстрацию сначала, чтобы увидеть, что она делает. Пользуемое бесплатно для академических исследований.
- Deepphe - Система для обработки документов, описывающих презентации рака. На основе Ctakes (см. Выше).
- Dnorm - Paper - метод нормализации заболевания, то есть, связывание упоминаний о названиях болезней и аббревиатурах с уникальными идентификаторами концепции. Загружаемая версия включает в себя корпус болезни NCBI и BC5CDR (см. Аннотированные текстовые данные ниже).
- Pubtator Central - Paper - веб -платформа, которая идентифицирует пять различных типов биомедицинских концепций в статьях PubMed и PubMed Central Full Texts. Полные наборы аннотаций можно загрузить (см. Аннотированные текстовые данные ниже).
- PubRunner - структура для запуска инструментов майнинга текста в новейших наборах (S) документов из PubMed.
- Semehr - Paper - IE инфраструктура для электронных медицинских карт (EHR). Построен на проекте Cogstack.
- Taggerone - Paper - выполняет нормализацию концепции (см. Также DNORM выше). Может быть обучен для конкретных типов концепций и может выполнять NER независимо от других функций нормализации.
- Tabinout - Paper - Framework для IE из таблиц в литературе.
Аннотация Инструменты
- Anafora - Paper - Аннотация инструмента с вынесением вынесения решения и функций отслеживания прогресса.
- Brat - Paper - Code - Инструмент для быстрого аннотации Brat. Поддерживает создание текстовых аннотаций визуально через браузер. Не предмет конкретного; подходит для многих аннотационных проектов. Визуализация основана на визуализации инструмента STAV .
- Medtator - Paper - Code - инструмент аннотации, предназначенный для минимальных зависимостей.
Вернуться к вершине
Методы и модели
Большие языковые модели
TBD - Смотрите это пространство!
Модели Берта
- Biobert - Paper - Code - PubMed и PubMed Central Trained Wersion модели языка BERT.
- Clinicalbert - Две языковые модели, обученные клиническому тексту, имеют аналогичные названия. Оба являются моделями BERT, обученными тексту клинических заметок из набора данных MIMIC-III.
- Alsentzer et al. Клинический берт - бумага
- Huang et al. Clinicalbert - бумага
- Scibert - Paper - модель BERT, обученная> 1 млн. Документов из базы данных Semantic Scholar.
- Bluebert - Paper - модель Bert, предварительно обученная в PubMed Text и Mimic -III Примечания.
- PubMedbert - Paper - модель BERT, обученная с нуля на PubMed, с версиями, обученными тезисам+полным текстам и только на рефератах.
Модели GPT-2
- BIOGPT-Paper-модель GPT-2, предварительно обученная 15 миллионам тезисов PubMed, наряду с тонкими настраиваемыми версиями для нескольких биомедицинских задач.
Другие модели
- Flair встроены из PubMed - языковая модель, доступная с помощью метода Flair Framework и встраивания. Обучен более 5% выборки тезисов PubMed до 2015 года, или в общей сложности> 1,2 миллиона рефератов.
Текст встраивания
- В этой статье из группы Hongfang Liu в клинике Майо демонстрируется, как встроенные тексты, обученные биомедицинским или клиническим текстовым текстам, могут, но не всегда лучше выполнять задачи по обработке биомедицинских языков. При этом, предварительно обученные встраивания могут быть подходящими для ваших потребностей, особенно в связи с тем, что встраиваемые встроения, специфичные для обучения, могут быть вычислительно интенсивными.
- BioASQWORD2VEC - Paper - QORD Entgddings, полученные из биомедицинского текста (> 10 миллионов рефератов PubMed) с использованием популярного инструмента Word2VEC.
- BioWordVec - Paper - Code - Вставки Word, полученные из биомедицинского текста (> 27 миллионов заголовков и рефератов PubMed), включая модель встроенного подвода на основе сетки.
Вернуться к вершине
Наборы данных
Некоторые из наборов данных, перечисленных ниже, требуют доступа к учетной записи Services Services (UTS) UMLS. Обратите внимание, что лицензия, предоставленная учетной записью UTS, требует от пользователей представить годовой отчет об использовании ресурсов UMLS. Это менее сложно, чем кажется.
Биомедицинские текстовые источники
Следующие ресурсы содержат индексированные текстовые документы в биомедицинских науках.
- Ohsumed - бумага - 348 566 записей Medline (название, а иногда и абстрактная) с 1987 по 1991 год. Включает в себя сетчатые этикетки. В первую очередь имеет историческое значение.
- PubMed Central Open Access Subsment - набор PubMed Central статей, используемых по лицензиям, отличным от традиционных авторских прав, хотя точные лицензии варьируются в зависимости от публикации и источника. Статьи доступны в виде PDF и XML.
- Корд-19-Корпус научных рукописей, касающихся Covid-19. Статьи в основном из PubMed Central и Preprint Servers, хотя набор также включает метаданные на бумагах без полнотекстовой доступности.
Аннотированные текстовые данные
- SPL-ADR-200DB-бумага-пилотный набор данных, содержащий стандартизированную информацию, и аннотации происхождения в тексте, около 5000 известных побочных реакций для 200 одобренных FDA лекарств.
- Biocreative 1 - Бумага - 15 000 предложений (10 000 тренингов и 5000 тестов), аннотированные для имен белков и генов. 1000 полных текстовых биомедицинских научных статей, аннотированных с названиями белков и генной онтологий.
- Biocreative 2 - Документ - 15 000 предложений (10 000 тренингов и 5000 тестов, отличных от первого корпуса), аннотированные для имен белков и генов. 542 Тезисы, связанные с идентификаторами Entrezgene. Разнообразие исследовательских статей, аннотированных для особенностей взаимодействия белка -белка.
- Biocreative v CDR Task Corpus (BC5CDR) - Документ - 1500 статей (заголовок и аннотация), опубликованные в 2014 году или более поздней версии, аннотированный для 4409 химических веществ, 5818 заболеваний и 3116 химических взаимодействий. Требует регистрации.
- Biocreative VI Chemprot Corpus - бумага -> 2400 статей, аннотированные с химическими белковыми взаимодействиями различных типов отношений. Требует регистрации.
- Craft - Paper - 67 Полнотекстовые биомедицинские статьи, аннотированные различными способами, в том числе для концепций и ясных препаратов. Теперь в версии 5, включая аннотации, связывающие концепции с онтологией болезни Мондо.
- Данные N2C2 (ранее I2B2) - Департамент биомедицинской информатики (DBMI) в Гарвардской медицинской школе управляет данными о национальных клинических проблемах НЛП и информатике для интеграции биологии и проблем с постели больного с 2006 года. Они требуют регистрации до доступа и использования. Наборы данных включают различные темы. См. Список задач данных для отдельных описаний.
- Корпус болезни NCBI - бумага - корпус 793 биомедицинских рефератов, аннотированных с именами заболеваний и связанных с ними понятий из сетки и Омима.
- Наборы данных Pubtator Central - Документ - Доступный через загрузку API или FTP. Включает аннотации для> 29 миллионов тезисов и 3 миллиона полных текстовых документов.
- Слово смысл устранения неоднозначности (WSD) - Документ - 203 неоднозначные слова и 37,888 автоматически извлечены случаи их использования в публикациях биомедицинских исследований. Требуется учетная запись UTS.
- Сбор клинических вопросов - также известный как CQC или коллекция Айовы, это несколько тысяч вопросов, заданных врачами во время посещений офиса, а также связанные с ними ответы.
- Bionlp ST 2013 Наборы данных - данные из шести общих задач, хотя некоторые могут быть нелегкими; Попробуйте набор задач CG (BionLP2013CG) для обширных аннотаций организации и событий.
- Биоскоп - бумага - корпус предложений из медицинских и биологических документов, аннотированный для отрицания, спекуляций и лингвистического масштаба.
- Biored - Paper - набор> 6,5K аннотаций биомедицинских отношений, а также этикетки для новых выводов.
Взаимодействие белка-белка аннотированные корпуса
Взаимодействие белка-белка сокращается как PPI. Следующие наборы доступны в формате BIOC. Старые наборы (AIMED, Bioinfer, HPRD50, IEPA и LLL) доступны для хранилища WBI Corpore и первоначально были получены из первоначальных наборов группы в Университете Турку.
- Цель - бумага - 225 Medline Abstracts, аннотированные для PPI.
- Bioc -Biogrid - бумага - 120 полных текстовых статей, аннотированных для PPI и генетических взаимодействий. Используется в задаче BioCreative V BioC.
- Bioinfer - статья - 1100 предложений из тезисов биомедицинских исследований, аннотированных для отношений (включая PPI), названные объекты и синтаксические зависимости. Дополнительная информация и ссылки на скачивание здесь.
- HPRD50 - статья - 50 научных рефератов, на которые ссылается контрольная база данных белка человека, аннотированная для PPI.
- IEPA - бумага - 486 предложений из тезисов биомедицинских исследований, аннотированных для пар сопутствующих химических веществ, включая белки (следовательно, аннотации PPI).
- LLL - бумага - 77 предложений из исследовательских статей о бактерии Bacillus subtilis , аннотированные для белковых взаимодействий (так что, довольно близко к аннотациям PPI). Дополнительная информация здесь.
Другие наборы данных
- Колумбия открытые данные о здоровье - статья - база данных о распространенности и частоте совместных веществ в условиях, лекарствах, процедурах и демографии пациентов, извлеченных из электронных медицинских карт. Не включает исходный текст записи.
- Сравнительная база данных о токсикогеномике - бумага - база данных из ручной кураторской ассоциаций между химическими веществами, генными продуктами, фенотипами, заболеваниями и воздействием окружающей среды. Полезно для сборки онтологий связанных концепций, таких как типы химических веществ.
- MIMIC -III - Документ - Данные о здравоохранении от приема подразделения интенсивной терапии ~ 60 000. Требуется завершение онлайн -курса обучения (обучение CITI) и принятие соглашения об использовании данных до использования.
- MIMIC-CXR-рентгеновская база данных Mimic Dest. Содержит более 377 000 рентгенографических изображений и сопровождающие отчеты о свободной текстовой радиологии. Как и в случае с Mimic-III, требует принятия соглашения об использовании данных.
- Источники знаний UMLS - справочное руководство - большая и всеобъемлющая коллекция биомедицинской терминологии и идентификаторов, а также сопровождающие инструменты и сценарии. В зависимости от ваших целей, единственного файла mrconso.rrf может быть достаточным, так как этот файл содержит уникальные имена и имена для всех концепций в MetatheSaurus UMLS. См. Также раздел онтологий и контролируемых словарей ниже.
- Mimic-IV-обновление для мультимодальных данных о пациентах Mimic-III, которое теперь охватывает более поздние годы поступления, а также новую структуру данных, записи отделения неотложной помощи и ссылки на изображения MIMIC-CXR.
- База данных по совместной исследованиям EICU - бумага - база данных наблюдений из более чем 200 тысяч приема подразделения интенсивной терапии, с постоянной структурой. Требуется регистрация, завершение учебного курса и соглашение об использовании данных.
Вернуться к вершине
Онтологии и контролируемые слова
- Онтология болезни - бумага - онтология заболеваний человека. Имеет перекрестные связи с сеткой, ICD, NCI TheSaurus, Snomed и Omim. Общественный достояние. Доступно на GitHub и на литейном заводе OBO.
- RXNORM - бумага - Нормализованные названия для клинических препаратов и пакетов лекарств, с комбинированными ингредиентами, сильными сторонами и формой, и назначенные типы из семантической сети (см. Ниже). Выпущен ежемесячно.
- Специалиста лексика - бумага - общий английский лексикон, который включает в себя множество биомедицинских терминов. Обновляется ежегодно с 1994 года и все еще обновляется по состоянию на 2019 год. Часть UMLS, но не требует учетной записи UTS для загрузки.
- UMLS MetatheSaurus - Paper - Сопоставления между> 3,8 миллионами концепций, 14 миллионов концептуальных имен и> 200 источников биомедицинского словарного запаса и идентификаторов. Это большое. Это может помочь подготовить подмножество метатезавра с инструментом установки MetamorPhosys, но мы все еще говорим о ~ 30 ГБ дискового пространства, необходимого для выпуска 2019 года. Смотрите руководство здесь. Требуется учетная запись UTS.
- Semantic Network UMLS - Документ - списки 133 семантических типов и 54 семантических отношения, охватывающие биомедицинские концепции и словарный запас. MetatheSaurus слишком сложным для ваших нужд? Попробуйте это. Не требует учетной записи UTS для загрузки.
Вернуться к вершине
Модели данных
Вам нужна модель данных? Если вы работаете с биомедицинскими данными, то ответ, вероятно, «да».
- Biolink - код - модель данных биологических сущностей. Предоставлено в качестве файла YAML.
- Biouml - бумага - архитектура для анализа биомедицинских данных, интеграции и визуализации. Концептуально основан на языке визуального моделирования UML.
- OMOP Common Data Model - стандарт для данных о наблюдении.
Вернуться к вершине
Кредиты
Кредиты для кураторов и источников.
Лицензия
Лицензия