pubmed_parser скачать - pubmed_parser исходный код скачать

pubmed_parser

Другой исходный код

Pubmed Parser 0.5.0

Скачать

PubMed Palser: анализатор Python для PubMed Open-Access xml подмножество и набор данных Medline XML

PubMed Parser-это библиотека Python для анализа подмножества PubMed Open-Access (OA), репозитории Medline XML и утилиты программирования Entrez (E-UTILS). Он использует библиотеку lxml для разбора этой информации в словарь Python, который можно легко использовать для исследований, например, в конвейере и трубопроводах обработки естественного языка.

Для получения дополнительной информации для получения дополнительной информации для получения дополнительной информации для получения доступных API и подробностей о наборе данных, пожалуйста, смотрите нашу страницу вики или страницу документации. Ниже мы перечислим некоторые основные фонариальности и примеры кода.

Доступные анализаторы

path предоставляемый для функции, может быть пути к сжатому или несжатому XML -файлу. Мы предоставляем примеры файлов в папке data .
Для анализа веб -сайтов вы должны соскребтировать с паузой. Пожалуйста, посмотрите уведомление об авторском праве, потому что ваш IP может быть заблокирован, если вы попытаетесь загрузить оптом.

Ниже мы перечислим доступных анализаторов из pubmed_parser .

Parse Pubmed oa xml Информация
Parse Pubmed OA ссылки на цитирование
Parse Pubmed OA Изображения и подписи
Parse Pubmed OA абзац
Parse Pubmed OA таблица [WIP]
Parse Medline Xml
Parse Medline Grant ID
Parse Medline XML с сайта Eutils
Parse Medline XML Цитаты с веб -сайта
Распоряжаться исходящие цитаты XML с веб -сайта

Parse Pubmed oa xml Информация

Мы создали простой анализатор для подмножества PubMed Open Access, где вы можете дать XML -путь или строку для функции, называемой parse_pubmed_xml , которая вернет словарь со следующей информацией:

full_title : название статьи
abstract : Аннотация
journal : название журнала
pmid : PubMed ID
pmc : PubMed Central Id
doi : doi статьи
publisher_id : Идентификатор издателя
author_list : список авторов с ключами принадлежности в следующем формате

 [[ 'last_name_1' , 'first_name_1' , 'aff_key_1' ],
  [ 'last_name_1' , 'first_name_1' , 'aff_key_2' ],
  [ 'last_name_2' , 'first_name_2' , 'aff_key_1' ], ...]

affiliation_list : Список ключей принадлежности и строк принадлежности в следующем формате

 [[ 'aff_key_1' , 'affiliation_1' ],
  [ 'aff_key_2' , 'affiliation_2' ], ...]

publication_year : год публикации
subjects : Список предметов, перечисленных в статье, разделенной Semicolon. Иногда он содержит только тип статьи, такой как исследовательская статья, обзор и т. Д.

 import pubmed_parser as pp
dict_out = pp . parse_pubmed_xml ( path )

Parse Pubmed OA ссылки на цитирование

Функция parse_pubmed_references будет обрабатывать PubMed Open Access File XML -файл и вернет список PMIDS, которые он цитирует. У каждого словаря есть ключи следующим образом

pmid : PubMed ID статьи
pmc : PubMed Central Id статьи
article_title : название цитируемой статьи
journal : название журнала
journal_type : тип журнала
pmid_cited : PubMed ID статьи, в которой цитирует статья
doi_cited : doi статьи в этой статье цитирует
year : Год публикации, как он появляется в ссылке (может включать в себя буквенную суффикс, EG2007A)

 dicts_out = pp . parse_pubmed_references ( path ) # return list of dictionary

Parse Pubmed OA Изображения и подписи

Функция parse_pubmed_caption может анализировать подписи изображения из данного пути к файлу XML. Это вернет ссылочный индекс, который вы можете обратиться к фактическим изображениям. Функция вернет список словаря, который имеет следующие ключи

pmid : PubMed ID
pmc : PubMed Central Id
fig_caption : строка заголовка
fig_id : ссылочный идентификатор для рисунка (используйте для ссылки в статье XML)
fig_label : метка рисунка
graphic_ref : ссылка на имя файла изображения, предоставленное из PubMed OA

 dicts_out = pp . parse_pubmed_caption ( path ) # return list of dictionary

Parse Pubmed OA абзац

Для того, кто может быть заинтересован в анализе текста, окружающего цитирование, библиотека также предоставляет эту функциональность. Вы можете использовать parse_pubmed_paragraph для анализа текста и ссылки на PMIDS. Эта функция вернет список словарей, где каждая запись будет иметь следующие ключи:

pmid : PubMed ID
pmc : PubMed Central Id
text : полный текст абзаца
reference_ids : список справочного кода в этом параграфе.

Эти идентификаторы могут сливаться с выводами от parse_pubmed_references .

section : Раздел абзаца (например, фоновая служба, обсуждение, приложение и т. Д.)

 dicts_out = pp . parse_pubmed_paragraph ( 'data/6605965a.nxml' , all_paragraph = False )

Parse Pubmed OA таблица [WIP]

Вы можете использовать parse_pubmed_table для анализа таблицы из XML -файла. Эта функция вернет список словарей, где у каждого есть следующие ключи.

pmid : PubMed ID
pmc : PubMed Central Id
caption : Подпись таблицы
label : Lable of the Table
table_columns : список имени столбца
table_values : список значений внутри таблицы
table_xml : Raw XML -текст таблицы (return, если return_xml=True )

 dicts_out = pp . parse_pubmed_table ( 'data/medline16n0902.xml.gz' , return_xml = False )

Parse Medline Xml

Medline XML имеет другой формат XML, чем PubMed Open Access. Структура XML -файлов можно найти в DTD Medline/PubMed. Вы можете использовать функцию parse_medline_xml для анализа этого формата. Эта функция вернет список словарей, где каждый элемент содержит:

pmid : PubMed ID
pmc : PubMed Central Id
doi : doi
other_id : другие идентификаторы найдены, каждая из которых разделен ;
title : Название статьи
abstract : Аннотация статьи
authors : авторы, каждый из которых разделен ;
mesh_terms : список терминов сетки с соответствующим идентификатором сетки, каждый из которых разделен ; например 'D000161:Acoustic Stimulation; D000328:Adult; ...
publication_types : список списка типов публикации каждый разделен ; например 'D016428:Journal Article'
keywords : список ключевых слов, каждый из которых разделен ;
chemical_list : список химических терминов, каждый из которых разделен ;
pubdate : дата публикации. По умолчанию только в год информации.
journal : Журнал данной статьи
medline_ta : это аббревиатура названия журнала
nlm_unique_id : nlm уникальная идентификация
issn_linking : ISSN Связь, обычно используется для ссылки с набором данных Web of Science
country : страна, извлеченная из области информационной информации журнала
reference : строка PMID, каждая разделенная ; или список ссылок, сделанных в статье
delete : Boolean, если False Mine Paper была обновлена, так что у вас может быть два
languages : Список языков, разделенный ;
vernacular_title : народное название. По умолчанию пугать строку, когда не доступно.

XML для той же бумаги. Вы можете удалить запись удаленной бумаги, потому что она была обновлена.

 dicts_out = pp . parse_medline_xml ( 'data/medline16n0902.xml.gz' ,
                                 year_info_only = False ,
                                 nlm_category = False ,
                                 author_list = False ,
                                 reference_list = False ) # return list of dictionary

Чтобы извлечь информацию о месячном и дне из Pubdate, установите year_info_only=True . Мы также разрешаем структурированную реферату, и мы можем управлять отображением каждого раздела или метки, изменяя аргумент nlm_category .

Parse Medline Grant ID

Используйте parse_grant_id , чтобы проанализировать идентификаторы грантов Medline из файла XML. Это вернет список словарей, каждый из которых содержит

pmid : PubMed ID
grant_id : идентификатор гранта
grant_acronym : аббревиатура гранта
country : страна, где финансирование гранта от
agency : грантовое агентство

Если идентификатор гранта не найден, он не вернет None

Parse Medline XML с сайта Eutils

Вы можете использовать PubMed Parser для анализа XML-файла из E-Outilities с использованием parse_xml_web . Для этой функции вы можете предоставить один pmid в качестве ввода и получить словарь с следующими ключами

title : Название
abstract : Аннотация
journal : Журнал
affiliation : принадлежность первого автора
authors : строка авторов, разделенная ;
year : год публикации
keywords : ключевые слова или сетчатые термины статьи

 dict_out = pp . parse_xml_web ( pmid , save_xml = False )

Parse Medline XML Цитаты с веб -сайта

Функция parse_citation_web позволяет вам доставить цитаты до данного PubMed ID или PubMed Central Id. Это вернет словарь, который содержит следующие ключи

pmc : PubMed Central Id
pmid : PubMed ID
doi : doi статьи
n_citations : количество цитат для данных статей
pmc_cited : Список PMC, которые цитируют заданный PMC

 dict_out = pp . parse_citation_web ( doc_id , id_type = 'PMC' )

Распоряжаться исходящие цитаты XML с веб -сайта

Функция parse_outgoing_citation_web позволяет получить статьи, которые цитирует данной статьей, с учетом идентификатора PubMed или PubMed Central Id. Это вернет словарь, который содержит следующие ключи

n_citations : количество цитируемых статей
doc_id : идентификатор документа
id_type : тип данного идентификатора. Либо 'PMID' или 'PMC'
pmid_cited : Список PMIDS, цитируемый статьей

 dict_out = pp . parse_outgoing_citation_web ( doc_id , id_type = 'PMID' )

Идентификаторы должны быть переданы как строки. PubMed Central Id - это дефолт и должен передаваться как строки без префикса 'PMC' . Если цитаты не найдены, или если не найдено ни одной статьи, соответствующей doc_id в указанной базе данных, она не вернет None .

Установка

Вы можете установить наибольшую версию обновления пакета непосредственно из репозитория

pip install git+https://github.com/titipata/pubmed_parser.git

или установите недавний релиз с PYPI, используя

pip install pubmed-parser

или клонировать репозиторий и установить с помощью pip

git clone https://github.com/titipata/pubmed_parser
pip install ./pubmed_parser

Вы можете проверить свою установку, запустив pytest --cov=pubmed_parser tests/ --verbose в корне репозитория.

Пример фрагмента для Parse PubMed OA набор данных

Пример использования показан следующим образом

 import pubmed_parser as pp
path_xml = pp . list_xml_path ( 'data' ) # list all xml paths under directory
pubmed_dict = pp . parse_pubmed_xml ( path_xml [ 0 ]) # dictionary output
print ( pubmed_dict )

{ 'abstract' : u"Background Despite identical genotypes and ..." ,
 'affiliation_list' :
  [[ 'I1' : 'Department of Biological Sciences, ...' ],
   [ 'I2' : 'Biology Department, Queens College, and the Graduate Center ...' ]],
  'author_list' :
  [[ 'Dennehy' , 'John J' , 'I1' ],
   [ 'Dennehy' , 'John J' , 'I2' ],
   [ 'Wang' , 'Ing-Nang' , 'I1' ]],
 'full_title' : u'Factors influencing lysis time stochasticity in bacteriophage u03bb ' ,
 'journal' : 'BMC Microbiology' ,
 'pmc' : '3166277' ,
 'pmid' : '21810267' ,
 'publication_year' : '2011' ,
 'publisher_id' : '1471-2180-11-174' ,
 'subjects' : 'Research Article' }

Пример использования с pyspark

Это фрагмент для разбора всех PubMed Open Access Semble с использованием Pyspark 2.1

 import os
import pubmed_parser as pp
from pyspark . sql import Row

path_all = pp . list_xml_path ( '/path/to/xml/folder/' )
path_rdd = spark . sparkContext . parallelize ( path_all , numSlices = 10000 )
parse_results_rdd = path_rdd . map ( lambda x : Row ( file_name = os . path . basename ( x ),
                                               ** pp . parse_pubmed_xml ( x )))
pubmed_oa_df = parse_results_rdd . toDF () # Spark dataframe
pubmed_oa_df_sel = pubmed_oa_df [[ 'full_title' , 'abstract' , 'doi' ,
                                 'file_name' , 'pmc' , 'pmid' ,
                                 'publication_year' , 'publisher_id' ,
                                 'journal' , 'subjects' ]] # select columns
pubmed_oa_df_sel . write . parquet ( 'pubmed_oa.parquet' , mode = 'overwrite' ) # write dataframe

Смотрите папку Scripts для получения дополнительной информации.

Основные члены

Титипат Ахакулвисут
Даниэль Э. Акуна

и участники

Зависимости

LXML
Unidecode
запросы

Цитирование

Если вы используете PubMed Parser, пожалуйста, укажите его от JOSS следующим образом

Achakulvisut et al., (2020). PubMed Parser: анализатор Python для PubMed Open-Access XML-подмножество и набор данных Medline XML XML. Журнал программного обеспечения с открытым исходным кодом, 5 (46), 1979, https://doi.org/10.21105/joss.01979

или используя бибтек

 @article{Achakulvisut2020,
  doi = {10.21105/joss.01979},
  url = {https://doi.org/10.21105/joss.01979},
  year = {2020},
  publisher = {The Open Journal},
  volume = {5},
  number = {46},
  pages = {1979},
  author = {Titipat Achakulvisut and Daniel Acuna and Konrad Kording},
  title = {Pubmed Parser: A Python Parser for PubMed Open-Access XML Subset and MEDLINE XML Dataset XML Dataset},
  journal = {Journal of Open Source Software}
}

Вклад

Мы приветствуем вклад от любого, кто хотел бы улучшить PubMed Parser. Вы можете создавать проблемы GitHub для обсуждения вопросов или вопросов, связанных с репозиторием. Мы предлагаем вам прочитать наши рекомендательные принципы перед созданием проблем, отчетность об ошибках или внесение вклада в репозиторий.

Подтверждение

Этот пакет разработан в лаборатории Конрада Кординг в Университете Пенсильвании. Мы хотели бы поблагодарить рецензентов и редактор от Joss, включая tleonardi , timClicks и majensen . Они сделали наш репозиторий намного лучше!

Лицензия

Расширять

Дополнительная информация

Версия Pubmed Parser 0.5.0
Тип Другой исходный код
Время обновления 2025-04-16
размер 54.24MB
От Github

Связанные приложения

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Бесплатная версия механизма анализа данных Lihua 3.0_search_navigation_collection_public Opinion_ranking_api

2022-06-28

pubmed_parser

PubMed Palser: анализатор Python для PubMed Open-Access xml подмножество и набор данных Medline XML

Доступные анализаторы

Parse Pubmed oa xml Информация

Parse Pubmed OA ссылки на цитирование

Parse Pubmed OA Изображения и подписи

Parse Pubmed OA абзац

Parse Pubmed OA таблица [WIP]

Parse Medline Xml

Parse Medline Grant ID

Parse Medline XML с сайта Eutils

Parse Medline XML Цитаты с веб -сайта

Распоряжаться исходящие цитаты XML с веб -сайта

Установка

Пример фрагмента для Parse PubMed OA набор данных

Пример использования с pyspark

Основные члены

Зависимости

Цитирование

Вклад

Подтверждение

Лицензия

OpenCore_NO_ACPI_Build

nspanel_pro_tools_apk

YuQue_Book_Download

zkwork_aleo_gpu_worker

nextcloud_share_url_downloader

Бесплатная версия механизма анализа данных Lihua 3.0_search_navigation_collection_public Opinion_ranking_api

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express