Descargar pubmed_parser - Descargar el código fuente pubmed

pubmed_parser

Otro código fuente

Pubmed Parser 0.5.0

Descargar

PubMed Parser: un analizador Python para el subconjunto XML de acceso abierto PubMed y el conjunto de datos XML MEDLINE

PubMed Parser es una biblioteca de Python para analizar el subconjunto PubMed Open-Access (OA), Repositorios XML de Medline y Utilidades de programación de Entrez (E-Utils). Utiliza la biblioteca lxml para analizar esta información en un diccionario de Python que puede usarse fácilmente para la investigación, como en la minería de texto y las tuberías de procesamiento del lenguaje natural.

Para las API y los detalles disponibles sobre el conjunto de datos, consulte nuestra página de wiki o página de documentación para obtener más detalles. A continuación, enumeramos algunas de las funciones básicas y ejemplos de código.

Analizadores disponibles

path proporcionada a una función puede ser la ruta a un archivo XML comprimido o sin comprimir. Proporcionamos archivos de ejemplo en la carpeta data .
Para el análisis del sitio web, debe raspar con pausa. Consulte el aviso de derechos de autor porque su IP puede bloquearse si intenta descargar a granel.

A continuación, enumeramos los analizadores disponibles de pubmed_parser .

Panse PubMed OA XML Información
Panse PubMed OA Citation Referencias
Panse PubMed OA Imágenes y subtítulos
Párrafo PubMed OA
Panse PubMed OA Table [WIP]
PARSE MEDLINE XML
ID de subvención de PARSE MEDLINE
Parse Medline XML desde el sitio web de Eutils
PARSE MEDLINE CITACIONES DE LA XML DEL SITIO WEB
Analizar citas de XML salientes desde el sitio web

Panse PubMed OA XML Información

Creamos un analizador simple para el subconjunto de acceso abierto PubMed donde puede dar una ruta o cadena XML a la función llamada parse_pubmed_xml que devolverá un diccionario con la siguiente información:

full_title : el título del artículo
abstract : Resumen
journal : Nombre del diario
pmid : ID de PubMed
pmc : ID central de PubMed
doi : doi del artículo
publisher_id : ID del editor
author_list : Lista de autores con claves de afiliación en el siguiente formato

 [[ 'last_name_1' , 'first_name_1' , 'aff_key_1' ],
  [ 'last_name_1' , 'first_name_1' , 'aff_key_2' ],
  [ 'last_name_2' , 'first_name_2' , 'aff_key_1' ], ...]

affiliation_list : Lista de claves de afiliación y cadenas de afiliación en el siguiente formato

 [[ 'aff_key_1' , 'affiliation_1' ],
  [ 'aff_key_2' , 'affiliation_2' ], ...]

publication_year : año de publicación
subjects : Lista de sujetos enumerados en el artículo separado por Semicolon. A veces, solo contiene el tipo de artículo, como un artículo de investigación, procedimientos de revisión, etc.

 import pubmed_parser as pp
dict_out = pp . parse_pubmed_xml ( path )

Panse PubMed OA Citation Referencias

La función parse_pubmed_references procesará un archivo XML de acceso abierto PubMed y devolverá una lista de los PMID que cita. Cada diccionario tiene claves de la siguiente manera

pmid : ID PubMed del artículo
pmc : PubMed Central ID del artículo
article_title : Título del artículo citado
journal : Nombre del diario
journal_type : tipo de revista
pmid_cited : ID PubMed del artículo que cita el artículo
doi_cited : doi del artículo que cita el artículo
year : Año de publicación como aparece en la referencia (puede incluir el sufijo de letras, EG2007A)

 dicts_out = pp . parse_pubmed_references ( path ) # return list of dictionary

Panse PubMed OA Imágenes y subtítulos

La función parse_pubmed_caption puede analizar los subtítulos de imagen de una ruta dada a un archivo XML. Devolverá el índice de referencia que puede consultar a las imágenes reales. La función devolverá la lista de diccionario que tiene las siguientes claves

pmid : ID de PubMed
pmc : ID central de PubMed
fig_caption : cadena de subtítulos
fig_id : ID de referencia para la figura (se use para referirse en el artículo XML)
fig_label : etiqueta de la figura
graphic_ref : referencia al nombre del archivo de imagen proporcionado desde PubMed OA

 dicts_out = pp . parse_pubmed_caption ( path ) # return list of dictionary

Párrafo PubMed OA

Para alguien que podría estar interesado en analizar el texto que rodea una cita, la biblioteca también proporciona esa funcionalidad. Puede usar parse_pubmed_paragraph para analizar el texto y las PMID de referencia. Esta función devolverá una lista de diccionarios, donde cada entrada tendrá las siguientes claves:

pmid : ID de PubMed
pmc : ID central de PubMed
text : texto completo del párrafo
reference_ids : Lista de código de referencia dentro de ese párrafo.

Este IDS puede fusionarse con la salida de parse_pubmed_references .

section : Sección del párrafo (por ejemplo, antecedentes, discusión, apéndice, etc.)

 dicts_out = pp . parse_pubmed_paragraph ( 'data/6605965a.nxml' , all_paragraph = False )

Panse PubMed OA Table [WIP]

Puede usar parse_pubmed_table para analizar la tabla desde el archivo XML. Esta función devolverá la lista de diccionarios donde cada uno tiene las siguientes claves.

pmid : ID de PubMed
pmc : ID central de PubMed
caption : subtítulos de la tabla
label : lable de la mesa
table_columns : lista de nombre de columna
table_values : lista de valores dentro de la tabla
table_xml : texto XML sin procesar de la tabla (return si return_xml=True )

 dicts_out = pp . parse_pubmed_table ( 'data/medline16n0902.xml.gz' , return_xml = False )

PARSE MEDLINE XML

Medline XML tiene un formato XML diferente al acceso abierto de PubMed. La estructura de los archivos XML se puede encontrar en Medline/PubMed DTD aquí. Puede usar la función parse_medline_xml para analizar ese formato. Esta función devolverá la lista de diccionarios, donde cada elemento contiene:

pmid : ID de PubMed
pmc : ID central de PubMed
doi : doi
other_id : Otras ID encontradas, cada una separada por ;
title : Título del artículo
abstract : Resumen del artículo
authors : autores, cada uno separado por ;
mesh_terms : lista de términos de malla con ID de malla correspondiente, cada una separada por ; Por ejemplo 'D000161:Acoustic Stimulation; D000328:Adult; ...
publication_types : Lista de tipos de publicación Lista cada una separada por ; por ejemplo, 'D016428:Journal Article'
keywords : lista de palabras clave, cada una separada por ;
chemical_list : lista de términos químicos, cada uno separado por ;
pubdate : fecha de publicación. El valor predeterminado solo a la información del año.
journal : Revista del artículo dado
medline_ta : Esta es la abreviatura del nombre del diario
nlm_unique_id : identificación única de NLM
issn_linking : enlace ISSN, generalmente se usa para vincular con el conjunto de datos de la Web of Science
country : País extraído del campo de información de la revista
reference : cadena de PMID cada uno separado por ; o lista de referencias hechas al artículo
delete : boolean si False significa papel se actualizó para que tenga dos
languages : lista de idiomas, separados por ;
vernacular_title : título vernáculo. El valor predeterminado se vacía cuando no esté disponible.

XMLS para el mismo papel. Puede eliminar el registro de papel eliminado porque se actualizó.

 dicts_out = pp . parse_medline_xml ( 'data/medline16n0902.xml.gz' ,
                                 year_info_only = False ,
                                 nlm_category = False ,
                                 author_list = False ,
                                 reference_list = False ) # return list of dictionary

Para extraer información de mes y día de Pubdate, establezca year_info_only=True . También permitimos el análisis estructurado de análisis y podemos controlar la visualización de cada sección o etiqueta cambiando el argumento nlm_category .

ID de subvención de PARSE MEDLINE

Use parse_grant_id para analizar ID de subvención MEDLINE desde el archivo XML. Esto devolverá una lista de diccionarios, cada uno que contiene

pmid : ID de PubMed
grant_id : ID de Grant
grant_acronym : acrónimo de Grant
country : país donde otorga fondos de
agency : Agencia de subvención

Si no se encuentra una identificación de subvención, no devolverá None

Parse Medline XML desde el sitio web de Eutils

Puede usar PubMed Parser para analizar el archivo XML de E-Utilidades utilizando parse_xml_web . Para esta función, puede proporcionar un solo pmid como entrada y obtener un diccionario con las siguientes claves

title : Título
abstract : Resumen
journal : diario
affiliation : Afiliación del primer autor
authors : cadena de autores, separados por ;
year : año de publicación
keywords : palabras clave o términos de malla del artículo

 dict_out = pp . parse_xml_web ( pmid , save_xml = False )

PARSE MEDLINE CITACIONES DE LA XML DEL SITIO WEB

La función parse_citation_web le permite obtener las citas a una identificación de PubMed dada o ID central de PubMed. Esto devolverá un diccionario que contiene las siguientes claves

pmc : ID central de PubMed
pmid : ID de PubMed
doi : doi del artículo
n_citations : Número de citas para artículos dados
pmc_cited : Lista de PMC que citan el PMC dado

 dict_out = pp . parse_citation_web ( doc_id , id_type = 'PMC' )

Analizar citas de XML salientes desde el sitio web

La función parse_outgoing_citation_web le permite obtener los artículos que cita un artículo dado, dada una ID PubMed o ID Central de PubMed. Esto devolverá un diccionario que contiene las siguientes claves

n_citations : Número de artículos citados
doc_id : el identificador de documento dado
id_type : el tipo de identificador dado. Ya sea 'PMID' o 'PMC'
pmid_cited : Lista de PMID citadas por el artículo

 dict_out = pp . parse_outgoing_citation_web ( doc_id , id_type = 'PMID' )

Los identificadores deben pasar como cuerdas. Las ID de PubMed Central son predeterminadas y deben aprobarse como cadenas sin el prefijo 'PMC' . Si no se encuentran citas, o si no se encuentra ningún artículo que coincida con doc_id en la base de datos indicada, no devolverá None .

Instalación

Puede instalar la versión más actualizada del paquete directamente desde el repositorio

pip install git+https://github.com/titipata/pubmed_parser.git

o instale la versión reciente con Pypi usando

pip install pubmed-parser

o clonar el repositorio e instalar usando pip

git clone https://github.com/titipata/pubmed_parser
pip install ./pubmed_parser

Puede probar su instalación ejecutando pytest --cov=pubmed_parser tests/ --verbose en la raíz del repositorio.

Ejemplo de fragmento para analizar el conjunto de datos de PubMed OA

Un uso de ejemplo se muestra de la siguiente manera

 import pubmed_parser as pp
path_xml = pp . list_xml_path ( 'data' ) # list all xml paths under directory
pubmed_dict = pp . parse_pubmed_xml ( path_xml [ 0 ]) # dictionary output
print ( pubmed_dict )

{ 'abstract' : u"Background Despite identical genotypes and ..." ,
 'affiliation_list' :
  [[ 'I1' : 'Department of Biological Sciences, ...' ],
   [ 'I2' : 'Biology Department, Queens College, and the Graduate Center ...' ]],
  'author_list' :
  [[ 'Dennehy' , 'John J' , 'I1' ],
   [ 'Dennehy' , 'John J' , 'I2' ],
   [ 'Wang' , 'Ing-Nang' , 'I1' ]],
 'full_title' : u'Factors influencing lysis time stochasticity in bacteriophage u03bb ' ,
 'journal' : 'BMC Microbiology' ,
 'pmc' : '3166277' ,
 'pmid' : '21810267' ,
 'publication_year' : '2011' ,
 'publisher_id' : '1471-2180-11-174' ,
 'subjects' : 'Research Article' }

Uso de ejemplo con Pyspark

Este es un fragmento para analizar todo el subconjunto de acceso abierto PubMed usando Pyspark 2.1

 import os
import pubmed_parser as pp
from pyspark . sql import Row

path_all = pp . list_xml_path ( '/path/to/xml/folder/' )
path_rdd = spark . sparkContext . parallelize ( path_all , numSlices = 10000 )
parse_results_rdd = path_rdd . map ( lambda x : Row ( file_name = os . path . basename ( x ),
                                               ** pp . parse_pubmed_xml ( x )))
pubmed_oa_df = parse_results_rdd . toDF () # Spark dataframe
pubmed_oa_df_sel = pubmed_oa_df [[ 'full_title' , 'abstract' , 'doi' ,
                                 'file_name' , 'pmc' , 'pmid' ,
                                 'publication_year' , 'publisher_id' ,
                                 'journal' , 'subjects' ]] # select columns
pubmed_oa_df_sel . write . parquet ( 'pubmed_oa.parquet' , mode = 'overwrite' ) # write dataframe

Consulte la carpeta de scripts para obtener más información.

Miembros principales

Titipat achakulvisut
Daniel E. Acuna

y contribuyentes

Dependencias

lxml
unidecode
solicitudes

Citación

Si usa PubMed Parser, cíquelo desde Joss de la siguiente manera

Achakulvisut et al., (2020). PubMed Parser: un analizador Python para el subconjunto XML de acceso abierto PubMed y el conjunto de datos XML de datos XML MEDLINE. Journal of Open Source Software, 5 (46), 1979, https://doi.org/10.21105/Joss.01979

o usar bibtex

 @article{Achakulvisut2020,
  doi = {10.21105/joss.01979},
  url = {https://doi.org/10.21105/joss.01979},
  year = {2020},
  publisher = {The Open Journal},
  volume = {5},
  number = {46},
  pages = {1979},
  author = {Titipat Achakulvisut and Daniel Acuna and Konrad Kording},
  title = {Pubmed Parser: A Python Parser for PubMed Open-Access XML Subset and MEDLINE XML Dataset XML Dataset},
  journal = {Journal of Open Source Software}
}

Contribuciones

Agradecemos las contribuciones de cualquiera que desee mejorar el analizador PubMed. Puede crear problemas de GitHub para discutir preguntas o problemas relacionados con el repositorio. Le sugerimos que lea nuestras pautas contribuyentes antes de crear problemas, informar errores o hacer una contribución al repositorio.

Reconocimiento

Este paquete se desarrolla en el laboratorio de Konrad Kording en la Universidad de Pensilvania. Nos gustaría agradecer a los revisores y al editor de Joss, incluidos tleonardi , timClicks y majensen . ¡Hicieron nuestro repositorio mucho mejor!

Licencia

Expandir

Información adicional

Versión Pubmed Parser 0.5.0
Tipo Otro código fuente
Fecha de actualización 2025-04-16
tamaño 54.24MB
Proviene de Github

Aplicaciones relacionadas

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Motor de análisis de datos Lihua versión gratuita 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo