Download do pubmed_parser - pubmed_parser do download do código -fonte

pubmed_parser

Outro código-fonte

Pubmed Parser 0.5.0

Baixar

PubMed Parser: um analisador Python para o subconjunto XML de acesso aberto do PubMed e um conjunto de dados Medline XML

O PubMed Parser é uma biblioteca Python para analisar o subconjunto de acesso aberto (OA) do PubMed, repositórios MEDLINE XML e Utilitários de Programação de Entrez (E-UTILS). Ele usa a biblioteca lxml para analisar essas informações em um dicionário Python, que pode ser facilmente usado para pesquisa, como na mineração de texto e nos pipelines de processamento de linguagem natural.

Para obter APIs e detalhes disponíveis sobre o conjunto de dados, consulte nossa página do wiki ou página de documentação para obter mais detalhes. Abaixo, listamos algumas das funções principais e exemplos de código.

Analisadores disponíveis

path fornecido para uma função pode ser o caminho para um arquivo XML compactado ou não compactado. Fornecemos arquivos de exemplo na pasta data .
Para análise do site, você deve raspar com pausa. Consulte o Aviso de direitos autorais porque seu IP pode ser bloqueado se você tentar baixar a granel.

Abaixo, listamos os analisadores disponíveis no pubmed_parser .

Parse PubMed OA XML Informações
Parse PubMed OA Citation Referências
Parse PubMed OA imagens e legendas
Parágrafo do PubMed OA
Parse PubMed OA Table [WIP]
Parse Medline XML
ID de concessão de parse medline
Parse Medline XML, do site da EUTILS
Parse Medline XML Citações do site
Analise as citações XML de saída do site

Parse PubMed OA XML Informações

Criamos um analisador simples para o subconjunto de acesso aberto do PubMed, onde você pode fornecer um caminho ou string xml para a função chamada parse_pubmed_xml , que retornará um dicionário com as seguintes informações:

full_title : título do artigo
abstract : Resumo
journal : Nome do Jornal
pmid : PubMed ID
pmc : PubMed Central ID
doi : doi do artigo
publisher_id : ID do editor
author_list : Lista de autores com chaves de afiliação no seguinte formato

 [[ 'last_name_1' , 'first_name_1' , 'aff_key_1' ],
  [ 'last_name_1' , 'first_name_1' , 'aff_key_2' ],
  [ 'last_name_2' , 'first_name_2' , 'aff_key_1' ], ...]

affiliation_list : lista de chaves de afiliação e seqüências de afiliação no seguinte formato

 [[ 'aff_key_1' , 'affiliation_1' ],
  [ 'aff_key_2' , 'affiliation_2' ], ...]

publication_year : ano de publicação
subjects : Lista de assuntos listados no artigo separado por Semicolon. Às vezes, ele contém apenas o tipo de artigo, como um artigo de pesquisa, procedimentos de revisão etc.

 import pubmed_parser as pp
dict_out = pp . parse_pubmed_xml ( path )

Parse PubMed OA Citation Referências

A função parse_pubmed_references processará um arquivo XML de acesso aberto do PubMed e retornará uma lista dos PMIDs que cita. Cada dicionário tem chaves da seguinte maneira

pmid : PubMed ID do artigo
pmc : PubMed Central ID do artigo
article_title : título do artigo citado
journal : Nome do Jornal
journal_type : tipo de diário
pmid_cited : PubMed ID do artigo que o artigo cita
doi_cited : doi do artigo que o artigo cita
year : Ano da publicação como aparece na referência (pode incluir sufixo de carta, EG2007A)

 dicts_out = pp . parse_pubmed_references ( path ) # return list of dictionary

Parse PubMed OA imagens e legendas

A função parse_pubmed_caption pode analisar legendas de imagem de um determinado caminho para o arquivo XML. Ele retornará o índice de referência que você pode consultar de volta às imagens reais. A função retornará a lista de dicionários que possuem as seguintes chaves

pmid : PubMed ID
pmc : PubMed Central ID
fig_caption : String of Legend
fig_id : ID de referência para a Figura (Use para consultar no artigo XML)
fig_label : rótulo da figura
graphic_ref : referência ao nome do arquivo de imagem fornecido no PubMed OA

 dicts_out = pp . parse_pubmed_caption ( path ) # return list of dictionary

Parágrafo do PubMed OA

Para alguém que pode estar interessado em analisar o texto em torno de uma citação, a biblioteca também fornece essa funcionalidade. Você pode usar parse_pubmed_paragraph para analisar o texto e referenciar PMIDs. Esta função retornará uma lista de dicionários, onde cada entrada terá as seguintes chaves:

pmid : PubMed ID
pmc : PubMed Central ID
text : Texto completo do parágrafo
reference_ids : Lista de código de referência dentro desse parágrafo.

Esses IDs podem se fundir com a saída de parse_pubmed_references .

section : Seção do parágrafo (por exemplo, plano de fundo, discussão, apêndice, etc.)

 dicts_out = pp . parse_pubmed_paragraph ( 'data/6605965a.nxml' , all_paragraph = False )

Parse PubMed OA Table [WIP]

Você pode usar parse_pubmed_table para analisar a tabela do arquivo XML. Esta função retornará a lista de dicionários, onde cada um tem as seguintes chaves.

pmid : PubMed ID
pmc : PubMed Central ID
caption : Legenda da tabela
label : Lable da tabela
table_columns : Lista de nome da coluna
table_values : lista de valores dentro da tabela
table_xml : texto xml bruto da tabela (retornar se return_xml=True )

 dicts_out = pp . parse_pubmed_table ( 'data/medline16n0902.xml.gz' , return_xml = False )

Parse Medline XML

O MEDLINE XML possui um formato XML diferente do que o PubMed Open Acesso. A estrutura dos arquivos XML pode ser encontrada no Medline/PubMed DTD aqui. Você pode usar a função parse_medline_xml para analisar esse formato. Esta função retornará a lista de dicionários, onde cada elemento contém:

pmid : PubMed ID
pmc : PubMed Central ID
doi : doi
other_id : outros IDs encontrados, cada um separado por ;
title : Título do Artigo
abstract : Resumo do artigo
authors : autores, cada um separado por ;
mesh_terms : lista de termos de malha com ID de malha correspondente, cada um separado por ; Por exemplo 'D000161:Acoustic Stimulation; D000328:Adult; ...
publication_types : lista da lista de tipos de publicação, cada uma separada por ; Por exemplo, 'D016428:Journal Article'
keywords : lista de palavras -chave, cada uma separada por ;
chemical_list : lista de termos químicos, cada um separado por ;
pubdate : data de publicação. Padrões apenas para informações do ano.
journal : Jornal do artigo fornecido
medline_ta : Esta é a abreviação do nome do diário
nlm_unique_id : nlm identificação única
issn_linking : ISSN Linkage, normalmente use para vincular o conjunto de dados da Web of Science
country : país extraído do campo de informações do diário
reference : String de PMID cada um separado por ; ou lista de referências feitas ao artigo
delete : Booleano se False significa que o papel foi atualizado para ter dois
languages : lista de idiomas, separados por ;
vernacular_title : título vernacular. Padrões de esvaziar a string sempre que não disponível.

XMLs para o mesmo papel. Você pode excluir o registro de papel excluído porque ele foi atualizado.

 dicts_out = pp . parse_medline_xml ( 'data/medline16n0902.xml.gz' ,
                                 year_info_only = False ,
                                 nlm_category = False ,
                                 author_list = False ,
                                 reference_list = False ) # return list of dictionary

Para extrair informações do mês e do dia do Pubdate, defina year_info_only=True . Também permitimos analisar abstrato estruturado e podemos controlar a exibição de cada seção ou rótulo alterando o argumento nlm_category .

ID de concessão de parse medline

Use parse_grant_id para analisar os IDs de concessão do MEDLINE do arquivo XML. Isso retornará uma lista de dicionários, cada um contendo

pmid : PubMed ID
grant_id : ID de concessão
grant_acronym : sigla de concessão
country : país onde concede financiamento de
agency : agência de concessão

Se nenhum ID de concessão for encontrado, ele retornará None

Parse Medline XML, do site da EUTILS

Você pode usar o analiser do PubMed para analisar o arquivo XML de e-utities usando parse_xml_web . Para esta função, você pode fornecer um único pmid como uma entrada e obter um dicionário com as seguintes chaves

title : Título
abstract : Resumo
journal : Jornal
affiliation : Afiliação do Primeiro Autor
authors : String of Authors, separados por ;
year : Ano de Publicação
keywords : palavras -chave ou termos de malha do artigo

 dict_out = pp . parse_xml_web ( pmid , save_xml = False )

Parse Medline XML Citações do site

A função parse_citation_web permite obter as citações para um determinado ID do PubMed ou PubMed Central ID. Isso retornará um dicionário que contém as seguintes chaves

pmc : PubMed Central ID
pmid : PubMed ID
doi : doi do artigo
n_citations : Número de citações para determinados artigos
pmc_cited : Lista de PMCs que citam o PMC fornecido

 dict_out = pp . parse_citation_web ( doc_id , id_type = 'PMC' )

Analise as citações XML de saída do site

A função parse_outgoing_citation_web permite que você obtenha os artigos que um determinado artigo cita, dado um PubMed ID ou PubMed Central ID. Isso retornará um dicionário que contém as seguintes chaves

n_citations : número de artigos citados
doc_id : o identificador de documento dado
id_type : o tipo de identificador dado. 'PMID' ou 'PMC'
pmid_cited : Lista de PMIDs citados pelo artigo

 dict_out = pp . parse_outgoing_citation_web ( doc_id , id_type = 'PMID' )

Os identificadores devem ser passados como cordas. O PubMed Central IDs é padrão e deve ser passado como cordas sem o prefixo 'PMC' . Se nenhuma citações for encontrada, ou se nenhum artigo for encontrado correspondente doc_id no banco de dados indicado, ele não retornará None .

Instalação

Você pode instalar a versão mais atualizada do pacote diretamente do repositório

pip install git+https://github.com/titipata/pubmed_parser.git

ou instalar uma versão recente com Pypi usando

pip install pubmed-parser

ou clonar o repositório e instalar usando pip

git clone https://github.com/titipata/pubmed_parser
pip install ./pubmed_parser

Você pode testar sua instalação executando pytest --cov=pubmed_parser tests/ --verbose na raiz do repositório.

Exemplo de trecho para analisar o conjunto de dados do PubMed OA

Um exemplo de uso é mostrado o seguinte

 import pubmed_parser as pp
path_xml = pp . list_xml_path ( 'data' ) # list all xml paths under directory
pubmed_dict = pp . parse_pubmed_xml ( path_xml [ 0 ]) # dictionary output
print ( pubmed_dict )

{ 'abstract' : u"Background Despite identical genotypes and ..." ,
 'affiliation_list' :
  [[ 'I1' : 'Department of Biological Sciences, ...' ],
   [ 'I2' : 'Biology Department, Queens College, and the Graduate Center ...' ]],
  'author_list' :
  [[ 'Dennehy' , 'John J' , 'I1' ],
   [ 'Dennehy' , 'John J' , 'I2' ],
   [ 'Wang' , 'Ing-Nang' , 'I1' ]],
 'full_title' : u'Factors influencing lysis time stochasticity in bacteriophage u03bb ' ,
 'journal' : 'BMC Microbiology' ,
 'pmc' : '3166277' ,
 'pmid' : '21810267' ,
 'publication_year' : '2011' ,
 'publisher_id' : '1471-2180-11-174' ,
 'subjects' : 'Research Article' }

Exemplo de uso com Pyspark

Este é um snippet para analisar All PubMed Open Acep Subster usando Pyspark 2.1

 import os
import pubmed_parser as pp
from pyspark . sql import Row

path_all = pp . list_xml_path ( '/path/to/xml/folder/' )
path_rdd = spark . sparkContext . parallelize ( path_all , numSlices = 10000 )
parse_results_rdd = path_rdd . map ( lambda x : Row ( file_name = os . path . basename ( x ),
                                               ** pp . parse_pubmed_xml ( x )))
pubmed_oa_df = parse_results_rdd . toDF () # Spark dataframe
pubmed_oa_df_sel = pubmed_oa_df [[ 'full_title' , 'abstract' , 'doi' ,
                                 'file_name' , 'pmc' , 'pmid' ,
                                 'publication_year' , 'publisher_id' ,
                                 'journal' , 'subjects' ]] # select columns
pubmed_oa_df_sel . write . parquet ( 'pubmed_oa.parquet' , mode = 'overwrite' ) # write dataframe

Consulte a pasta Scripts para obter mais informações.

Membros principais

Titipat Achakulvisut
Daniel E. Acuna

e colaboradores

Dependências

lxml
unidecode
solicitações

Citação

Se você usar o analisador PubMed, cite -o de Joss da seguinte maneira

Achakulvisut et al., (2020). PubMed Parser: Um analisador Python para o subconjunto XML de acesso aberto do PubMed e Medline XML DataSet XML DataSet. Journal of Open Source Software, 5 (46), 1979, https://doi.org/10.21105/joss.01979

ou usando Bibtex

 @article{Achakulvisut2020,
  doi = {10.21105/joss.01979},
  url = {https://doi.org/10.21105/joss.01979},
  year = {2020},
  publisher = {The Open Journal},
  volume = {5},
  number = {46},
  pages = {1979},
  author = {Titipat Achakulvisut and Daniel Acuna and Konrad Kording},
  title = {Pubmed Parser: A Python Parser for PubMed Open-Access XML Subset and MEDLINE XML Dataset XML Dataset},
  journal = {Journal of Open Source Software}
}

Contribuições

Congratulamo -nos com contribuições de quem gostaria de melhorar o PubMed Parser. Você pode criar problemas do GitHub para discutir questões ou questões relacionadas ao repositório. Sugerimos que você leia nossas diretrizes contribuintes antes de criar problemas, relatar bugs ou fazer uma contribuição para o repositório.

Reconhecimento

Este pacote é desenvolvido no laboratório de Konrad Kording na Universidade da Pensilvânia. Gostaríamos de agradecer aos revisores e ao editor de Joss, incluindo tleonardi , timClicks e majensen . Eles tornaram nosso repositório muito melhor!

Licença

Expandir

Informações adicionais

Versão Pubmed Parser 0.5.0
Tipo Outro código-fonte
Data da Última Atualização 2025-04-16
tamanho 54.24MB
Vindo de Github

Aplicativos Relacionados

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Mecanismo de análise de dados Lihua versão gratuita 3.0_search_navigation_collection_public parecer_ranking_api

2022-06-28

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos