pubmed_parser Download - pubmed_parser Code source Télécharger

pubmed_parser

Autre code source

Pubmed Parser 0.5.0

Télécharger

PubMed Parser: un analyseur Python pour le sous-ensemble XML à accès ouvert PubMe et l'ensemble de données XML MEDLINE

PubMed Parser est une bibliothèque Python pour analyser le sous-ensemble PubMed Open-Access (OA), les référentiels MEDLINE XML et les utilitaires de programmation Entrez (E-UTIL). Il utilise la bibliothèque lxml pour analyser ces informations dans un dictionnaire Python qui peut être facilement utilisé pour la recherche, comme dans l'exploration de texte et les pipelines de traitement du langage naturel.

Pour les API et détails disponibles sur l'ensemble de données, veuillez consulter notre page Wiki ou notre page de documentation pour plus de détails. Ci-dessous, nous énumérons certaines des fonctionnalités de base et des exemples de code.

Analyseurs disponibles

path fourni à une fonction peut être le chemin d'accès à un fichier XML compressé ou non compressé. Nous fournissons des exemples de fichiers dans le dossier data .
Pour l'analyse du site Web, vous devez gratter avec une pause. Veuillez consulter l'avis de droit d'auteur car votre IP peut être bloquée si vous essayez de télécharger en vrac.

Ci-dessous, nous énumérons les analyseurs disponibles de pubmed_parser .

Parse PubMed OA XML Informations
Parse PubMed OA Citation références
Parse PubMed OA Images et légendes
Parse PubMed OA paragraphe
Parse PubMed OA Table [WIP]
Panning Medline XML
Pandine de la subvention Medline
Panne MEDLINE XML du site Web EUTILS
Analyser les citations XML Medline à partir du site Web
Analyser les citations XML sortantes du site Web

Parse PubMed OA XML Informations

Nous avons créé un analyseur simple pour le sous-ensemble PubMed Open Access où vous pouvez donner un chemin ou une chaîne XML à la fonction appelée parse_pubmed_xml qui renverra un dictionnaire avec les informations suivantes:

full_title : titre de l'article
abstract : Résumé
journal : Nom du journal
pmid : ID PubMed
pmc : ID Central PubMed
doi : doi de l'article
publisher_id : ID de l'éditeur
author_list : Liste des auteurs avec des clés d'affiliation dans le format suivant

 [[ 'last_name_1' , 'first_name_1' , 'aff_key_1' ],
  [ 'last_name_1' , 'first_name_1' , 'aff_key_2' ],
  [ 'last_name_2' , 'first_name_2' , 'aff_key_1' ], ...]

affiliation_list : liste des clés d'affiliation et des chaînes d'affiliation dans le format suivant

 [[ 'aff_key_1' , 'affiliation_1' ],
  [ 'aff_key_2' , 'affiliation_2' ], ...]

publication_year : année de publication
subjects : Liste des sujets répertoriés dans l'article séparé par le demi-colon. Parfois, il ne contient que le type de l'article, tel qu'un article de recherche, des procédures d'examen, etc.

 import pubmed_parser as pp
dict_out = pp . parse_pubmed_xml ( path )

Parse PubMed OA Citation références

La fonction parse_pubmed_references traitera un fichier XML Open Access PubMed et renverra une liste des PMID qu'il cite. Chaque dictionnaire a des clés comme suit

pmid : ID PubMed de l'article
pmc : ID Central PubMed de l'article
article_title : titre de l'article cité
journal : Nom du journal
journal_type : type de journal
pmid_cited : PubMed ID de l'article que l'article cite
doi_cited : doi de l'article que l'article cite
year : Année de publication telle qu'elle apparaît dans la référence (peut inclure le suffixe de lettres, EG2007A)

 dicts_out = pp . parse_pubmed_references ( path ) # return list of dictionary

Parse PubMed OA Images et légendes

La fonction parse_pubmed_caption peut analyser les légendes d'image d'un chemin donné vers XML. Il renverra l'index de référence que vous pouvez vous référer à des images réelles. La fonction renverra la liste du dictionnaire qui a des clés suivantes

pmid : ID PubMed
pmc : ID Central PubMed
fig_caption : chaîne de légende
fig_id : ID de référence pour la figure (Utiliser pour vous référer dans l'article XML)
fig_label : étiquette de la figure
graphic_ref : Référence au nom de fichier image fourni à partir de PubMed OA

 dicts_out = pp . parse_pubmed_caption ( path ) # return list of dictionary

Parse PubMed OA paragraphe

Pour quelqu'un qui pourrait être intéressé par l'analyse du texte entourant une citation, la bibliothèque fournit également cette fonctionnalité. Vous pouvez utiliser parse_pubmed_paragraph pour analyser le texte et la référence PMIDS. Cette fonction renverra une liste de dictionnaires, où chaque entrée aura des clés suivantes:

pmid : ID PubMed
pmc : ID Central PubMed
text : texte intégral du paragraphe
reference_ids : Liste du code de référence dans ce paragraphe.

Ces ID peuvent fusionner avec la sortie de parse_pubmed_references .

section : Section du paragraphe (par exemple, discussion, discussion, annexe, etc.)

 dicts_out = pp . parse_pubmed_paragraph ( 'data/6605965a.nxml' , all_paragraph = False )

Parse PubMed OA Table [WIP]

Vous pouvez utiliser parse_pubmed_table pour analyser la table du fichier XML. Cette fonction renverra la liste des dictionnaires où chacun a des clés suivantes.

pmid : ID PubMed
pmc : ID Central PubMed
caption : Légende du tableau
label : lable de la table
table_columns : Liste du nom de la colonne
table_values : liste des valeurs à l'intérieur du tableau
table_xml : Texte XML brut de la table (retournez si return_xml=True )

 dicts_out = pp . parse_pubmed_table ( 'data/medline16n0902.xml.gz' , return_xml = False )

Panning Medline XML

MEDLINE XML a un format XML différent de l'accès ouvert PubMed. La structure des fichiers XML se trouve ici dans MEDLINE / PubMed DTD. Vous pouvez utiliser la fonction parse_medline_xml pour analyser ce format. Cette fonction renverra la liste des dictionnaires, où chaque élément contient:

pmid : ID PubMed
pmc : ID Central PubMed
doi : doi
other_id : autres ID trouvés, chacun séparé par ;
title : Titre de l'article
abstract : Résumé de l'article
authors : Auteurs, chacun séparé par ;
mesh_terms : Liste des termes de maillage avec ID de maillage correspondant, chacun séparé par ; par exemple 'D000161:Acoustic Stimulation; D000328:Adult; ...
publication_types : liste de types de publication Liste chacune séparée par ; Par exemple 'D016428:Journal Article'
keywords : liste des mots clés, chacun séparé par ;
chemical_list : Liste des termes chimiques, chacun séparé par ;
pubdate : Date de publication. Par défaut, les informations de l'année uniquement.
journal : Journal du document donné
medline_ta : c'est l'abréviation du nom du journal
nlm_unique_id : NLM Identification unique
issn_linking : lien ISSN, utilisez généralement pour créer un lien avec le jeu de données Web of Science
country : pays extrait du champ d'information du journal
reference : chaîne de pMID chacune séparée par ; ou la liste des références faites à l'article
delete : booléen si False signifie que le papier a été mis à jour, vous pourriez en avoir deux
languages : Liste des langues, séparées par ;
vernacular_title : titre vernaculaire. Par défaut est une chaîne vide chaque fois que non disponible.

XMLS pour le même papier. Vous pouvez supprimer l'enregistrement du papier supprimé car il a été mis à jour.

 dicts_out = pp . parse_medline_xml ( 'data/medline16n0902.xml.gz' ,
                                 year_info_only = False ,
                                 nlm_category = False ,
                                 author_list = False ,
                                 reference_list = False ) # return list of dictionary

Pour extraire les informations de mois et de jour de Pubdate, définissez year_info_only=True . Nous permettons également d'analyser un résumé structuré et nous pouvons contrôler l'affichage de chaque section ou étiquette en modifiant l'argument nlm_category .

Pandine de la subvention Medline

Utilisez parse_grant_id afin d'analyser les ID de subvention MEDLINE du fichier XML. Cela rendra une liste de dictionnaires, chacun contenant

pmid : ID PubMed
grant_id : ID de subvention
grant_acronym : Acronyme de Grant
country : Pays où accorder le financement de
agency : Agence de subvention

Si aucun identifiant de subvention n'est trouvé, il n'en retournera None

Panne MEDLINE XML du site Web EUTILS

Vous pouvez utiliser PubMed Parser pour analyser le fichier XML à partir des e-Utilities en utilisant parse_xml_web . Pour cette fonction, vous pouvez fournir un seul pmid en entrée et obtenir un dictionnaire avec des clés suivantes

title : titre
abstract : Résumé
journal : journal
affiliation : affiliation du premier auteur
authors : chaîne d'auteurs, séparés par ;
year : Année de publication
keywords : mots clés ou termes en maillage de l'article

 dict_out = pp . parse_xml_web ( pmid , save_xml = False )

Analyser les citations XML Medline à partir du site Web

La fonction parse_citation_web vous permet d'obtenir les citations à un ID PubMed donné ou à PubMed Central ID. Cela rendra un dictionnaire qui contient les clés suivantes

pmc : ID Central PubMed
pmid : ID PubMed
doi : doi de l'article
n_citations : nombre de citations pour les articles donnés
pmc_cited : Liste des PMC qui citent le PMC donné

 dict_out = pp . parse_citation_web ( doc_id , id_type = 'PMC' )

Analyser les citations XML sortantes du site Web

La fonction parse_outgoing_citation_web vous permet d'obtenir les articles qu'un article donné cite, étant donné un ID PubMed ou PubMed Central ID. Cela rendra un dictionnaire qui contient les clés suivantes

n_citations : nombre d'articles cités
doc_id : l'identifiant de document donné
id_type : Le type d'identifiant donné. Soit 'PMID' ou 'PMC'
pmid_cited : Liste des pMID cités par l'article

 dict_out = pp . parse_outgoing_citation_web ( doc_id , id_type = 'PMID' )

Les identifiants doivent être passés comme des cordes. Les ID PubMed Central sont par défaut et doivent être passés sous forme de chaînes sans le préfixe 'PMC' . Si aucune citation n'est trouvée, ou si aucun article n'est trouvé correspondant à doc_id dans la base de données indiquée, il n'en renverra None .

Installation

Vous pouvez installer la version la plus mise à jour du package directement à partir du référentiel

pip install git+https://github.com/titipata/pubmed_parser.git

ou installer une version récente avec PYPI en utilisant

pip install pubmed-parser

ou cloner le référentiel et installer à l'aide de pip

git clone https://github.com/titipata/pubmed_parser
pip install ./pubmed_parser

Vous pouvez tester votre installation en exécutant pytest --cov=pubmed_parser tests/ --verbose dans la racine du référentiel.

Exemple d'extrait pour analyser le jeu de données PubMed OA

Un exemple d'utilisation est montré comme suit

 import pubmed_parser as pp
path_xml = pp . list_xml_path ( 'data' ) # list all xml paths under directory
pubmed_dict = pp . parse_pubmed_xml ( path_xml [ 0 ]) # dictionary output
print ( pubmed_dict )

{ 'abstract' : u"Background Despite identical genotypes and ..." ,
 'affiliation_list' :
  [[ 'I1' : 'Department of Biological Sciences, ...' ],
   [ 'I2' : 'Biology Department, Queens College, and the Graduate Center ...' ]],
  'author_list' :
  [[ 'Dennehy' , 'John J' , 'I1' ],
   [ 'Dennehy' , 'John J' , 'I2' ],
   [ 'Wang' , 'Ing-Nang' , 'I1' ]],
 'full_title' : u'Factors influencing lysis time stochasticity in bacteriophage u03bb ' ,
 'journal' : 'BMC Microbiology' ,
 'pmc' : '3166277' ,
 'pmid' : '21810267' ,
 'publication_year' : '2011' ,
 'publisher_id' : '1471-2180-11-174' ,
 'subjects' : 'Research Article' }

Exemple d'utilisation avec Pyspark

Ceci est un extrait pour analyser tous les sous-ensembles PubMed Open Access à l'aide de Pyspark 2.1

 import os
import pubmed_parser as pp
from pyspark . sql import Row

path_all = pp . list_xml_path ( '/path/to/xml/folder/' )
path_rdd = spark . sparkContext . parallelize ( path_all , numSlices = 10000 )
parse_results_rdd = path_rdd . map ( lambda x : Row ( file_name = os . path . basename ( x ),
                                               ** pp . parse_pubmed_xml ( x )))
pubmed_oa_df = parse_results_rdd . toDF () # Spark dataframe
pubmed_oa_df_sel = pubmed_oa_df [[ 'full_title' , 'abstract' , 'doi' ,
                                 'file_name' , 'pmc' , 'pmid' ,
                                 'publication_year' , 'publisher_id' ,
                                 'journal' , 'subjects' ]] # select columns
pubmed_oa_df_sel . write . parquet ( 'pubmed_oa.parquet' , mode = 'overwrite' ) # write dataframe

Voir le dossier Scripts pour plus d'informations.

Membres de base

Titipat Achakulvisut
Daniel E. Acuna

et contributeurs

Dépendances

lxml
unidecode
demandes

Citation

Si vous utilisez PubMed Parser, veuillez le citer de Joss comme suit

Achakulvisut et al., (2020). PubMed Parser: un analyseur Python pour le sous-ensemble XML à accès ouvert PubMe et l'ensemble de données XML MEDLINE XML. Journal of Open Source Software, 5 (46), 1979, https://doi.org/10.21105/joss.01979

ou en utilisant Bibtex

 @article{Achakulvisut2020,
  doi = {10.21105/joss.01979},
  url = {https://doi.org/10.21105/joss.01979},
  year = {2020},
  publisher = {The Open Journal},
  volume = {5},
  number = {46},
  pages = {1979},
  author = {Titipat Achakulvisut and Daniel Acuna and Konrad Kording},
  title = {Pubmed Parser: A Python Parser for PubMed Open-Access XML Subset and MEDLINE XML Dataset XML Dataset},
  journal = {Journal of Open Source Software}
}

Contributions

Nous accueillons les contributions de tous ceux qui souhaitent améliorer PubMed Parser. Vous pouvez créer des problèmes GitHub pour discuter des questions ou des problèmes relatifs au référentiel. Nous vous suggérons de lire nos directives contributives avant de créer des problèmes, de signaler des bogues ou de contribuer au référentiel.

Reconnaissance

Ce package est développé dans le laboratoire de Konrad Kording à l'Université de Pennsylvanie. Nous tenons à remercier les critiques et l'éditeur de Joss, y compris tleonardi , timClicks et majensen . Ils ont rendu notre référentiel beaucoup meilleur!

Licence

Développer

Informations supplémentaires

Version Pubmed Parser 0.5.0
Type Autre code source
Date de mise à jour 2025-04-16
taille 54.24MB
Provenant de Github

Applications connexes

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Moteur d'analyse de données Lihua version gratuite 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout