Unduh pubmed_parser - Unduh Kode Sumber pubmed

pubmed_parser

Kode sumber lainnya

Pubmed Parser 0.5.0

Unduh

PubMed Parser: Parser Python untuk subset XML Open-Access Open-Access dan Medline XML Dataset

PubMed Parser adalah perpustakaan Python untuk parsing subset PubMed Open-Access (OA), repositori XML Medline, dan utilitas pemrograman entrez (E-UTILS). Ini menggunakan pustaka lxml untuk menguraikan informasi ini menjadi kamus Python yang dapat dengan mudah digunakan untuk penelitian, seperti dalam penambangan teks dan pipa pemrosesan bahasa alami.

Untuk API yang tersedia dan detail tentang dataset, silakan lihat halaman Wiki atau halaman dokumentasi kami untuk lebih jelasnya. Di bawah ini, kami mencantumkan beberapa contoh core funtionalitionalitas dan kode.

Parser yang tersedia

path yang disediakan untuk suatu fungsi dapat menjadi jalur ke file XML terkompresi atau tidak terkompresi. Kami memberikan file contoh di folder data .
Untuk penguraian situs web, Anda harus mengikis dengan jeda. Silakan lihat pemberitahuan hak cipta karena IP Anda dapat diblokir jika Anda mencoba mengunduh dalam jumlah besar.

Di bawah ini, kami mendaftar parser yang tersedia dari pubmed_parser .

Parse PubMed OA XML Informasi
Parse PubMed OA Referensi Kutipan
Parse PubMed OA Gambar dan Keterangan
Parse PubMed OA paragraf
Parse PubMed OA Table [WIP]
Parse Medline XML
Parse Medline ID Grant
Parse Medline XML dari situs web Eutils
Parse Medline XML Kutipan dari Situs Web
Parse kutipan XML keluar dari situs web

Parse PubMed OA XML Informasi

Kami membuat parser sederhana untuk subset akses terbuka PubMed di mana Anda dapat memberikan jalur XML atau string ke fungsi yang disebut parse_pubmed_xml yang akan mengembalikan kamus dengan informasi berikut:

full_title : judul artikel
abstract : Abstrak
journal : Nama Jurnal
pmid : ID PubMed
pmc : PubMed Central ID
doi : doi artikel
publisher_id : ID penerbit
author_list : Daftar penulis dengan kunci afiliasi dalam format berikut

 [[ 'last_name_1' , 'first_name_1' , 'aff_key_1' ],
  [ 'last_name_1' , 'first_name_1' , 'aff_key_2' ],
  [ 'last_name_2' , 'first_name_2' , 'aff_key_1' ], ...]

affiliation_list : Daftar kunci afiliasi dan string afiliasi dalam format berikut

 [[ 'aff_key_1' , 'affiliation_1' ],
  [ 'aff_key_2' , 'affiliation_2' ], ...]

publication_year : tahun publikasi
subjects : Daftar subjek yang tercantum dalam artikel yang dipisahkan oleh titik koma. Terkadang, hanya berisi jenis artikel, seperti artikel penelitian, proses peninjauan, dll.

 import pubmed_parser as pp
dict_out = pp . parse_pubmed_xml ( path )

Parse PubMed OA Referensi Kutipan

Fungsi parse_pubmed_references akan memproses file XML Open Access PubMed dan mengembalikan daftar PMID yang dikutip. Setiap kamus memiliki kunci sebagai berikut

pmid : PubMed ID artikel
pmc : PubMed ID pusat artikel
article_title : judul artikel yang dikutip
journal : Nama Jurnal
journal_type : Jenis Jurnal
pmid_cited : PubMed ID artikel yang dikutip artikel
doi_cited : doi artikel yang dikutip artikel
year : Tahun publikasi seperti yang muncul dalam referensi (dapat termasuk akhiran surat, EG2007A)

 dicts_out = pp . parse_pubmed_references ( path ) # return list of dictionary

Parse PubMed OA Gambar dan Keterangan

Fungsi parse_pubmed_caption dapat menguraikan teks gambar dari jalur yang diberikan ke file XML. Ini akan mengembalikan indeks referensi yang dapat Anda rujuk kembali ke gambar yang sebenarnya. Fungsi akan mengembalikan daftar kamus yang memiliki kunci berikut

pmid : ID PubMed
pmc : PubMed Central ID
fig_caption : String of Caption
fig_id : ID referensi untuk Gambar (Gunakan untuk merujuk dalam artikel XML)
fig_label : label gambar
graphic_ref : Referensi ke nama file gambar yang disediakan dari PubMed OA

 dicts_out = pp . parse_pubmed_caption ( path ) # return list of dictionary

Parse PubMed OA paragraf

Untuk seseorang yang mungkin tertarik untuk mem -parsing teks yang mengelilingi kutipan, perpustakaan juga menyediakan fungsionalitas itu. Anda dapat menggunakan parse_pubmed_paragraph untuk parse teks dan referensi PMIDS. Fungsi ini akan mengembalikan daftar kamus, di mana setiap entri akan memiliki kunci berikut:

pmid : ID PubMed
pmc : PubMed Central ID
text : Teks lengkap dari paragraf
reference_ids : Daftar kode referensi dalam paragraf itu.

ID ini dapat bergabung dengan output dari parse_pubmed_references .

section : Bagian paragraf (misalnya latar belakang, diskusi, lampiran, dll.)

 dicts_out = pp . parse_pubmed_paragraph ( 'data/6605965a.nxml' , all_paragraph = False )

Parse PubMed OA Table [WIP]

Anda dapat menggunakan parse_pubmed_table ke tabel parse dari file xml. Fungsi ini akan mengembalikan daftar kamus di mana masing -masing memiliki kunci berikut.

pmid : ID PubMed
pmc : PubMed Central ID
caption : Keterangan Tabel
label : lable dari tabel
table_columns : Daftar nama kolom
table_values : Daftar Nilai di Dalam Tabel
table_xml : Teks XML mentah dari tabel (return if return_xml=True )

 dicts_out = pp . parse_pubmed_table ( 'data/medline16n0902.xml.gz' , return_xml = False )

Parse Medline XML

Medline XML memiliki format XML yang berbeda dari PubMed Open Access. Struktur file XML dapat ditemukan di Medline/PubMed DTD di sini. Anda dapat menggunakan fungsi parse_medline_xml untuk menguraikan format itu. Fungsi ini akan mengembalikan daftar kamus, di mana setiap elemen berisi:

pmid : ID PubMed
pmc : PubMed Central ID
doi : doi
other_id : ID lain ditemukan, masing -masing dipisahkan oleh ;
title : Judul artikel
abstract : Abstrak artikel
authors : Penulis, masing -masing dipisahkan oleh ;
mesh_terms : Daftar istilah mesh dengan id mesh yang sesuai, masing -masing dipisahkan oleh ; misalnya 'D000161:Acoustic Stimulation; D000328:Adult; ...
publication_types : Daftar daftar jenis publikasi masing -masing dipisahkan oleh ; misalnya 'D016428:Journal Article'
keywords : Daftar kata kunci, masing -masing dipisahkan oleh ;
chemical_list : Daftar istilah kimia, masing -masing dipisahkan oleh ;
pubdate : Tanggal publikasi. Informasi default ke tahun saja.
journal : Jurnal makalah yang diberikan
medline_ta : Ini adalah singkatan dari nama jurnal
nlm_unique_id : identifikasi unik nlm
issn_linking : tautan ISSN, biasanya digunakan untuk menautkan dengan Web of Science Dataset
country : Negara Diekstraksi dari Bidang Informasi Jurnal
reference : String PMID masing -masing dipisahkan oleh ; atau daftar referensi yang dibuat untuk artikel
delete : boolean jika False berarti kertas diperbarui sehingga Anda mungkin memiliki dua
languages : Daftar bahasa, dipisahkan oleh ;
vernacular_title : judul vernakular. Default ke string kosong kapan pun tidak tersedia.

XMLS untuk makalah yang sama. Anda dapat menghapus catatan kertas yang dihapus karena diperbarui.

 dicts_out = pp . parse_medline_xml ( 'data/medline16n0902.xml.gz' ,
                                 year_info_only = False ,
                                 nlm_category = False ,
                                 author_list = False ,
                                 reference_list = False ) # return list of dictionary

Untuk mengekstrak informasi bulan dan hari dari pubdate, setel year_info_only=True . Kami juga mengizinkan parsing abstrak terstruktur dan kami dapat mengontrol tampilan dari setiap bagian atau label dengan mengubah argumen nlm_category .

Parse Medline ID Grant

Gunakan parse_grant_id untuk parse ID hibah Medline dari file XML. Ini akan mengembalikan daftar kamus, masing -masing berisi

pmid : ID PubMed
grant_id : ID Grant
grant_acronym : akronim hibah
country : Negara tempat dana hibah dari
agency : Agen Hibah

Jika tidak ada ID hibah yang ditemukan, itu tidak akan mengembalikan None

Parse Medline XML dari situs web Eutils

Anda dapat menggunakan PubMed Parser untuk parse file XML dari e-utilitas menggunakan parse_xml_web . Untuk fungsi ini, Anda dapat memberikan pmid tunggal sebagai input dan mendapatkan kamus dengan kunci berikut

title : Judul
abstract : Abstrak
journal : Jurnal
affiliation : Afiliasi Penulis Pertama
authors : String penulis, dipisahkan oleh ;
year : Tahun Publikasi
keywords : Kata kunci atau istilah mesh dari artikel ini

 dict_out = pp . parse_xml_web ( pmid , save_xml = False )

Parse Medline XML Kutipan dari Situs Web

Fungsi parse_citation_web memungkinkan Anda untuk mendapatkan kutipan ke ID PubMed atau PubMed Central ID yang diberikan. Ini akan mengembalikan kamus yang berisi kunci berikut

pmc : PubMed Central ID
pmid : ID PubMed
doi : doi artikel
n_citations : Jumlah kutipan untuk artikel yang diberikan
pmc_cited : Daftar PMC yang mengutip PMC yang diberikan

 dict_out = pp . parse_citation_web ( doc_id , id_type = 'PMC' )

Parse kutipan XML keluar dari situs web

Fungsi parse_outgoing_citation_web memungkinkan Anda untuk mendapatkan artikel yang dikutip artikel yang diberikan, diberikan ID PubMed atau PubMed Central ID. Ini akan mengembalikan kamus yang berisi kunci berikut

n_citations : Jumlah artikel yang dikutip
doc_id : Pengidentifikasi dokumen yang diberikan
id_type : Jenis pengidentifikasi yang diberikan. Baik 'PMID' atau 'PMC'
pmid_cited : Daftar PMID yang dikutip oleh artikel tersebut

 dict_out = pp . parse_outgoing_citation_web ( doc_id , id_type = 'PMID' )

Pengidentifikasi harus dilewati sebagai string. PubMed Central ID adalah default, dan harus diteruskan sebagai string tanpa awalan 'PMC' . Jika tidak ada kutipan yang ditemukan, atau jika tidak ada artikel yang ditemukan pencocokan doc_id dalam database yang ditunjukkan, itu tidak akan mengembalikan None .

Instalasi

Anda dapat menginstal versi paling banyak dari paket langsung dari repositori

pip install git+https://github.com/titipata/pubmed_parser.git

atau instal rilis terbaru dengan PYPI menggunakan

pip install pubmed-parser

atau klon repositori dan instal menggunakan pip

git clone https://github.com/titipata/pubmed_parser
pip install ./pubmed_parser

Anda dapat menguji instalasi Anda dengan menjalankan pytest --cov=pubmed_parser tests/ --verbose di akar repositori.

Contoh cuplikan untuk parse pubmed dataset OA

Contoh penggunaan ditampilkan sebagai berikut

 import pubmed_parser as pp
path_xml = pp . list_xml_path ( 'data' ) # list all xml paths under directory
pubmed_dict = pp . parse_pubmed_xml ( path_xml [ 0 ]) # dictionary output
print ( pubmed_dict )

{ 'abstract' : u"Background Despite identical genotypes and ..." ,
 'affiliation_list' :
  [[ 'I1' : 'Department of Biological Sciences, ...' ],
   [ 'I2' : 'Biology Department, Queens College, and the Graduate Center ...' ]],
  'author_list' :
  [[ 'Dennehy' , 'John J' , 'I1' ],
   [ 'Dennehy' , 'John J' , 'I2' ],
   [ 'Wang' , 'Ing-Nang' , 'I1' ]],
 'full_title' : u'Factors influencing lysis time stochasticity in bacteriophage u03bb ' ,
 'journal' : 'BMC Microbiology' ,
 'pmc' : '3166277' ,
 'pmid' : '21810267' ,
 'publication_year' : '2011' ,
 'publisher_id' : '1471-2180-11-174' ,
 'subjects' : 'Research Article' }

Contoh penggunaan dengan pyspark

Ini adalah cuplikan untuk mengurai semua subset akses terbuka PubMed menggunakan Pyspark 2.1

 import os
import pubmed_parser as pp
from pyspark . sql import Row

path_all = pp . list_xml_path ( '/path/to/xml/folder/' )
path_rdd = spark . sparkContext . parallelize ( path_all , numSlices = 10000 )
parse_results_rdd = path_rdd . map ( lambda x : Row ( file_name = os . path . basename ( x ),
                                               ** pp . parse_pubmed_xml ( x )))
pubmed_oa_df = parse_results_rdd . toDF () # Spark dataframe
pubmed_oa_df_sel = pubmed_oa_df [[ 'full_title' , 'abstract' , 'doi' ,
                                 'file_name' , 'pmc' , 'pmid' ,
                                 'publication_year' , 'publisher_id' ,
                                 'journal' , 'subjects' ]] # select columns
pubmed_oa_df_sel . write . parquet ( 'pubmed_oa.parquet' , mode = 'overwrite' ) # write dataframe

Lihat Folder Script untuk informasi lebih lanjut.

Anggota inti

Titipat Achakulvisut
Daniel E. Acuna

dan kontributor

Dependensi

lxml
Unidecode
permintaan

Kutipan

Jika Anda menggunakan PubMed Parser, silakan kutip dari Joss sebagai berikut

Achakulvisut et al., (2020). PubMed Parser: Parser Python untuk subset XML Open-Access Open-Access dan Dataset XML Medline XML. Jurnal Perangkat Lunak Open Source, 5 (46), 1979, https://doi.org/10.21105/joss.01979

atau menggunakan Bibtex

 @article{Achakulvisut2020,
  doi = {10.21105/joss.01979},
  url = {https://doi.org/10.21105/joss.01979},
  year = {2020},
  publisher = {The Open Journal},
  volume = {5},
  number = {46},
  pages = {1979},
  author = {Titipat Achakulvisut and Daniel Acuna and Konrad Kording},
  title = {Pubmed Parser: A Python Parser for PubMed Open-Access XML Subset and MEDLINE XML Dataset XML Dataset},
  journal = {Journal of Open Source Software}
}

Kontribusi

Kami menyambut kontribusi dari siapa pun yang ingin meningkatkan PubMed Parser. Anda dapat membuat masalah GitHub untuk membahas pertanyaan atau masalah yang berkaitan dengan repositori. Kami menyarankan Anda untuk membaca pedoman yang berkontribusi sebelum membuat masalah, melaporkan bug, atau memberikan kontribusi ke repositori.

Pengakuan

Paket ini dikembangkan di laboratorium Konrad Kording di University of Pennsylvania. Kami ingin mengucapkan terima kasih kepada pengulas dan editor dari Joss termasuk tleonardi , timClicks , dan majensen . Mereka membuat repositori kami jauh lebih baik!

Lisensi

Memperluas

Informasi Tambahan

Versi Pubmed Parser 0.5.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-16
ukuran 54.24MB
Berasal dari Github

Aplikasi Terkait

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Mesin analisis data Lihua versi gratis 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua