ดาวน์โหลด pubmed_parser - ดาวน์โหลดซอร์สโค้ด pubmed

pubmed_parser

ซอร์สโค้ดอื่น ๆ

Pubmed Parser 0.5.0

ดาวน์โหลด

PubMed Parser: Python Parser สำหรับ PubMed ชุดย่อย XML แบบเปิดการเข้าถึงและชุดข้อมูล Medline XML

PubMed Parser เป็นไลบรารี Python สำหรับการแยกวิเคราะห์ชุดย่อย PubMed Open-Access (OA), ที่เก็บ Medline XML และ Entrez Programming Utilities (E-utils) มันใช้ไลบรารี lxml เพื่อแยกวิเคราะห์ข้อมูลนี้เป็นพจนานุกรม Python ซึ่งสามารถใช้งานได้ง่ายสำหรับการวิจัยเช่นในการทำเหมืองข้อความและท่อประมวลผลภาษาธรรมชาติ

สำหรับ API ที่มีอยู่และรายละเอียดเกี่ยวกับชุดข้อมูลโปรดดูหน้า Wiki หรือหน้าเอกสารสำหรับรายละเอียดเพิ่มเติม ด้านล่างเราแสดงรายการ Funtionalities หลักและตัวอย่างรหัส

ตัวแยกวิเคราะห์ที่มีอยู่

path ที่ให้กับฟังก์ชั่นสามารถเป็นเส้นทางไปยังไฟล์ XML ที่บีบอัดหรือไม่บีบอัด เราให้ตัวอย่างไฟล์ในโฟลเดอร์ data
สำหรับการแยกวิเคราะห์เว็บไซต์คุณควรขูดด้วยการหยุดชั่วคราว โปรดดูประกาศลิขสิทธิ์เนื่องจาก IP ของคุณสามารถถูกบล็อกได้หากคุณพยายามดาวน์โหลดเป็นกลุ่ม

ด้านล่างเราแสดงรายการตัวแยกวิเคราะห์ที่มีอยู่จาก pubmed_parser

Parse PubMed OA XML ข้อมูล
Parse PubMed OA อ้างอิงอ้างอิง
Parse PubMed OA Images and Captions
Parse PubMed OA ย่อหน้า
Parse PubMed OA Table [WIP]
แยกวิเคราะห์ medline xml
Parse Medline Grant ID
Parse Medline XML จากเว็บไซต์ Eutils
Parse Medline XML การอ้างอิงจากเว็บไซต์
แยกวิเคราะห์การอ้างอิง XML ออกจากเว็บไซต์

Parse PubMed OA XML ข้อมูล

เราสร้างตัวแยกวิเคราะห์อย่างง่ายสำหรับชุดย่อย PubMed Open Access ซึ่งคุณสามารถให้เส้นทาง XML หรือสตริงกับฟังก์ชั่นที่เรียกว่า parse_pubmed_xml ซึ่งจะส่งคืนพจนานุกรมด้วยข้อมูลต่อไปนี้:

full_title : ชื่อของบทความ
abstract : บทคัดย่อ
journal : วารสารชื่อ
pmid : ID PubMed
pmc : PubMed Central ID
doi : ดอยของบทความ
publisher_id : Publisher ID
author_list : รายชื่อผู้แต่งที่มีคีย์ในเครือในรูปแบบต่อไปนี้

 [[ 'last_name_1' , 'first_name_1' , 'aff_key_1' ],
  [ 'last_name_1' , 'first_name_1' , 'aff_key_2' ],
  [ 'last_name_2' , 'first_name_2' , 'aff_key_1' ], ...]

affiliation_list : รายการคีย์พันธมิตรและสตริงในเครือในรูปแบบต่อไปนี้

 [[ 'aff_key_1' , 'affiliation_1' ],
  [ 'aff_key_2' , 'affiliation_2' ], ...]

publication_year : ปีสิ่งพิมพ์
subjects : รายการของวิชาที่ระบุไว้ในบทความคั่นด้วยเครื่องหมายอัฒภาค บางครั้งมีเพียงประเภทของบทความเช่นบทความวิจัยการตรวจสอบการดำเนินคดี ฯลฯ

 import pubmed_parser as pp
dict_out = pp . parse_pubmed_xml ( path )

Parse PubMed OA อ้างอิงอ้างอิง

ฟังก์ชั่น parse_pubmed_references จะประมวลผลไฟล์ PubMed Open Access XML และส่งคืนรายการ PMIDS ที่อ้างอิง แต่ละพจนานุกรมมีคีย์ดังนี้

pmid : ID PubMed ของบทความ
pmc : PubMed Central ID ของบทความ
article_title : ชื่อเรื่องของบทความที่อ้างถึง
journal : วารสารชื่อ
journal_type : ประเภทของวารสาร
pmid_cited : ID PubMed ของบทความที่บทความอ้างอิง
doi_cited : doi ของบทความที่บทความอ้างอิง
year : ปีที่สิ่งพิมพ์ตามที่ปรากฏในการอ้างอิง (อาจรวมถึงคำต่อท้ายจดหมาย, EG2007A)

 dicts_out = pp . parse_pubmed_references ( path ) # return list of dictionary

Parse PubMed OA Images and Captions

ฟังก์ชั่น parse_pubmed_caption สามารถแยกวิเคราะห์คำอธิบายภาพจากเส้นทางที่กำหนดไปยังไฟล์ XML มันจะส่งคืนดัชนีอ้างอิงที่คุณสามารถอ้างอิงกลับไปที่ภาพจริง ฟังก์ชั่นจะส่งคืนรายการพจนานุกรมซึ่งมีคีย์ดังต่อไปนี้

pmid : ID PubMed
pmc : PubMed Central ID
fig_caption : สตริงของคำบรรยายภาพ
fig_id : ID อ้างอิงสำหรับรูป (ใช้เพื่ออ้างอิงในบทความ XML)
fig_label : ฉลากของรูป
graphic_ref : การอ้างอิงถึงชื่อไฟล์ภาพที่ได้รับจาก PubMed OA

 dicts_out = pp . parse_pubmed_caption ( path ) # return list of dictionary

Parse PubMed OA ย่อหน้า

สำหรับคนที่อาจสนใจวิเคราะห์ข้อความรอบ ๆ การอ้างอิงห้องสมุดยังให้ฟังก์ชั่นนั้น คุณสามารถใช้ parse_pubmed_paragraph เพื่อแยกวิเคราะห์ข้อความและอ้างอิง pmids ฟังก์ชั่นนี้จะส่งคืนรายการพจนานุกรมซึ่งแต่ละรายการจะมีคีย์ดังต่อไปนี้:

pmid : ID PubMed
pmc : PubMed Central ID
text : ข้อความเต็มของย่อหน้า
reference_ids : รายการรหัสอ้างอิงภายในวรรคนั้น

ID นี้สามารถรวมกับเอาต์พุตจาก parse_pubmed_references

section : ส่วนของวรรค (เช่นพื้นหลัง, การสนทนา, ภาคผนวก ฯลฯ )

 dicts_out = pp . parse_pubmed_paragraph ( 'data/6605965a.nxml' , all_paragraph = False )

Parse PubMed OA Table [WIP]

คุณสามารถใช้ parse_pubmed_table เพื่อแยกวิเคราะห์ตารางจากไฟล์ XML ฟังก์ชั่นนี้จะส่งคืนรายการพจนานุกรมที่แต่ละรายการมีคีย์ดังต่อไปนี้

pmid : ID PubMed
pmc : PubMed Central ID
caption : คำบรรยายภาพของตาราง
label : lable ของตาราง
table_columns : รายการชื่อคอลัมน์
table_values : รายการค่าภายในตาราง
table_xml : ข้อความ XML ดิบของตาราง (return ถ้า return_xml=True )

 dicts_out = pp . parse_pubmed_table ( 'data/medline16n0902.xml.gz' , return_xml = False )

แยกวิเคราะห์ medline xml

Medline XML มีรูปแบบ XML ที่แตกต่างจาก PubMed Open Access โครงสร้างของไฟล์ XML สามารถพบได้ใน Medline/PubMed DTD ที่นี่ คุณสามารถใช้ฟังก์ชั่น parse_medline_xml เพื่อแยกวิเคราะห์รูปแบบนั้น ฟังก์ชั่นนี้จะส่งคืนรายการพจนานุกรมที่แต่ละองค์ประกอบมี:

pmid : ID PubMed
pmc : PubMed Central ID
doi : ดอย
other_id : พบรหัสอื่น ๆ แต่ละแยกกันโดย ;
title : ชื่อเรื่องของบทความ
abstract : บทคัดย่อของบทความ
authors : ผู้เขียนแต่ละคนคั่นด้วย ;
mesh_terms : รายการคำศัพท์ตาข่ายที่มี ID ตาข่ายที่สอดคล้องกันแต่ละคั่นด้วย ; เช่น 'D000161:Acoustic Stimulation; D000328:Adult; ...
publication_types : รายการประเภทประเภทสิ่งพิมพ์แต่ละรายการคั่นด้วย ; เช่น 'D016428:Journal Article'
keywords : รายการคำหลักแต่ละรายการคั่นด้วย ;
chemical_list : รายการคำศัพท์ทางเคมีแต่ละอันคั่นด้วย ;
pubdate : วันที่ตีพิมพ์ ค่าเริ่มต้นเป็นข้อมูลปีเท่านั้น
journal : วารสารกระดาษที่กำหนด
medline_ta : นี่เป็นตัวย่อของชื่อวารสาร
nlm_unique_id : NLM INTEDIFICATION
issn_linking : การเชื่อมโยง ISSN โดยทั่วไปใช้เพื่อเชื่อมโยงกับชุดข้อมูล Web of Science
country : ประเทศสกัดจากสาขาข้อมูลวารสาร
reference : สตริงของ pmid แต่ละคั่นด้วย ; หรือรายการอ้างอิงที่ทำกับบทความ
delete : BOOLEAN หาก False หมายถึงกระดาษได้รับการอัปเดตดังนั้นคุณอาจมีสอง
languages : รายการภาษาคั่นด้วย ;
vernacular_title : ชื่อภาษา ค่าเริ่มต้นเป็นสตริงที่ว่างเปล่าเมื่อไม่พร้อมใช้งาน

XMLs สำหรับกระดาษเดียวกัน คุณสามารถลบบันทึกของกระดาษที่ถูกลบได้เนื่องจากได้รับการปรับปรุง

 dicts_out = pp . parse_medline_xml ( 'data/medline16n0902.xml.gz' ,
                                 year_info_only = False ,
                                 nlm_category = False ,
                                 author_list = False ,
                                 reference_list = False ) # return list of dictionary

หากต้องการแยกข้อมูลเดือนและวันจาก PubDate ให้ตั้งค่า year_info_only=True นอกจากนี้เรายังอนุญาตให้มีการแยกวิเคราะห์บทคัดย่อที่มีโครงสร้างและเราสามารถควบคุมการแสดงผลของแต่ละส่วนหรือฉลากโดยการเปลี่ยนอาร์กิวเมนต์ nlm_category

Parse Medline Grant ID

ใช้ parse_grant_id เพื่อแยกวิเคราะห์ Medline Grant ID จากไฟล์ XML สิ่งนี้จะส่งคืนรายการพจนานุกรมแต่ละรายการที่มี

pmid : ID PubMed
grant_id : Grant ID
grant_acronym : ตัวย่อของ Grant
country : ประเทศที่ให้เงินทุนจาก
agency : หน่วยงาน Grant

หากไม่พบ ID Grant มันจะ None กลับมา

Parse Medline XML จากเว็บไซต์ Eutils

คุณสามารถใช้ PubMed Parser เพื่อแยกวิเคราะห์ไฟล์ XML จาก e-utilities โดยใช้ parse_xml_web สำหรับฟังก์ชั่นนี้คุณสามารถจัดเตรียม pmid เดียวเป็นอินพุตและรับพจนานุกรมที่มีคีย์ต่อไปนี้

title : ชื่อเรื่อง
abstract : บทคัดย่อ
journal : วารสาร
affiliation : การติดต่อของผู้เขียนคนแรก
authors : สตริงของผู้แต่งคั่นด้วย ;
year : ปีสิ่งพิมพ์
keywords : คำหลักหรือข้อกำหนดของตาข่ายของบทความ

 dict_out = pp . parse_xml_web ( pmid , save_xml = False )

Parse Medline XML การอ้างอิงจากเว็บไซต์

ฟังก์ชั่น parse_citation_web ช่วยให้คุณได้รับการอ้างอิงไปยัง PubMed ID ที่กำหนดหรือ PubMed Central ID สิ่งนี้จะส่งคืนพจนานุกรมซึ่งมีคีย์ต่อไปนี้

pmc : PubMed Central ID
pmid : ID PubMed
doi : ดอยของบทความ
n_citations : จำนวนการอ้างอิงสำหรับบทความที่กำหนด
pmc_cited : รายการ PMC ที่อ้างถึง PMC ที่กำหนด

 dict_out = pp . parse_citation_web ( doc_id , id_type = 'PMC' )

แยกวิเคราะห์การอ้างอิง XML ออกจากเว็บไซต์

ฟังก์ชั่น parse_outgoing_citation_web ช่วยให้คุณได้รับบทความที่บทความที่กำหนดอ้างถึง ID PubMed หรือ PubMed Central ID สิ่งนี้จะส่งคืนพจนานุกรมซึ่งมีคีย์ต่อไปนี้

n_citations : จำนวนบทความที่อ้างถึง
doc_id : ตัวระบุเอกสารที่ให้ไว้
id_type : ประเภทของตัวระบุที่กำหนด ทั้ง 'PMID' หรือ 'PMC'
pmid_cited : รายการ pmids ที่อ้างถึงโดยบทความ

 dict_out = pp . parse_outgoing_citation_web ( doc_id , id_type = 'PMID' )

ตัวระบุควรผ่านเป็นสตริง PubMed Central ID เป็นค่าเริ่มต้นและควรผ่านเป็นสตริง โดยไม่ต้องใช้ คำนำหน้า 'PMC' หากไม่พบการอ้างอิงหรือหากไม่พบบทความที่ตรงกัน doc_id ในฐานข้อมูลที่ระบุก็จะ None กลับมา

การติดตั้ง

คุณสามารถติดตั้งแพ็คเกจเวอร์ชันอัปเดตมากที่สุดโดยตรงจากที่เก็บข้อมูล

pip install git+https://github.com/titipata/pubmed_parser.git

หรือติดตั้งรีลีสล่าสุดด้วย PYPI โดยใช้

pip install pubmed-parser

หรือโคลนที่เก็บและติดตั้งโดยใช้ pip

git clone https://github.com/titipata/pubmed_parser
pip install ./pubmed_parser

คุณสามารถทดสอบการติดตั้งของคุณได้โดยใช้การทดสอบ pytest --cov=pubmed_parser tests/ --verbose ในรูทของที่เก็บ

ตัวอย่างตัวอย่างเพื่อแยกวิเคราะห์ชุดข้อมูล PubMed OA

ตัวอย่างการใช้งานจะแสดงดังนี้

 import pubmed_parser as pp
path_xml = pp . list_xml_path ( 'data' ) # list all xml paths under directory
pubmed_dict = pp . parse_pubmed_xml ( path_xml [ 0 ]) # dictionary output
print ( pubmed_dict )

{ 'abstract' : u"Background Despite identical genotypes and ..." ,
 'affiliation_list' :
  [[ 'I1' : 'Department of Biological Sciences, ...' ],
   [ 'I2' : 'Biology Department, Queens College, and the Graduate Center ...' ]],
  'author_list' :
  [[ 'Dennehy' , 'John J' , 'I1' ],
   [ 'Dennehy' , 'John J' , 'I2' ],
   [ 'Wang' , 'Ing-Nang' , 'I1' ]],
 'full_title' : u'Factors influencing lysis time stochasticity in bacteriophage u03bb ' ,
 'journal' : 'BMC Microbiology' ,
 'pmc' : '3166277' ,
 'pmid' : '21810267' ,
 'publication_year' : '2011' ,
 'publisher_id' : '1471-2180-11-174' ,
 'subjects' : 'Research Article' }

ตัวอย่างการใช้งานด้วย pyspark

นี่คือตัวอย่างที่จะแยกวิเคราะห์ชุดย่อย PubMed Open Access ทั้งหมดโดยใช้ Pyspark 2.1

 import os
import pubmed_parser as pp
from pyspark . sql import Row

path_all = pp . list_xml_path ( '/path/to/xml/folder/' )
path_rdd = spark . sparkContext . parallelize ( path_all , numSlices = 10000 )
parse_results_rdd = path_rdd . map ( lambda x : Row ( file_name = os . path . basename ( x ),
                                               ** pp . parse_pubmed_xml ( x )))
pubmed_oa_df = parse_results_rdd . toDF () # Spark dataframe
pubmed_oa_df_sel = pubmed_oa_df [[ 'full_title' , 'abstract' , 'doi' ,
                                 'file_name' , 'pmc' , 'pmid' ,
                                 'publication_year' , 'publisher_id' ,
                                 'journal' , 'subjects' ]] # select columns
pubmed_oa_df_sel . write . parquet ( 'pubmed_oa.parquet' , mode = 'overwrite' ) # write dataframe

ดูโฟลเดอร์สคริปต์สำหรับข้อมูลเพิ่มเติม

สมาชิกหลัก

Titipat Achakulvisut
Daniel E. Acuna

และผู้มีส่วนร่วม

การพึ่งพาอาศัยกัน

LXML
unidecode
การร้องขอ

การอ้างอิง

หากคุณใช้ PubMed Parser โปรดอ้างอิงจาก Joss ดังนี้

Achakulvisut et al., (2020) PubMed Parser: Python Parser สำหรับ PubMed ชุดย่อย XML แบบเปิดการเข้าถึงและชุดข้อมูล XML XML MEDLINE XML วารสารซอฟต์แวร์โอเพนซอร์ส, 5 (46), 1979, https://doi.org/10.21105/joss.01979

หรือใช้ bibtex

 @article{Achakulvisut2020,
  doi = {10.21105/joss.01979},
  url = {https://doi.org/10.21105/joss.01979},
  year = {2020},
  publisher = {The Open Journal},
  volume = {5},
  number = {46},
  pages = {1979},
  author = {Titipat Achakulvisut and Daniel Acuna and Konrad Kording},
  title = {Pubmed Parser: A Python Parser for PubMed Open-Access XML Subset and MEDLINE XML Dataset XML Dataset},
  journal = {Journal of Open Source Software}
}

ผลงาน

เรายินดีต้อนรับการมีส่วนร่วมจากทุกคนที่ต้องการปรับปรุง PubMed Parser คุณสามารถสร้างปัญหา GitHub เพื่อหารือเกี่ยวกับคำถามหรือปัญหาที่เกี่ยวข้องกับที่เก็บ เราขอแนะนำให้คุณอ่านแนวทางการสนับสนุนของเราก่อนที่จะสร้างปัญหาการรายงานข้อบกพร่องหรือบริจาคให้กับที่เก็บ

การรับทราบ

แพ็คเกจนี้พัฒนาขึ้นในห้องปฏิบัติการของ Konrad Kording ที่ University of Pennsylvania เราขอขอบคุณผู้ตรวจสอบและบรรณาธิการจาก Joss รวมถึง tleonardi , timClicks และ majensen พวกเขาทำให้พื้นที่เก็บข้อมูลของเราดีขึ้นมาก!

ใบอนุญาต

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน Pubmed Parser 0.5.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-04-16
ขนาด 54.24MB
มาจาก Github

แอปที่เกี่ยวข้อง

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
เครื่องมือวิเคราะห์ข้อมูล Lihua เวอร์ชันฟรี 3.0_search_navigation_collection_public comment_ranking_api

2022-06-28

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด