تنزيل pubmed_parser - تنزيل رمز المصدر pubmed

pubmed_parser

شفرة المصدر الأخرى

Pubmed Parser 0.5.0

تنزيل

PubMed Parser: محلل بيثون لمجموعة بيانات Python للمجموعة الفرعية PubMed Open-Access XML ومجموعة بيانات Medline XML

PubMed Parser هي مكتبة Python لتحليل مجموعة PubMed Open-Access (OA) ، ومستودعات Medline XML ، ومرافق برمجة Entrez (ETILS). يستخدم مكتبة lxml لتحليل هذه المعلومات في قاموس Python الذي يمكن استخدامه بسهولة للبحث ، كما هو الحال في تعدين النصوص ومعالجة اللغة الطبيعية.

لتواجهات واجهات برمجة التطبيقات المتوفرة والتفاصيل حول مجموعة البيانات ، يرجى الاطلاع على صفحة Wiki أو صفحة الوثائق لمزيد من التفاصيل. أدناه ، ندرج بعض الأمثلة الأساسية وأمثلة رمز.

محللون متاحون

يمكن أن يكون path المقدم لوظيفة هو المسار إلى ملف XML مضغوط أو غير مضغوط. نحن نقدم مثال ملفات في مجلد data .
لتحليل موقع الويب ، يجب أن تتخلص من الإيقاف المؤقت. يرجى الاطلاع على إشعار حقوق الطبع والنشر لأنه يمكن أن يتم حظر IP الخاص بك إذا حاولت التنزيل بكميات كبيرة.

أدناه ، ندرج محلات المتاحة من pubmed_parser .

تحليل معلومات PubMed OA XML
Party PubMed OA Citation مراجع
تحليل صور وملصقات PubMed OA
Parse PubMed Paragraph
PARSE PubMed OA Table [WIP]
Parse Medline XML
معرف Party Medline Grant
Parse Medline XML من موقع Eutils
Parse Medline XML Citations من موقع الويب
تحليل الاستشهادات XML المنتهية ولايته من موقع الويب

تحليل معلومات PubMed OA XML

لقد أنشأنا محللًا بسيطًا لمجموعة PubMed Open Access الفرعية حيث يمكنك إعطاء مسار أو سلسلة XML إلى الوظيفة التي تسمى parse_pubmed_xml والتي ستعيد قاموسًا بالمعلومات التالية:

full_title : عنوان المقالة
abstract : الملخص
journal : اسم المجلة
pmid : معرف PubMed
pmc : PubMed Central ID
doi : دوي من المقال
publisher_id : معرف الناشر
author_list : قائمة المؤلفين مع مفاتيح الانتماء بالتنسيق التالي

 [[ 'last_name_1' , 'first_name_1' , 'aff_key_1' ],
  [ 'last_name_1' , 'first_name_1' , 'aff_key_2' ],
  [ 'last_name_2' , 'first_name_2' , 'aff_key_1' ], ...]

affiliation_list : قائمة مفاتيح الانتماء وسلاسل الانتماء بالتنسيق التالي

 [[ 'aff_key_1' , 'affiliation_1' ],
  [ 'aff_key_2' , 'affiliation_2' ], ...]

publication_year : سنة النشر
subjects : قائمة الموضوعات المدرجة في المقالة مفصولة Semicolon. في بعض الأحيان ، لا يحتوي إلا على نوع المقالة ، مثل مقالة بحثية ، وإجراءات مراجعة ، إلخ.

 import pubmed_parser as pp
dict_out = pp . parse_pubmed_xml ( path )

Party PubMed OA Citation مراجع

ستعمل الدالة parse_pubmed_references معالجة ملف PubMed Open Access XML وإرجاع قائمة من PMIDs التي يستشهد بها. كل قاموس لديه مفاتيح على النحو التالي

pmid : معرف PubMed من المقالة
pmc : معرف PubMed المركزي للمقالة
article_title : عنوان المقالة المذكورة
journal : اسم المجلة
journal_type : نوع المجلة
pmid_cited : معرف PubMed من المقالة التي تستشهد بها المقالة
doi_cited : doi من المقالة التي يستشهد بها المقالة
year : سنة النشر كما يظهر في المرجع (قد تشمل لاحقة الرسالة ، EG2007A)

 dicts_out = pp . parse_pubmed_references ( path ) # return list of dictionary

تحليل صور وملصقات PubMed OA

يمكن للدالة parse_pubmed_caption تحليل التسميات التوضيحية للصورة من مسار معين إلى ملف XML. سيعود فهرس المرجع الذي يمكنك الرجوع إليه إلى الصور الفعلية. ستعود الوظيفة إلى قائمة القاموس التي لديها مفاتيح التالية

pmid : معرف PubMed
pmc : PubMed Central ID
fig_caption : سلسلة التسمية التوضيحية
fig_id : معرف مرجع للشكل (استخدم للإشارة في مقالة XML)
fig_label : تسمية الشكل
graphic_ref : مرجع إلى اسم ملف الصورة المقدم من PubMed OA

 dicts_out = pp . parse_pubmed_caption ( path ) # return list of dictionary

Parse PubMed Paragraph

بالنسبة للشخص الذي قد يكون مهتمًا بتحليل النص المحيط بالاستشهاد ، توفر المكتبة أيضًا هذه الوظيفة. يمكنك استخدام parse_pubmed_paragraph لتحليل النص والمرجع PMIDs. ستعيد هذه الوظيفة قائمة القواميس ، حيث سيكون لكل إدخال مفاتيح التالية:

pmid : معرف PubMed
pmc : PubMed Central ID
text : النص الكامل للفقرة
reference_ids : قائمة الكود المرجعي داخل تلك الفقرة.

يمكن أن تندمج هذه المعرفات مع الإخراج من parse_pubmed_references .

section : قسم الفقرة (على سبيل المثال الخلفية ، المناقشة ، التذييل ، إلخ)

 dicts_out = pp . parse_pubmed_paragraph ( 'data/6605965a.nxml' , all_paragraph = False )

PARSE PubMed OA Table [WIP]

يمكنك استخدام parse_pubmed_table to parse table من ملف xml. ستعود هذه الوظيفة إلى قائمة القواميس حيث يكون لكل منها مفاتيح التالية.

pmid : معرف PubMed
pmc : PubMed Central ID
caption : تعليق على الجدول
label : lable من الجدول
table_columns : قائمة اسم العمود
table_values : قائمة القيم داخل الجدول
table_xml : نص XML الخام للجدول (إرجاع إذا كان return_xml=True )

 dicts_out = pp . parse_pubmed_table ( 'data/medline16n0902.xml.gz' , return_xml = False )

Parse Medline XML

يحتوي Medline XML على تنسيق XML مختلف عن Access Open PubMed. يمكن العثور على بنية ملفات XML في Medline/PubMed DTD هنا. يمكنك استخدام الدالة parse_medline_xml لتحليل هذا التنسيق. ستعود هذه الوظيفة إلى قائمة القواميس ، حيث يحتوي كل عنصر على:

pmid : معرف PubMed
pmc : PubMed Central ID
doi : doi
other_id : تم العثور على معرفات أخرى ، كل مفصولة ;
title : عنوان المقال
abstract : ملخص المقالة
authors : مؤلفون ، كل واحد مفصولة ;
mesh_terms : قائمة المصطلحات الشبكية مع معرف الشبكة المقابلة ، كل مفصولة بواسطة ; مثل 'D000161:Acoustic Stimulation; D000328:Adult; ...
publication_types : قائمة قائمة نوع النشر كل مفصولة بواسطة ; على سبيل المثال 'D016428:Journal Article'
keywords : قائمة الكلمات الرئيسية ، كل مفصولة بواسطة ;
chemical_list : قائمة المصطلحات الكيميائية ، كل مفصولة ;
pubdate : تاريخ النشر. الإعدادات الافتراضية لمعلومات السنة فقط.
journal : مجلة الورقة المحددة
medline_ta : هذا اختصار لاسم المجلة
nlm_unique_id : تحديد هوية فريدة NLM
issn_linking : ISSN Linkage ، عادةً ما يستخدم للربط مع مجموعة بيانات Web of Science
country : بلد مستخرج من مجال معلومات اليومية
reference : سلسلة من PMID كل مفصولة بواسطة ; أو قائمة المراجع المقدمة إلى المقالة
delete : Boolean إذا تم تحديث الورق False إذا كان لديك اثنين
languages : قائمة اللغات ، مفصولة ;
vernacular_title : العنوان العام. الافتراضيات لسلسلة فارغة كلما كان غير متوفر.

XMLs لنفس الورقة. يمكنك حذف سجل الورق المحذوف لأنه تم تحديثه.

 dicts_out = pp . parse_medline_xml ( 'data/medline16n0902.xml.gz' ,
                                 year_info_only = False ,
                                 nlm_category = False ,
                                 author_list = False ,
                                 reference_list = False ) # return list of dictionary

لاستخراج معلومات الشهر واليوم من pubdate ، set year_info_only=True . نسمح أيضًا بتحليل الملخص المهيكل ويمكننا التحكم في عرض كل قسم أو تسمية عن طريق تغيير وسيطة nlm_category .

معرف Party Medline Grant

استخدم parse_grant_id من أجل تحليل معرفات منح medline من ملف XML. سيؤدي هذا إلى إرجاع قائمة القواميس ، كل منها يحتوي

pmid : معرف PubMed
grant_id : معرف المنحة
grant_acronym : اختصار Grant
country : البلد الذي منح التمويل من
agency : وكالة المنح

إذا لم يتم العثور على معرف منحة ، فلن يعيد None

Parse Medline XML من موقع Eutils

يمكنك استخدام PubMed Parser لتحليل ملف XML من الاستخدامات الإلكترونية باستخدام parse_xml_web . لهذه الوظيفة ، يمكنك توفير pmid واحدة كمدخل والحصول على قاموس مع مفاتيح التالية

title : العنوان
abstract : الملخص
journal : مجلة
affiliation : انتماء المؤلف الأول
authors : سلسلة من المؤلفين ، مفصولة ;
year : سنة النشر
keywords : الكلمات الرئيسية أو شروط الشبكة للمقالة

 dict_out = pp . parse_xml_web ( pmid , save_xml = False )

Parse Medline XML Citations من موقع الويب

تتيح لك الدالة parse_citation_web الحصول على الاستشهادات إلى معرف PubMed معين أو معرف PubMed المركزي. سيؤدي هذا إلى إرجاع القاموس الذي يحتوي على المفاتيح التالية

pmc : PubMed Central ID
pmid : معرف PubMed
doi : دوي من المقال
n_citations : عدد الاستشهادات للمقالات المعطاة
pmc_cited : قائمة PMCs التي تستشهد بـ PMC المعطى

 dict_out = pp . parse_citation_web ( doc_id , id_type = 'PMC' )

تحليل الاستشهادات XML المنتهية ولايته من موقع الويب

تتيح لك الدالة parse_outgoing_citation_web الحصول على مقالات مقالة معينة تستشهد بها معرف PubMed أو PubMed Central ID. سيؤدي هذا إلى إرجاع القاموس الذي يحتوي على المفاتيح التالية

n_citations : عدد المقالات المذكورة
doc_id : معرف المستند المعطى
id_type : نوع المعرف المعطى. إما 'PMID' أو 'PMC'
pmid_cited : قائمة PMIDs التي استشهدت بها المقالة

 dict_out = pp . parse_outgoing_citation_web ( doc_id , id_type = 'PMID' )

يجب تمرير المعرفات كسلاسل. تعتبر PubMed Central ID افتراضية ، ويجب تمريرها كأوتار بدون بادئة 'PMC' . إذا لم يتم العثور على استشهادات ، أو إذا لم يتم العثور على مقالة تتطابق مع doc_id في قاعدة البيانات المشار إليها ، فلن تُرجع None .

تثبيت

يمكنك تثبيت الإصدار الأكثر تحديثًا للحزمة مباشرة من المستودع

pip install git+https://github.com/titipata/pubmed_parser.git

أو تثبيت الإصدار الحديث مع PYPI باستخدام

pip install pubmed-parser

أو استنساخ المستودع والتثبيت باستخدام pip

git clone https://github.com/titipata/pubmed_parser
pip install ./pubmed_parser

يمكنك اختبار التثبيت الخاص بك عن طريق تشغيل pytest --cov=pubmed_parser tests/ --verbose في جذر المستودع.

مثال المقتطف لتحليل مجموعة بيانات PubMed OA

يظهر استخدام مثال على النحو التالي

 import pubmed_parser as pp
path_xml = pp . list_xml_path ( 'data' ) # list all xml paths under directory
pubmed_dict = pp . parse_pubmed_xml ( path_xml [ 0 ]) # dictionary output
print ( pubmed_dict )

{ 'abstract' : u"Background Despite identical genotypes and ..." ,
 'affiliation_list' :
  [[ 'I1' : 'Department of Biological Sciences, ...' ],
   [ 'I2' : 'Biology Department, Queens College, and the Graduate Center ...' ]],
  'author_list' :
  [[ 'Dennehy' , 'John J' , 'I1' ],
   [ 'Dennehy' , 'John J' , 'I2' ],
   [ 'Wang' , 'Ing-Nang' , 'I1' ]],
 'full_title' : u'Factors influencing lysis time stochasticity in bacteriophage u03bb ' ,
 'journal' : 'BMC Microbiology' ,
 'pmc' : '3166277' ,
 'pmid' : '21810267' ,
 'publication_year' : '2011' ,
 'publisher_id' : '1471-2180-11-174' ,
 'subjects' : 'Research Article' }

مثال الاستخدام مع pyspark

هذا هو مقتطف لتحليل جميع مجموعة PubMed Open Access Subster باستخدام Pyspark 2.1

 import os
import pubmed_parser as pp
from pyspark . sql import Row

path_all = pp . list_xml_path ( '/path/to/xml/folder/' )
path_rdd = spark . sparkContext . parallelize ( path_all , numSlices = 10000 )
parse_results_rdd = path_rdd . map ( lambda x : Row ( file_name = os . path . basename ( x ),
                                               ** pp . parse_pubmed_xml ( x )))
pubmed_oa_df = parse_results_rdd . toDF () # Spark dataframe
pubmed_oa_df_sel = pubmed_oa_df [[ 'full_title' , 'abstract' , 'doi' ,
                                 'file_name' , 'pmc' , 'pmid' ,
                                 'publication_year' , 'publisher_id' ,
                                 'journal' , 'subjects' ]] # select columns
pubmed_oa_df_sel . write . parquet ( 'pubmed_oa.parquet' , mode = 'overwrite' ) # write dataframe

انظر مجلد البرامج النصية لمزيد من المعلومات.

الأعضاء الأساسية

Titipat Achakulvisut
دانييل إي أكونا

والمساهمين

التبعيات

LXML
unidecode
الطلبات

اقتباس

إذا كنت تستخدم PubMed Parser ، فيرجى الاستشهاد بها من Joss على النحو التالي

Achakulvisut et al. ، (2020). PubMed Parser: A Python Parser لمجموعة بيانات PubMed Open-Access XML و Medline XML Dataset XML. Journal of Open Source Software ، 5 (46) ، 1979 ، https://doi.org/10.21105/joss.01979

أو باستخدام bibtex

 @article{Achakulvisut2020,
  doi = {10.21105/joss.01979},
  url = {https://doi.org/10.21105/joss.01979},
  year = {2020},
  publisher = {The Open Journal},
  volume = {5},
  number = {46},
  pages = {1979},
  author = {Titipat Achakulvisut and Daniel Acuna and Konrad Kording},
  title = {Pubmed Parser: A Python Parser for PubMed Open-Access XML Subset and MEDLINE XML Dataset XML Dataset},
  journal = {Journal of Open Source Software}
}

مساهمات

نرحب بالمساهمات من أي شخص يرغب في تحسين PubMed Parser. يمكنك إنشاء مشكلات github لمناقشة الأسئلة أو القضايا المتعلقة بالمستودع. نقترح عليك قراءة إرشاداتنا المساهمة قبل إنشاء المشكلات أو الإبلاغ عن الأخطاء أو تقديم مساهمة في المستودع.

شكر وتقدير

تم تطوير هذه الحزمة في مختبر Konrad Kording في جامعة بنسلفانيا. نود أن نشكر المراجعين ومحرر جوس بما في ذلك tleonardi و timClicks و majensen . جعلوا مستودعنا أفضل بكثير!

رخصة

يوسع

معلومات إضافية

الإصدار Pubmed Parser 0.5.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-04-16
الحجم 54.24MB
من Github

تطبيقات ذات صلة

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
محرك تحليل البيانات Lihua الإصدار المجاني 3.0_search_navigation_collection_public Oplic_ranking_api

2022-06-28

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل