يمكن لبرنامج التنزيل هذا استرداد الجينات التي تحمل نفس الاسم بسرعة من أنواع مختلفة بأرقام GenBank المعروفة في قاعدة بيانات NCBI للنيوكليوتيدات. وستتم تسمية الملفات المستردة بتنسيق " types name_GenBank number_gene name_sequenceposition.fasta ".
يمكن استخدام الملف الذي تم تنزيله لمقارنة تسلسلات النيوكليوتيدات لجين معين بين الأنواع المختلفة ورسم شجرة تطور وراثية (يلزم وجود برامج أخرى).
يهدف هذا العمل إلى إنشاء طريقة آلية واسعة النطاق لتنزيل تسلسلات الجينات (النيوكليوتيدات) المحددة في قاعدة بيانات NCBI لتقليل العمل المتكرر غير الضروري وتحسين كفاءة تحليل التطور الجيني.
هذا التنزيل مكتوب بلغة بايثون.
يكتمل التحليل التلقائي لصفحات الويب بواسطة السيلينيوم وlxml، ويكتمل تنزيل الموارد بواسطة urllib.
يحتاج السيلينيوم إلى التكوين.
تعديل مسار حفظ الملفات التي تم تنزيلها
قم بتعديل savepath_prefix إلى مسار مجلد مخصص.
savepath_prefix = 'file save path prefix'قم بتعديل المسار لاستيراد جدول Gebank
حاليًا يتم دعم تنسيق CSV فقط.
قم بتعديل csv_path إلى مسار ملف مخصص.
csv_path = '*.csv'يجب ملء ملف CSV بدقة وفقًا لعناوين الأعمدة الثلاثة: نوع المصل، وسلالة الممثل، ونوع بنك المصل هو نوع المصل ، ونوع سلالة الممثل هو السلالة التمثيلية ، وبنك الجينات هو الرقم . مطلوب نوع المصل ورقم بنك الجينات. والسلالة التمثيلية اختيارية.
قم بتنفيذ كود downloader.py لبدء الزحف والتنزيل.
يدعم هذا الكود حاليًا فقط تسلسل جزء الجين للكلمات الرئيسية الثلاثة للمنتج note gene product ، وهي fiber hexon protein hexon ، fiber protein fiber1 fiber1 protein fiber2 fiber2 protein ، كما هو موضح في الشكل أدناه.
إذا كان لديك أي أسئلة، يرجى إرسال بريد إلكتروني إلى [email protected]