โปรแกรมดาวน์โหลดนี้สามารถดึงยีนที่มีชื่อเดียวกันจากสปีชีส์ต่างๆ ได้อย่างรวดเร็วด้วยหมายเลข GenBank ที่รู้จักในฐานข้อมูลนิวคลีโอไทด์ของ NCBI ไฟล์ที่ดึงมาจะถูกตั้งชื่อในรูปแบบของ " species name_GenBank number_gene name_sequence position.fasta "
ไฟล์ที่ดาวน์โหลดสามารถใช้เพื่อเปรียบเทียบลำดับนิวคลีโอไทด์ของยีนบางชนิดระหว่างสปีชีส์ต่างๆ และวาดแผนภูมิวิวัฒนาการทางพันธุกรรม (ต้องใช้โปรแกรมอื่น)
งานนี้มีวัตถุประสงค์เพื่อสร้างวิธีการอัตโนมัติขนาดใหญ่สำหรับการดาวน์โหลดลำดับยีน (นิวคลีโอไทด์) ที่ระบุในฐานข้อมูล NCBI เพื่อลดการทำงานซ้ำ ๆ ที่ไม่จำเป็น และปรับปรุงประสิทธิภาพของการวิเคราะห์วิวัฒนาการทางพันธุกรรม
ตัวดาวน์โหลดนี้เขียนด้วยภาษา Python
การแยกวิเคราะห์หน้าเว็บอัตโนมัติเสร็จสิ้นโดยซีลีเนียมและ lxml และการดาวน์โหลดทรัพยากรเสร็จสิ้นโดย urllib
จำเป็นต้องกำหนดค่าซีลีเนียม
แก้ไขเส้นทางการบันทึกของไฟล์ที่ดาวน์โหลด
แก้ไข savepath_prefix เป็นพาธโฟลเดอร์ที่กำหนดเอง
savepath_prefix = 'file save path prefix'แก้ไขเส้นทางเพื่อนำเข้าตาราง Gebank
ปัจจุบันรองรับเฉพาะรูปแบบ CSV เท่านั้น
แก้ไข csv_path เป็นเส้นทางไฟล์ที่กำหนดเอง
csv_path = '*.csv'ไฟล์ csv จะต้องกรอกอย่างเคร่งครัดตามชื่อคอลัมน์สามคอลัมน์ ได้แก่ Serum_type, Representative_strain และ GenBank Serum_type คือ ประเภทเซรั่ม , Representative_strain คือ สายพันธุ์ตัวแทน และ GenBank คือ ตัวเลข ต้องมีประเภทเซรั่มและ หมายเลข GenBank และ สายพันธุ์ตัวแทน เป็นทางเลือก
รันโค้ด downloader.py เพื่อเริ่มรวบรวมข้อมูลและดาวน์โหลด
ขณะนี้โค้ดนี้สนับสนุนเฉพาะลำดับส่วนของยีนของคีย์เวิร์ดผลิตภัณฑ์สามคำของ note gene product ซึ่งได้แก่ hexon protein hexon fiber fiber protein fiber1 fiber1 protein fiber2 fiber2 protein ดังแสดงในรูปด้านล่าง
หากคุณมีคำถามใด ๆ โปรดส่งอีเมลไปที่ [email protected]