CIMS เป็นเครื่องมือในการแยกลวดลายพับที่ใช้กันทั่วไปจากลำดับ 16S-23S rRNA ต้องใช้ Fasta หรืออย่างน้อยหนึ่งหมายเลขภาคยานุวัติ GenBank และส่งคืนรายการของลวดลายด้วยฉลากที่เกี่ยวข้องสำหรับแต่ละลำดับที่ให้ไว้ อุทิศให้กับงานวิจัยของไซยาโนแบคทีเรียที่ใช้เวลาหลายชั่วโมงในการเน้นลวดลายใน MS Word
-
CIMS ?ตัวเว้นวรรคที่ถอดความภายใน 16S-23S rRNA (ITS) เป็นเครื่องหมายวิวัฒนาการทางสายวิวัฒนาการที่ใช้กันทั่วไปในระบบไซยาโนแบคทีเรีย การตรวจสอบภูมิภาคช่วยให้นักวิจัยค้นพบความสอดคล้องและ apomorphies ระหว่างสายพันธุ์ของไซยาโนแบคทีเรีย สิ่งนี้จะช่วยให้นักวิจัยมีหลักฐานมากขึ้นเมื่อสร้างแท็กซอนที่เป็นความลับใหม่หรือวิเคราะห์ความสัมพันธ์ทางอนุกรมวิธานที่ไม่ได้รับการแก้ไขก่อนหน้านี้ อย่างไรก็ตามความท้าทายคือนักวิจัยในอดีตจะต้องขุดข้อมูลลำดับด้วยตนเองเพื่อค้นหาและระบุลวดลายลำดับ กระบวนการที่ต้องใช้ความเจ็บปวดนี้ขัดขวางไม่ให้นักวิจัยใช้ลวดลายนำไปสู่ข้อผิดพลาดและไม่ต้องพูดถึง ... ทำให้เกิดอาการปวดหัว
เรารู้ว่ามีวิธีที่ดีกว่าในการทำเช่นนี้ดังนั้นหลังจากผ่ากระบวนการด้วยตนเองเราก็สร้าง CIMS
CIMS พบว่าลวดลายการพับที่ใช้กันทั่วไปเช่น D1-D1 ', Box B, tRNA-ILE และ tRNA-ALA เพื่อให้แน่ใจว่านักวิจัยกำลังใช้โอเปอเรเตอร์ที่คล้ายคลึงกันเมื่อเปรียบเทียบโครงสร้างรองระหว่างแท็กซ่า
CIMS เป็นแอปพลิเคชันเทอร์มินัลที่เขียนด้วย Python ว่าในเวอร์ชันปัจจุบันของซอฟต์แวร์ลวดลายที่รวมอยู่ในเอาต์พุตมาตรฐานคือ:
เราเข้าใจแล้วคุณเป็นนักชีววิทยาเรามีคุณ สิ่งที่คุณต้องการคือระดับเริ่มต้นของเทอร์มินัล ... อาจจะไม่มากนัก หากคุณรู้วิธีเรียกดูไดเรกทอรี ( cd ) และเรียกใช้งาน ( ./cims ) คุณก็พร้อมที่จะไป
เพื่อให้สิ่งต่าง ๆ ง่ายขึ้นเราได้บรรจุ CIMS ไว้ล่วงหน้าด้วยการพึ่งพาทั้งหมดเป็นไฟล์เดียวและรวบรวมไว้สำหรับ Windows, Linux และ MacOS ไฟล์เหล่านี้มีอยู่ภายใต้การเผยแพร่
cd ไปยังไดเรกทอรีนั้นและเรียกใช้ CIMS เป็นปฏิบัติการโดยปกติโดยพิมพ์ ./cims cims เพื่อให้สิ่งต่าง ๆ ง่ายขึ้นเราขอแนะนำให้บันทึก CIMS ไปยังไดเรกทอรีที่คุณจะมีไฟล์ FASTA ที่คุณต้องการดำเนินการ หากคุณดึงลำดับของคุณตรงจาก GenBank มันไม่สำคัญ
หากคุณต้องการทำการเปลี่ยนแปลงของคุณเองในภูมิภาคที่ขนาบข้างหรือทำการเปลี่ยนแปลงรหัสคุณสามารถดาวน์โหลด CIMS.py จากและเรียกใช้กับ Python (แต่คุณอาจรู้อยู่แล้วว่าถ้านั่นคือสิ่งที่คุณต้องการ)
ในการเรียกใช้ CIMS คุณจะต้อง:
$ pip install Biopython$ pip install colorama Biopython อนุญาตให้ CIMS สื่อสารกับ GenBank เพื่อดาวน์โหลดลำดับ Colorama ช่วยให้เราสามารถส่งออกลวดลายได้อย่างง่ายดายด้วยสีสวย
เมื่อคุณติดตั้งการพึ่งพาเหล่านั้น (ไม่ว่าจะเป็นทั่วโลกหรือในสภาพแวดล้อมเสมือนจริง) เพียงเรียกใช้ cims.py
CIMS ทำงานในเทอร์มินัล มันมีลำดับไม่ว่าจะผ่านไฟล์ FASTA หรือโดยการดึงข้อมูลจาก GenBank ตามหมายเลขภาคยานุวัติ อินพุตสำหรับเครื่องมือนี้จะต้องเป็นไฟล์ FASTA ที่มีการจัดรูปแบบ 16S-23S อย่างถูกต้องหนึ่งลำดับหรือหมายเลขภาคยานุวัติของ GenBank ถึงลำดับ 16S-23S
นำทางไปยังตำแหน่งที่บันทึก CIMS
ตัวอย่างเช่นใน Windows คุณจะใช้ cd เพื่อย้ายไปยังไดเรกทอรีเช่นนี้:
cd C:/Users/{your-username}/Desktop/PathtoFile
หรือใน Linux/Mac:
cd /home/{your username}/{where you downloaded cims}
ในการเรียกใช้ CIMS เพียงดำเนินการโดยใช้ ./cims หรือ python cims.py จากไดเรกทอรีที่บันทึกไว้
เมื่อเรียกใช้สิ่งนี้ในเทอร์มินัลของคุณผลลัพธ์จะรวมถึงลวดลายทั้งหมดที่พบในลำดับที่กำหนดให้กับโปรแกรม หากคุณต้องการบันทึกเอาต์พุตของการเรียกใช้ของคุณอย่าลืมใช้“ >>” เพื่อบันทึกเอาต์พุตลงในไฟล์ข้อความ:
cims -f myfasta.fasta >> motifs.txt
รายการธงอาร์กิวเมนต์และคำอธิบายของพวกเขาอยู่ด้านล่าง:
Usage: cims [-f or -g ] [file or accession number] [OPTIONS]
Options:
-f, --fasta PATH-TO-FASTA-FILE Provide FASTA to be processed.
-g, --genbank ACCESSION1 [ACCESSION2 ...] Provide one or more Genbank Accession Numbers to fetch and process.
-s, --select {leader,d1d1,sp_v2_sp,trna_ile,trna_ala,boxa,boxb,d4,v3,all} Select which motifs to print out. By default it prints all.
-e, --email Provide an email to be used when querying Genbank. An NCBI requirement.
-j, --json Create a json file in the working directory with the output.
-t, --trna Returns ONLY how many tRNAs were found per sequence. cims =f allmycyanos.fasta
ผลลัพธ์: CIMS จะประมวลผลไฟล์ FASTA ที่ให้ไว้และส่งคืนลวดลายทั้งหมดที่พบ
cims -f ~/home/me/fasta/limnothrix_16-23_ITS.fasta -s d1d1, trna_ile, trna_ala, boxb
ผลลัพธ์: ประมวลผลไฟล์ LIMNOTHRIX_16-23_ITS.FASTA ที่เก็บไว้ในไดเรกทอรีที่อยู่ใน/home/me/fasta และขอให้ CIMS ส่งออกเฉพาะ D1D1, Motifs TRNAs และ BoxB
cims -g KU574618.1 -e [email protected]
ผลลัพธ์: ดึงลำดับของ KU574618.1 จาก GenBank (ให้อีเมลที่ NCBI ต้องการ) ประมวลผลลำดับและส่งคืนลวดลาย
cims -f allmycyanos.fasta -t
ผลลัพธ์: ดึงลำดับจาก GenBank และส่งคืนจำนวน tRNAs ที่พบในแต่ละสิ่งมีชีวิต สิ่งนี้ช่วยให้สามารถตรวจสอบได้อย่างง่ายดายว่าสิ่งมีชีวิตใน Fasta เป็นโอเปอเรนที่คล้ายคลึงกันหรือไม่
หมายเหตุ หากคุณหลงทางคุณสามารถเรียกใช้ cims -h หรือ python cims.py -h และคุณจะได้รับการอ้างอิงอย่างรวดเร็วของตัวเลือกที่มีอยู่
“Could not find the end of 16S to determine the ITS region boundaries”ข้อผิดพลาดนี้หมายความว่าลำดับที่ให้กับซอฟต์แวร์ไม่มีลำดับที่แสดงถึงจุดสิ้นสุดของภูมิภาค 16S (CCTCCTT) คุณสามารถดำเนินการต่อไปหากคุณได้ป้อนโปรแกรมในภูมิภาคของมันเท่านั้นและทุกอย่างจะทำงานตามปกติมิฉะนั้นจะยกเลิกการวิ่งสำหรับลำดับนั้นโดยพิมพ์“ n” เมื่อได้รับแจ้ง“ ดำเนินการค้นหาต่อไป? (y/n)” สิ่งนี้จะช่วยให้โปรแกรมย้ายไปยังลำดับถัดไปในไฟล์ FASTA หรืออนุญาตให้คุณลองอีกครั้งด้วยไฟล์/ภาคยานุวัติอื่น #
“Region length too short. Skipped.”สิ่งนี้จะถูกพิมพ์หากภูมิภาคของมันหลังจากสิ้นสุดยีน 16S ต่ำกว่า 20bps คุณลักษณะนี้มีรหัสเพื่อลบลำดับด้วยภูมิภาคที่มีขนาดเล็กเกินไปที่จะใช้เพื่อค้นหาลวดลายใด ๆ
“Not found in this sequence.”ผลลัพธ์นี้จะถูกพิมพ์เมื่อไม่พบ motif เฉพาะในลำดับของมัน อาจเป็นเพราะภูมิภาคขนาบข้างมีเอกลักษณ์หรือหายากดังนั้นซอฟต์แวร์จึงไม่พบสิ่งเหล่านี้ หากสิ่งนี้เกิดขึ้นบ่อยครั้งในชุดข้อมูลของคุณโปรดรายงานสิ่งนี้ให้เราในหน้า "ปัญหา" ของ GitHub เพื่อให้เราสามารถระบุข้อผิดพลาดนี้และปรับปรุงรหัส
“Not present in this operon”สิ่งนี้จะถูกพิมพ์เฉพาะเกี่ยวกับ tRNAs ในลำดับ หากโปรแกรมไม่พบ tRNA-ala หรือ tRNA-ile มันจะถือว่าโอเปอเรเตอร์นี้ไม่มี tRNA หนึ่งหรือทั้งสองหรือทั้งสอง โปรดจำไว้ว่าเป็นการดีที่สุดที่จะใช้โอเปอเรนที่คล้ายคลึงกันเมื่อเปรียบเทียบลวดลายระหว่างแท็กซ่า (เช่น operons ที่มีจำนวน TRNAs เท่ากัน)