CIMS adalah alat untuk mengekstrak motif lipat yang umum digunakan dari urutan rRNA 16S-23S. Dibutuhkan FASTA atau setidaknya satu nomor aksesi GenBank dan mengembalikan daftar motif dengan label masing -masing untuk masing -masing urutan yang disediakan. Didedikasikan untuk penelitian cyanobacteria yang menghabiskan berjam -jam menyoroti motif di MS Word.
========
CIMS ?Spacer transkrip internal 16S-23S rRNA (ITS) adalah penanda filogenetik yang umum digunakan dalam sistematika cyanobacterial. Pemeriksaan daerahnya memungkinkan para peneliti untuk menemukan kongruensi dan apomorphies antara spesies cyanobacteria. Ini memberi peneliti lebih banyak bukti ketika mendirikan takson samar baru atau menganalisis hubungan taksonomi yang sebelumnya tidak terselesaikan. Namun tantangannya adalah bahwa para peneliti historis harus secara manual menggali melalui data urutan untuk menemukan dan mengidentifikasi motif urutannya secara visual. Proses yang melelahkan ini menghalangi para peneliti menggunakan motifnya, menyebabkan kesalahan, dan belum lagi ... menyebabkan sakit kepala.
Kami tahu ada cara yang lebih baik untuk melakukan ini, jadi setelah membedah proses manual, kami membuat CIMS .
CIMS menemukan motif lipat yang umum digunakan seperti D1-D1 ', Kotak B, TRNA-ILE dan TRNA-ALA untuk memastikan para peneliti menggunakan operon homolog ketika membandingkan struktur sekunder antara taksa.
CIMS adalah aplikasi terminal yang ditulis dalam python ituDalam versi perangkat lunak saat ini, motif yang termasuk dalam output standar adalah:
Kami mengerti, Anda seorang ahli biologi, kami mendapatkan Anda. Yang Anda butuhkan hanyalah tingkat terminal pemula ... mungkin bahkan tidak sebanyak itu. Jika Anda tahu cara menjelajah ke direktori ( cd ) dan menjalankan yang dapat dieksekusi ( ./cims ), Anda siap melakukannya.
Untuk menjaga hal-hal sederhana, kami sudah CIMS sebelumnya dengan semua ketergantungan ke dalam satu file dan menyusunnya untuk Windows, Linux dan MacOS. File -file ini tersedia di bawah rilis.
cd ke direktori itu, dan jalankan CIMS sebagai yang dapat dieksekusi, biasanya dengan mengetik ./cims . Agar hal -hal sederhana, kami sarankan menyimpan CIMS ke direktori tempat Anda akan memiliki file FASTA yang ingin Anda proses. Jika Anda menarik urutan langsung dari GenBank, itu tidak terlalu penting.
Jika Anda ingin membuat perubahan sendiri ke daerah mengapit, atau membuat perubahan pada kode, Anda dapat mengunduh CIMS.py dari dan menjalankannya dengan python. (Tapi Anda mungkin sudah tahu bahwa jika itu yang Anda inginkan).
Untuk menjalankan CIMS , Anda akan membutuhkan:
$ pip install Biopython$ pip install colorama Biopython memungkinkan CIMS untuk berkomunikasi dengan GenBank untuk mengunduh urutan. Colorama memungkinkan kita untuk dengan mudah mengeluarkan motif dalam warna yang cantik.
Setelah Anda memasang dependensi (baik secara global atau di lingkungan virtual), cukup jalankan cims.py
CIMS berjalan di terminal. Ini diberikan urutan baik melalui file FASTA atau dengan mengambilnya dari GenBank berdasarkan nomor aksesi. Input untuk alat ini harus menjadi file FASTA dengan satu atau lebih yang diformat dengan benar 16S-23S urutannya atau nomor aksesi GenBank ke urutan 16S-23S.
Arahkan ke lokasi di mana CIMS disimpan.
Misalnya, di Windows, Anda akan menggunakan cd untuk pindah ke direktori seperti itu:
cd C:/Users/{your-username}/Desktop/PathtoFile
Atau di Linux/Mac:
cd /home/{your username}/{where you downloaded cims}
Untuk menjalankan CIMS , cukup jalankan dengan menjalankan ./cims atau python cims.py dari direktori tempat ia disimpan.
Saat menjalankan ini di terminal Anda, output akan mencakup semua motif yang ditemukan dalam urutan yang diberikan kepada program. Jika Anda ingin menyimpan output dari menjalankan Anda, ingatlah untuk menggunakan ">>" untuk menyimpan output ke dalam file teks:
cims -f myfasta.fasta >> motifs.txt
Daftar bendera, argumen, dan deskripsinya di bawah ini:
Usage: cims [-f or -g ] [file or accession number] [OPTIONS]
Options:
-f, --fasta PATH-TO-FASTA-FILE Provide FASTA to be processed.
-g, --genbank ACCESSION1 [ACCESSION2 ...] Provide one or more Genbank Accession Numbers to fetch and process.
-s, --select {leader,d1d1,sp_v2_sp,trna_ile,trna_ala,boxa,boxb,d4,v3,all} Select which motifs to print out. By default it prints all.
-e, --email Provide an email to be used when querying Genbank. An NCBI requirement.
-j, --json Create a json file in the working directory with the output.
-t, --trna Returns ONLY how many tRNAs were found per sequence. cims =f allmycyanos.fasta
Hasil: CIMS akan memproses file FASTA yang disediakan dan mengembalikan semua motif yang ditemukannya.
cims -f ~/home/me/fasta/limnothrix_16-23_ITS.fasta -s d1d1, trna_ile, trna_ala, boxb
Hasil: Memproses file limnothrix_16-23_its.sta yang disimpan dalam direktori yang berada di/home/me/fasta dan meminta CIMS hanya menghasilkan D1D1, motif TRNA dan BoxB.
cims -g KU574618.1 -e [email protected]
Hasil: Mengambil urutan KU574618.1 dari GenBank (menyediakan email yang diperlukan oleh NCBI), memproses urutan, dan mengembalikan motif.
cims -f allmycyanos.fasta -t
Hasil: Mengambil urutan dari GenBank, dan mengembalikan berapa banyak tRNA yang ditemukan pada setiap organisme. Ini memungkinkan untuk dengan mudah memeriksa apakah organisme di fasta adalah operon yang homolog.
CATATAN Jika Anda pernah tersesat, Anda selalu dapat menjalankan cims -h atau python cims.py -h dan Anda akan mendapatkan referensi cepat dari opsi yang tersedia.
“Could not find the end of 16S to determine the ITS region boundaries”Kesalahan ini berarti bahwa urutan yang diberikan kepada perangkat lunak tidak mengandung urutan yang mewakili akhir wilayah 16S (CCTCCTT). Anda dapat melanjutkan dengan menjalankan jika Anda telah memberi makan program di wilayahnya saja dan semuanya akan berjalan seperti biasa jika tidak, membatalkan menjalankan untuk urutan itu dengan mengetik "n" ketika diminta "Lanjutkan dengan pencarian? (Y/N)". Ini akan memungkinkan program untuk pindah ke urutan berikutnya dalam file FASTA atau memungkinkan Anda untuk mencoba lagi dengan file/aksesi lain #.
“Region length too short. Skipped.”Ini akan dicetak jika wilayahnya setelah akhir gen 16S di bawah 20bps. Fitur ini diberi kode untuk menghapus urutan dengan daerahnya yang terlalu kecil untuk digunakan untuk menemukan motif.
“Not found in this sequence.”Output ini akan dicetak ketika motif tertentu tidak ditemukan dalam urutannya. Ini bisa jadi karena daerah mengapitnya unik atau jarang dan karenanya perangkat lunak tidak menemukannya. Jika ini sering terjadi dalam dataset Anda, silakan laporkan ini kepada kami di halaman “Masalah” GitHub sehingga kami dapat mengatasi kesalahan ini dan meningkatkan kode.
“Not present in this operon”Ini akan dicetak hanya mengenai tRNA dalam urutan. Jika program tidak menemukan tRNA-ALA atau tRNA-ILE, ia akan mengasumsikan bahwa operon ini tidak mengandung satu atau kedua tRNA. Ingat, yang terbaik adalah menggunakan operon homolog ketika membandingkan motifnya antara taksa (mis. Operon yang mengandung jumlah tRNA yang sama).