CIMS是一種從16S-23S rRNA序列中提取常用的折疊基序的工具。它需要一個或至少一個GenBank登錄號,並返回提供每個序列的圖案列表,並返回其各自的標籤。致力於藍細菌研究,他們花了很多時間在MS Word中突出圖案。
========
CIMS ?16S-23S rRNA內部轉錄間隔劑(ITS)是藍細菌系統中通常使用的系統發育標記。對其區域的檢查使研究人員能夠發現藍細菌物種之間的一致性和倍形。這為研究人員提供了更多的證據,即建立新的隱秘分類單元或分析先前未解決的分類關係。然而,挑戰是歷史上的研究人員必須手動挖掘序列數據,以在視覺上查找和識別其序列圖案。這種艱苦的過程阻止了研究人員使用其主題,導致錯誤,更不用說……引起頭痛。
我們知道有一種更好的方法可以做到這一點,因此在解剖手動過程後,我們創建了CIMS 。
CIMS發現通常使用其折疊基序,例如D1-D1',Box B,TRNA-EIL和TRNA-ALA,以確保研究人員在比較其二級結構之間使用同源操縱子之間的二級結構。
CIMS是用Python編寫的終端申請在該軟件的當前版本中,標準輸出中包含的主題為:
我們明白了,你是一名生物學家,我們得到了你。您所需要的只是終端的初學者級別...甚至可能沒有那麼多。如果您知道如何瀏覽目錄( cd )並運行可執行文件( ./cims ),那麼您就可以了。
為了使事情變得簡單,我們將所有依賴CIMS都預先包裝在一個文件中,然後將其編譯為Windows,Linux和MacOS。這些文件可在發行下找到。
./cims打開您喜歡的終端,將cd打開到該目錄,並作為可執行CIMS運行。為了使事情變得簡單,我們建議將CIMS保存到目錄中,您將要處理要處理的FastA文件。如果您將序列直接從GenBank中拉出,那並不重要。
如果您想對側翼區域進行自己的更改,或者對代碼進行更改,則可以從python下載CIMS.py並運行它。 (但是您可能已經知道,如果那是您想要的)。
要運行CIMS ,您將需要:
$ pip install Biopython$ pip install colorama Biopython允許CIMS與GenBank通信以下載序列。 Colorama允許我們輕鬆以漂亮的顏色輸出圖案。
一旦安裝了這些依賴項(無論是在全球還是在虛擬環境中),只需運行cims.py即可。
CIMS在終端中運行。它是通過FASTA文件或通過登錄號從GenBank獲取的序列。該工具的輸入必須是一個或多個格式正確的16S-23S序列的FASTA文件,也必須是16S-23S的GenBank登錄號。
導航到CIMS保存的位置。
例如,在Windows中,您將使用cd移至目錄:
cd C:/Users/{your-username}/Desktop/PathtoFile
或在Linux/Mac中:
cd /home/{your username}/{where you downloaded cims}
要運行CIMS ,只需通過從保存的目錄中運行./cims或python cims.py執行它即可。
在您的終端上運行此功能時,輸出將包括在給出的程序序列中找到的所有基景。如果您想保存運行的輸出,請記住使用“ >>”將輸出保存到文本文件中:
cims -f myfasta.fasta >> motifs.txt
標誌,參數及其描述的列表如下:
Usage: cims [-f or -g ] [file or accession number] [OPTIONS]
Options:
-f, --fasta PATH-TO-FASTA-FILE Provide FASTA to be processed.
-g, --genbank ACCESSION1 [ACCESSION2 ...] Provide one or more Genbank Accession Numbers to fetch and process.
-s, --select {leader,d1d1,sp_v2_sp,trna_ile,trna_ala,boxa,boxb,d4,v3,all} Select which motifs to print out. By default it prints all.
-e, --email Provide an email to be used when querying Genbank. An NCBI requirement.
-j, --json Create a json file in the working directory with the output.
-t, --trna Returns ONLY how many tRNAs were found per sequence. cims =f allmycyanos.fasta
結果: CIMS將處理提供的FASTA文件,並返回其找到的所有圖案。
cims -f ~/home/me/fasta/limnothrix_16-23_ITS.fasta -s d1d1, trna_ile, trna_ala, boxb
結果:處理limnothrix_16-23_its.fasta文件存儲在駐留在/home/me/fasta中的目錄中,並要求CIMS僅輸出D1D1,TRNA和BoxB圖案。
cims -g KU574618.1 -e [email protected]
結果:從GenBank獲取KU574618.1的序列(提供NCBI所需的電子郵件),處理序列並返回主題。
cims -f allmycyanos.fasta -t
結果:從GenBank獲取序列,並返回每個生物體上發現了多少個trnas。這可以輕鬆檢查Fasta中的生物是否是同源操縱子。
請注意,如果您丟失了,您始終可以運行cims -h或python cims.py -h ,您將快速參考可用選項。
“Could not find the end of 16S to determine the ITS region boundaries”此誤差意味著給出的軟件序列不包含代表16S區域末端(CCTCCTT)結束的序列。如果您只為程序提供了該區域,則可以進行運行,否則一切都會正常運行,否則,在提示“無論如何繼續進行搜索?(Y/n))時,通過鍵入“ N”來中止該序列的運行。(Y/N)。這將允許該程序移至FastA文件中的下一個序列,或者允許您重試另一個文件/訪問#。
“Region length too short. Skipped.”如果16S基因結束後其區域不到20bps,則將打印。此功能被編碼以刪除其區域太小而無法使用任何圖案的區域的序列。
“Not found in this sequence.”當在其序列中找不到特定基案時,將打印此輸出。這可能是因為側翼區域是獨特的或其他罕見的,因此該軟件找不到這些。如果在數據集中經常發生這種情況,請在GitHub的“問題”頁面中向我們報告,以便我們解決此錯誤並改進代碼。
“Not present in this operon”這將僅在序列中的trnas上打印。如果該程序找不到tRNA-ala或tRNA-ie,則假定該操縱子不包含一個或兩個trNA。請記住,最好在比較其主題分類單元(即包含相同數量的TRNA的操縱子)之間使用同源操縱子。