CIMS Cyanobacterial ITS motif slicer下載CIMS Cyanobacterial ITS motif slicer代碼下載

CIMS Cyanobacterial ITS motif slicer

其他源碼

v0.5-alpha

下載

CIMS：藍細菌的主題切片機

CIMS是一種從16S-23S rRNA序列中提取常用的折疊基序的工具。它需要一個或至少一個GenBank登錄號，並返回提供每個序列的圖案列表，並返回其各自的標籤。致力於藍細菌研究，他們花了很多時間在MS Word中突出圖案。

內容表

========

我們為什麼要製作CIMS ？
它又做什麼？
安裝
用法
可能的錯誤

我們為什麼要製作此工具？

16S-23S rRNA內部轉錄間隔劑（ITS）是藍細菌系統中通常使用的系統發育標記。對其區域的檢查使研究人員能夠發現藍細菌物種之間的一致性和倍形。這為研究人員提供了更多的證據，即建立新的隱秘分類單元或分析先前未解決的分類關係。然而，挑戰是歷史上的研究人員必須手動挖掘序列數據，以在視覺上查找和識別其序列圖案。這種艱苦的過程阻止了研究人員使用其主題，導致錯誤，更不用說……引起頭痛。

我們知道有一種更好的方法可以做到這一點，因此在解剖手動過程後，我們創建了CIMS 。

CIMS發現通常使用其折疊基序，例如D1-D1'，Box B，TRNA-EIL和TRNA-ALA，以確保研究人員在比較其二級結構之間使用同源操縱子之間的二級結構。

它又做什麼？

CIMS是用Python編寫的終端申請
可以處理一個或多個具有一個或多個序列的GenBank登錄號或FASTA文件。
自動為您與GenBank交談，因此您不必自己下載FastA文件。
返回帶有識別圖案及其lenghts的文本輸出，供您使用。

在該軟件的當前版本中，標準輸出中包含的主題為：

領導者
D1-D1`
墊片 - D2 - 墊片
trna-ala
墊片 - V2-墊片
trna-ile
方框b
D4
boxa
V3

安裝

先決條件

我們明白了，你是一名生物學家，我們得到了你。您所需要的只是終端的初學者級別...甚至可能沒有那麼多。如果您知道如何瀏覽目錄（ cd ）並運行可執行文件（ ./cims ），那麼您就可以了。

簡單方法：從發行版中下載預包裝的文件。

為了使事情變得簡單，我們將所有依賴CIMS都預先包裝在一個文件中，然後將其編譯為Windows，Linux和MacOS。這些文件可在發行下找到。

下載與您的系統相對應的zip文件。
在您想要的任何目錄中解開它。
你完成了！？
要運行，通常通過輸入./cims打開您喜歡的終端，將cd打開到該目錄，並作為可執行CIMS運行。

為了使事情變得簡單，我們建議將CIMS保存到目錄中，您將要處理要處理的FastA文件。如果您將序列直接從GenBank中拉出，那並不重要。

高級方法：下載Python腳本。

如果您想對側翼區域進行自己的更改，或者對代碼進行更改，則可以從python下載CIMS.py並運行它。（但是您可能已經知道，如果那是您想要的）。

要運行CIMS ，您將需要：

Python 3
Biopython： $ pip install Biopython
Colorama $ pip install colorama

Biopython允許CIMS與GenBank通信以下載序列。 Colorama允許我們輕鬆以漂亮的顏色輸出圖案。

一旦安裝了這些依賴項（無論是在全球還是在虛擬環境中），只需運行cims.py即可。

用法

CIMS在終端中運行。它是通過FASTA文件或通過登錄號從GenBank獲取的序列。該工具的輸入必須是一個或多個格式正確的16S-23S序列的FASTA文件，也必須是16S-23S的GenBank登錄號。

導航到CIMS保存的位置。

例如，在Windows中，您將使用cd移至目錄：

cd C:/Users/{your-username}/Desktop/PathtoFile

或在Linux/Mac中：

cd /home/{your username}/{where you downloaded cims}

要運行CIMS ，只需通過從保存的目錄中運行./cims或python cims.py執行它即可。

在您的終端上運行此功能時，輸出將包括在給出的程序序列中找到的所有基景。如果您想保存運行的輸出，請記住使用“ >>”將輸出保存到文本文件中：

cims -f myfasta.fasta >> motifs.txt

標誌，參數及其描述的列表如下：

Usage: cims [-f or -g ] [file or accession number] [OPTIONS]

Options:
-f, --fasta PATH-TO-FASTA-FILE                                             Provide FASTA to be processed.
-g, --genbank ACCESSION1 [ACCESSION2 ...]                                  Provide one or more Genbank Accession Numbers to fetch and process.
-s, --select {leader,d1d1,sp_v2_sp,trna_ile,trna_ala,boxa,boxb,d4,v3,all}  Select which motifs to print out. By default it prints all.
-e, --email                                                                Provide an email to be used when querying Genbank. An NCBI requirement.
-j, --json                                                                 Create a json file in the working directory with the output.
-t, --trna                                                                 Returns ONLY how many tRNAs were found per sequence.

示例：

cims =f allmycyanos.fasta

結果： CIMS將處理提供的FASTA文件，並返回其找到的所有圖案。

cims -f ~/home/me/fasta/limnothrix_16-23_ITS.fasta -s d1d1, trna_ile, trna_ala, boxb

結果：處理limnothrix_16-23_its.fasta文件存儲在駐留在/home/me/fasta中的目錄中，並要求CIMS僅輸出D1D1，TRNA和BoxB圖案。

cims -g KU574618.1 -e [email protected]

結果：從GenBank獲取KU574618.1的序列（提供NCBI所需的電子郵件），處理序列並返回主題。

cims -f allmycyanos.fasta -t

結果：從GenBank獲取序列，並返回每個生物體上發現了多少個trnas。這可以輕鬆檢查Fasta中的生物是否是同源操縱子。

請注意，如果您丟失了，您始終可以運行cims -h或python cims.py -h ，您將快速參考可用選項。

可能的錯誤：

1。 `“Could not find the end of 16S to determine the ITS region boundaries”`

此誤差意味著給出的軟件序列不包含代表16S區域末端（CCTCCTT）結束的序列。如果您只為程序提供了該區域，則可以進行運行，否則一切都會正常運行，否則，在提示“無論如何繼續進行搜索？（Y/n））時，通過鍵入“ N”來中止該序列的運行。（Y/N）。這將允許該程序移至FastA文件中的下一個序列，或者允許您重試另一個文件/訪問＃。