CIMS是一种从16S-23S rRNA序列中提取常用的折叠基序的工具。它需要一个或至少一个GenBank登录号,并返回提供每个序列的图案列表,并返回其各自的标签。致力于蓝细菌研究,他们花了很多时间在MS Word中突出图案。
========
CIMS ?16S-23S rRNA内部转录间隔剂(ITS)是蓝细菌系统中通常使用的系统发育标记。对其区域的检查使研究人员能够发现蓝细菌物种之间的一致性和倍形。这为研究人员提供了更多的证据,即建立新的隐秘分类单元或分析先前未解决的分类关系。然而,挑战是历史上的研究人员必须手动挖掘序列数据,以在视觉上查找和识别其序列图案。这种艰苦的过程阻止了研究人员使用其主题,导致错误,更不用说……引起头痛。
我们知道有一种更好的方法可以做到这一点,因此在解剖手动过程后,我们创建了CIMS 。
CIMS发现通常使用其折叠基序,例如D1-D1',Box B,TRNA-EIL和TRNA-ALA,以确保研究人员在比较其二级结构之间使用同源操纵子之间的二级结构。
CIMS是用Python编写的终端申请在该软件的当前版本中,标准输出中包含的主题为:
我们明白了,你是一名生物学家,我们得到了你。您所需要的只是终端的初学者级别...甚至可能没有那么多。如果您知道如何浏览目录( cd )并运行可执行文件( ./cims ),那么您就可以了。
为了使事情变得简单,我们将所有依赖CIMS都预先包装在一个文件中,然后将其编译为Windows,Linux和MacOS。这些文件可在发行下找到。
./cims打开您喜欢的终端,将cd打开到该目录,并作为可执行CIMS运行。为了使事情变得简单,我们建议将CIMS保存到目录中,您将要处理要处理的FastA文件。如果您将序列直接从GenBank中拉出,那并不重要。
如果您想对侧翼区域进行自己的更改,或者对代码进行更改,则可以从python下载CIMS.py并运行它。 (但是您可能已经知道,如果那是您想要的)。
要运行CIMS ,您将需要:
$ pip install Biopython$ pip install colorama Biopython允许CIMS与GenBank通信以下载序列。 Colorama允许我们轻松以漂亮的颜色输出图案。
一旦安装了这些依赖项(无论是在全球还是在虚拟环境中),只需运行cims.py即可。
CIMS在终端中运行。它是通过FASTA文件或通过登录号从GenBank获取的序列。该工具的输入必须是一个或多个格式正确的16S-23S序列的FASTA文件,也必须是16S-23S的GenBank登录号。
导航到CIMS保存的位置。
例如,在Windows中,您将使用cd移至目录:
cd C:/Users/{your-username}/Desktop/PathtoFile
或在Linux/Mac中:
cd /home/{your username}/{where you downloaded cims}
要运行CIMS ,只需通过从保存的目录中运行./cims或python cims.py执行它即可。
在您的终端上运行此功能时,输出将包括在给出的程序序列中找到的所有基景。如果您想保存运行的输出,请记住使用“ >>”将输出保存到文本文件中:
cims -f myfasta.fasta >> motifs.txt
标志,参数及其描述的列表如下:
Usage: cims [-f or -g ] [file or accession number] [OPTIONS]
Options:
-f, --fasta PATH-TO-FASTA-FILE Provide FASTA to be processed.
-g, --genbank ACCESSION1 [ACCESSION2 ...] Provide one or more Genbank Accession Numbers to fetch and process.
-s, --select {leader,d1d1,sp_v2_sp,trna_ile,trna_ala,boxa,boxb,d4,v3,all} Select which motifs to print out. By default it prints all.
-e, --email Provide an email to be used when querying Genbank. An NCBI requirement.
-j, --json Create a json file in the working directory with the output.
-t, --trna Returns ONLY how many tRNAs were found per sequence. cims =f allmycyanos.fasta
结果: CIMS将处理提供的FASTA文件,并返回其找到的所有图案。
cims -f ~/home/me/fasta/limnothrix_16-23_ITS.fasta -s d1d1, trna_ile, trna_ala, boxb
结果:处理limnothrix_16-23_its.fasta文件存储在驻留在/home/me/fasta中的目录中,并要求CIMS仅输出D1D1,TRNA和BoxB图案。
cims -g KU574618.1 -e [email protected]
结果:从GenBank获取KU574618.1的序列(提供NCBI所需的电子邮件),处理序列并返回主题。
cims -f allmycyanos.fasta -t
结果:从GenBank获取序列,并返回每个生物体上发现了多少个trnas。这可以轻松检查Fasta中的生物是否是同源操纵子。
请注意,如果您丢失了,您始终可以运行cims -h或python cims.py -h ,您将快速参考可用选项。
“Could not find the end of 16S to determine the ITS region boundaries”此误差意味着给出的软件序列不包含代表16S区域末端(CCTCCTT)结束的序列。如果您只为程序提供了该区域,则可以进行运行,否则一切都会正常运行,否则,在提示“无论如何继续进行搜索?(Y/n))时,通过键入“ N”来中止该序列的运行。(Y/N)。这将允许该程序移至FastA文件中的下一个序列,或者允许您重试另一个文件/访问#。
“Region length too short. Skipped.”如果16S基因结束后其区域不到20bps,则将打印。此功能被编码以删除其区域太小而无法使用任何图案的区域的序列。
“Not found in this sequence.”当在其序列中找不到特定基案时,将打印此输出。这可能是因为侧翼区域是独特的或其他罕见的,因此该软件找不到这些。如果在数据集中经常发生这种情况,请在GitHub的“问题”页面中向我们报告,以便我们解决此错误并改进代码。
“Not present in this operon”这将仅在序列中的trnas上打印。如果该程序找不到tRNA-ala或tRNA-ie,则假定该操纵子不包含一个或两个trNA。请记住,最好在比较其主题分类单元(即包含相同数量的TRNA的操纵子)之间使用同源操纵子。