CIMS é uma ferramenta para extrair os motivos dobráveis comumente usados de uma sequência de rRNA 16S-23S. É preciso uma fasta ou pelo menos um número de acesso ao GenBank e retorna uma lista de motivos com seus respectivos rótulos para cada uma das seqüências fornecidas. Dedicado às pesquisas de cianobactérias que passam muitas horas destacando motivos no MS Word.
========
CIMS ?O espaçador transcrito interno do RRNA 16S-23S é um marcador filogenético comumente empregado na sistemática cianobacteriana. O exame de suas regiões permite que os pesquisadores descubram congruências e apomorfias entre espécies de cianobactérias. Isso dá ao pesquisador mais evidências ao erguer novos táxon enigmáticos ou analisar relacionamentos taxonômicos anteriormente não resolvidos. O desafio, no entanto, é que os pesquisadores historicamente devem cavar manualmente os dados de sequência para encontrar e identificar visualmente seus motivos de sequência. Esse processo meticuloso impede os pesquisadores de usar seus motivos, leva a erros e, sem mencionar ... causa dores de cabeça.
Sabíamos que havia uma maneira melhor de fazer isso; portanto, depois de dissecar o processo manual, criamos CIMS .
CIMS encontra os motivos dobráveis comumente usados, como D1-D1 ', Box B, TRNA-Ile e TRNA-ALA para garantir que os pesquisadores estejam usando operons homólogos ao comparar suas estruturas secundárias entre os táxons.
CIMS é um aplicativo terminal escrito em Python queNa versão atual do software, os motivos incluídos na saída padrão são:
Entendemos, você é um biólogo, pegamos você. Tudo o que você precisa é de nível iniciante do terminal ... talvez nem tanto. Se você souber como navegar para um diretório ( cd ) e executar um executável ( ./cims ), está pronto para ir.
Para simplificar as coisas, nós pré- CIMS com todas as suas dependências em um único arquivo e o compilam para Windows, Linux e MacOS. Esses arquivos estão disponíveis no lançamento.
cd para esse diretório e execute CIMS como um executável, geralmente digitando ./cims . Para simplificar as coisas, sugerimos salvar CIMS no diretório, onde você terá os arquivos FASTA que deseja processar. Se você está puxando suas seqüências diretamente do GenBank, isso realmente não importa.
Se você deseja fazer suas próprias alterações nas regiões de flanqueamento ou fazer alterações no código, basta baixar CIMS.py e executá -lo com o Python. (Mas você provavelmente já sabia que, se é isso que você queria).
Para executar CIMS você precisará:
$ pip install Biopython$ pip install colorama O Biopython permite que CIMS se comuniquem com o GenBank para baixar sequências. O Colorama nos permite gerar facilmente os motivos em cores bonitas.
Depois de instalar essas dependências (globalmente ou em um ambiente virtual), basta executar cims.py
CIMS é executado no terminal. É fornecido uma sequência através de um arquivo fasta ou buscando -o no GenBank com base em números de adesão. A entrada para esta ferramenta deve ser um arquivo fasta com um ou mais adequadamente formatados 16s-23s suas seqüências ou um número de acesso GenBank para um 16S-23S sua sequência.
Navegue até o local onde CIMS foi salvo.
Por exemplo, no Windows, você usaria cd para passar para um diretório como tal:
cd C:/Users/{your-username}/Desktop/PathtoFile
Ou no Linux/Mac:
cd /home/{your username}/{where you downloaded cims}
Para executar CIMS , basta executá -lo executando ./cims ou python cims.py do diretório onde foi salvo.
Ao executar isso no seu terminal, a saída incluirá todos os motivos encontrados nas seqüências dadas ao programa. Se você deseja salvar a saída da sua corrida, lembre -se de usar ">>" para salvar a saída em um arquivo de texto:
cims -f myfasta.fasta >> motifs.txt
A lista de bandeiras, argumentos e suas descrições estão abaixo:
Usage: cims [-f or -g ] [file or accession number] [OPTIONS]
Options:
-f, --fasta PATH-TO-FASTA-FILE Provide FASTA to be processed.
-g, --genbank ACCESSION1 [ACCESSION2 ...] Provide one or more Genbank Accession Numbers to fetch and process.
-s, --select {leader,d1d1,sp_v2_sp,trna_ile,trna_ala,boxa,boxb,d4,v3,all} Select which motifs to print out. By default it prints all.
-e, --email Provide an email to be used when querying Genbank. An NCBI requirement.
-j, --json Create a json file in the working directory with the output.
-t, --trna Returns ONLY how many tRNAs were found per sequence. cims =f allmycyanos.fasta
Resultado: CIMS processarão o arquivo FASTA fornecido e retornarão todos os motivos que encontra.
cims -f ~/home/me/fasta/limnothrix_16-23_ITS.fasta -s d1d1, trna_ile, trna_ala, boxb
Resultado: Processos o arquivo Limnothrix_16-23_its.fastA armazenado em um diretório que reside em/home/me/fasta e pede CIMS que seja produzido apenas D1D1, os motivos TRNAs e BoxB.
cims -g KU574618.1 -e [email protected]
Resultado: busca a sequência de KU574618.1 do GenBank (fornecendo um email exigido pelo NCBI), processa a sequência e retorna os motivos.
cims -f allmycyanos.fasta -t
Resultado: busca a sequência do GenBank e retorna quantos tRNAs foram encontrados em cada organismo. Isso permite verificar facilmente se os organismos no FASTA são operons homólogos.
Nota Se você se perder, sempre poderá executar cims -h ou python cims.py -h e receberá uma referência rápida das opções disponíveis.
“Could not find the end of 16S to determine the ITS region boundaries”Este erro significa que a sequência dada ao software não continha a sequência que representa o final da região 16S (CCTCCTT). Você pode prosseguir com a execução se tiver alimentado o programa apenas a região e tudo funcionará normalmente, abortar a execução dessa sequência digitando "n" quando solicitado "prossiga com a pesquisa de qualquer maneira? (S/n)". Isso permitirá que o programa vá para a próxima sequência no arquivo FASTA ou permitirá que você tente novamente com outro número de arquivo/adesão.
“Region length too short. Skipped.”Isso será impresso se a sua região após o final do gene 16S estiver abaixo de 20bps. Esse recurso é codificado para remover sequências com suas regiões pequenas demais para serem usadas para encontrar qualquer um dos motivos.
“Not found in this sequence.”Essa saída será impressa quando um motivo específico não foi encontrado na sequência ITS. Isso pode ser porque as regiões de flanqueamento são únicas ou raras e, portanto, o software não as encontrou. Se isso acontecer com frequência no seu conjunto de dados, informe isso para nós na página "Problemas" do Github para que possamos abordar esse erro e melhorar o código.
“Not present in this operon”Isso será impresso apenas em relação aos TRNAs na sequência. Se o programa não encontrar tRNA-Ala ou tRNA-ile, assumirá que esse operon não contém um ou ambos os TRNAs. Lembre -se, é melhor usar operons homólogos ao comparar seus motivos entre os táxons (ou seja, operons contendo o mesmo número de tRNAs).