CIMS es una herramienta para extraer los motivos de plegamiento comúnmente utilizados de una secuencia de ARNr 16S-23S. Se necesita un número de acceso FASTA o al menos un GenBank y devuelve una lista de motivos con sus respectivas etiquetas para cada una de las secuencias proporcionadas. Dedicado a las investigaciones de cianobacterias que pasan muchas horas destacando motivos en MS Word.
========
CIMS ?El espaciador interno de ARNr 16S-23S (ITS) es un marcador filogenético comúnmente empleado en la sistemática cianobacteriana. El examen de sus regiones permite a los investigadores descubrir congruencias y apomorfías entre especies de cianobacterias. Esto le da al investigador más evidencia al erigir el nuevo taxón críptico o analizar las relaciones taxonómicas previamente no resueltas. Sin embargo, el desafío es que históricamente los investigadores deben cavar manualmente a través de datos de secuencia para encontrar e identificar visualmente sus motivos de secuencia. Este minucioso proceso disuade a los investigadores del uso de sus motivos, conduce a errores y, sin mencionar ... causa dolores de cabeza.
Sabíamos que había una mejor manera de hacer esto, así que después de diseccionar el proceso manual, creamos CIMS .
CIMS encuentra los motivos plegables comúnmente utilizados como D1-D1 ', Box B, TRNA-ILE y TRNA-ALA para garantizar que los investigadores usen operones homólogos al comparar sus estructuras secundarias entre taxones.
CIMS es una solicitud terminal escrita en Python queEn la versión actual del software, los motivos incluidos en la salida estándar son:
Lo entendemos, eres biólogo, te tenemos. Todo lo que necesitas es el nivel principiante de la terminal ... tal vez ni siquiera tanto. Si sabe cómo navegar a un directorio ( cd ) y ejecutar un ejecutable ( ./cims ), está listo para comenzar.
Para mantener las cosas simples, preenvasamos previamente CIMS con todas sus dependencias en un solo archivo y las compilamos para Windows, Linux y MacOS. Estos archivos están disponibles en versiones.
cd a ese directorio y ejecute CIMS como ejecutable, generalmente escribiendo ./cims . Para mantener las cosas simples, sugerimos guardar CIMS en el directorio donde tendrá los archivos FASTA que desea procesar. Si está tirando de sus secuencias directamente de GenBank, realmente no importa.
Si quizás desea hacer sus propios cambios en las regiones flanqueantes, o hacer cambios en el código, simplemente puede descargar CIMS.py desde y ejecutarlo con Python. (Pero probablemente ya sabías que si eso es lo que querías).
Para ejecutar CIMS necesitará:
$ pip install Biopython$ pip install colorama Biopython permite CIMS comunicarse con GenBank para descargar secuencias. Colorama nos permite emitir fácilmente los motivos en colores bonitos.
Una vez que tenga esas dependencias instaladas (ya sea a nivel mundial o en un entorno virtual), simplemente ejecute cims.py
CIMS corre en la terminal. Se proporciona una secuencia a través de un archivo FASTA o obteniéndolo de GenBank en función de los números de acceso. La entrada para esta herramienta debe ser un archivo FASTA con uno o más 16S-23 de formateado correctamente sus secuencias o un número de acceso de GenBank a un 16S-23S su secuencia.
Navegue hasta el lugar donde se guardó CIMS .
Por ejemplo, en Windows, usaría cd para moverse a un directorio como tal:
cd C:/Users/{your-username}/Desktop/PathtoFile
O en Linux/Mac:
cd /home/{your username}/{where you downloaded cims}
Para ejecutar CIMS , simplemente ejecutarlo ejecutando ./cims o python cims.py desde el directorio donde se guardó.
Al ejecutar esto en su terminal, la salida incluirá todos los motivos que se encuentran en las secuencias dadas al programa. Si desea guardar la salida de su ejecución, recuerde usar ">>" para guardar la salida en un archivo de texto:
cims -f myfasta.fasta >> motifs.txt
La lista de banderas, argumentos y sus descripciones están a continuación:
Usage: cims [-f or -g ] [file or accession number] [OPTIONS]
Options:
-f, --fasta PATH-TO-FASTA-FILE Provide FASTA to be processed.
-g, --genbank ACCESSION1 [ACCESSION2 ...] Provide one or more Genbank Accession Numbers to fetch and process.
-s, --select {leader,d1d1,sp_v2_sp,trna_ile,trna_ala,boxa,boxb,d4,v3,all} Select which motifs to print out. By default it prints all.
-e, --email Provide an email to be used when querying Genbank. An NCBI requirement.
-j, --json Create a json file in the working directory with the output.
-t, --trna Returns ONLY how many tRNAs were found per sequence. cims =f allmycyanos.fasta
Resultado: CIMS procesará el archivo FASTA proporcionado y devolverá todos los motivos que encuentra.
cims -f ~/home/me/fasta/limnothrix_16-23_ITS.fasta -s d1d1, trna_ile, trna_ala, boxb
Resultado: procesa el archivo limnothrix_16-23_its.fastA almacenado en un directorio que reside en/home/me/fasta y le pide CIMS que solo salga D1D1, los motivos TRNA y BOXB.
cims -g KU574618.1 -e [email protected]
Resultado: obtiene la secuencia de KU574618.1 de GenBank (proporcionando un correo electrónico requerido por NCBI), procesa la secuencia y devuelve los motivos.
cims -f allmycyanos.fasta -t
Resultado: obtiene la secuencia de GenBank y devuelve cuántos tRNA se encontraron en cada organismo. Esto permite verificar fácilmente si los organismos en FASTA son operones homólogos.
Tenga en cuenta que si alguna vez se pierde, siempre puede ejecutar cims -h o python cims.py -h y obtendrá una referencia rápida de las opciones disponibles.
“Could not find the end of 16S to determine the ITS region boundaries”Este error significa que la secuencia dada al software no contenía la secuencia que representa el final de la región 16S (CCTCCTT). Puede proceder con la ejecución si ha alimentado el programa solo su región y todo se ejecutará como normal de otra manera, aborta la ejecución de esa secuencia escribiendo "n" cuando se le solicite "continúe con la búsqueda de todos modos? (Y/n)". Esto permitirá que el programa se mueva a la siguiente secuencia en el archivo FASTA o le permitirá intentarlo nuevamente con otro archivo/ #de acceso.
“Region length too short. Skipped.”Esto se imprimirá si la región ITS después del final del gen 16S es de menos de 20 pb. Esta característica está codificada para eliminar secuencias con sus regiones que son demasiado pequeñas para ser utilizadas para encontrar cualquiera de los motivos.
“Not found in this sequence.”Esta salida se imprimirá cuando no se encontró un motivo en particular en la secuencia ITS. Esto podría deberse a que las regiones flanqueantes son únicas o raras, por lo que el software no los encontró. Si esto sucede con frecuencia en su conjunto de datos, infórmenos en la página "Problemas" del GitHub para que podamos abordar este error y mejorar el código.
“Not present in this operon”Esto se imprimirá solo con respecto a los TRNA en la secuencia. Si el programa no encuentra TRNA-ALA o TRNA-ILE, asumirá que este operón no contiene uno o ambos TRNA. Recuerde, es mejor usar operones homólogos al comparar sus motivos entre taxones (es decir, operones que contienen el mismo número de tRNA).