CIMS est un outil pour extraire les motifs de pliage couramment utilisés à partir d'une séquence d'ARNr 16S-23S. Il faut un rapide ou au moins un numéro d'accès GenBank et renvoie une liste de motifs avec leurs étiquettes respectives pour chacune des séquences fournies. Dédié aux recherches des cyanobactéries qui passent de nombreuses heures à mettre en évidence des motifs dans MS Word.
========
CIMS ?L'espaceur transcrit interne d'ARNr 16S-23S (ITS) est un marqueur phylogénétique couramment utilisé en systématique cyanobactérienne. L'examen de ses régions permet aux chercheurs de découvrir les congruences et les apomorphies entre les espèces de cyanobactéries. Cela donne au chercheur plus de preuves lors de l'érection de nouveaux taxons cryptiques ou de l'analyse des relations taxonomiques non résolues auparavant. Le défi est cependant que les chercheurs doivent historiquement creuser manuellement à travers des données de séquence pour trouver et identifier visuellement ses motifs de séquence. Ce processus minutieux dissuade les chercheurs d'utiliser ses motifs, conduit à des erreurs et, sans parler… provoque des maux de tête.
Nous savions qu'il y avait une meilleure façon de le faire, donc après avoir disséqué le processus manuel, nous avons créé CIMS .
CIMS trouve les motifs pliants couramment utilisés tels que D1-D1 ', Box B, TRNA-ILE et TRNA-ALA pour s'assurer que les chercheurs utilisent des opérons homologues lors de la comparaison de ses structures secondaires entre les taxons.
CIMS est une application terminale écrite en python queDans la version actuelle du logiciel, les motifs inclus dans la sortie standard sont:
Nous l'obtenons, vous êtes biologiste, nous vous avons. Tout ce dont vous avez besoin est le niveau débutant du terminal ... peut-être même pas grand-chose. Si vous savez comment parcourir un répertoire ( cd ) et exécuter un exécutable ( ./cims ), vous êtes prêt à y aller.
Pour garder les choses simples, nous avons préemballé CIMS avec toutes ses dépendances dans un seul fichier et l'avons compilée pour Windows, Linux et MacOS. Ces fichiers sont disponibles sous les versions.
cd à ce répertoire et exécutez CIMS comme un exécutable, généralement en tapant ./cims . Pour garder les choses simples, nous suggérons d'enregistrer CIMS au répertoire où vous aurez les fichiers FastA que vous souhaitez traiter. Si vous tirez vos séquences directement de Genbank, cela n'a pas vraiment d'importance.
Si vous voulez peut-être apporter vos propres modifications aux régions flanquantes ou apporter des modifications au code, vous pouvez simplement télécharger CIMS.py et l'exécuter avec Python. (Mais vous saviez probablement déjà que si c'est ce que vous vouliez).
Pour exécuter CIMS vous aurez besoin:
$ pip install Biopython$ pip install colorama Biopython permet à CIMS de communiquer avec Genbank pour télécharger des séquences. Colorama nous permet de produire facilement les motifs en jolies couleurs.
Une fois que ces dépendances sont installées (globalement ou dans un environnement virtuel), exécutez simplement cims.py
CIMS fonctionne dans le terminal. Il est fourni une séquence via un fichier fasta, soit en les récupérant de GenBank en fonction des numéros d'accès. L'entrée de cet outil doit être soit un fichier FastA avec un ou plusieurs formates 16S-23 formatés ses séquences ou un numéro d'accès GenBank à un 16S-23 de sa séquence.
Accédez à l'emplacement où CIMS a été sauvé.
Par exemple, dans Windows, vous utiliseriez cd pour passer à un répertoire en tant que tel:
cd C:/Users/{your-username}/Desktop/PathtoFile
Ou dans Linux / Mac:
cd /home/{your username}/{where you downloaded cims}
Pour exécuter CIMS , exécutez-le simplement en exécutant ./cims ou python cims.py du répertoire où il a été enregistré.
Lorsque vous exécutez cela sur votre terminal, la sortie inclura tous les motifs trouvés dans les séquences données au programme. Si vous souhaitez enregistrer la sortie de votre course, n'oubliez pas d'utiliser «>>» pour enregistrer la sortie dans un fichier texte:
cims -f myfasta.fasta >> motifs.txt
La liste des drapeaux, les arguments et leurs descriptions sont ci-dessous:
Usage: cims [-f or -g ] [file or accession number] [OPTIONS]
Options:
-f, --fasta PATH-TO-FASTA-FILE Provide FASTA to be processed.
-g, --genbank ACCESSION1 [ACCESSION2 ...] Provide one or more Genbank Accession Numbers to fetch and process.
-s, --select {leader,d1d1,sp_v2_sp,trna_ile,trna_ala,boxa,boxb,d4,v3,all} Select which motifs to print out. By default it prints all.
-e, --email Provide an email to be used when querying Genbank. An NCBI requirement.
-j, --json Create a json file in the working directory with the output.
-t, --trna Returns ONLY how many tRNAs were found per sequence. cims =f allmycyanos.fasta
Résultat: CIMS traitera le fichier FastA fourni et renverra tous les motifs qu'il trouve.
cims -f ~/home/me/fasta/limnothrix_16-23_ITS.fasta -s d1d1, trna_ile, trna_ala, boxb
Résultat: traite le fichier limnothrix_16-23_its.fasta stocké dans un répertoire qui réside dans / home / me / fasta et demande CIMS de sortir uniquement D1D1, les motifs TRNA et BoxB.
cims -g KU574618.1 -e [email protected]
Résultat: récupère la séquence de KU574618.1 de GenBank (fournissant un e-mail requis par NCBI), traite la séquence et renvoie les motifs.
cims -f allmycyanos.fasta -t
Résultat: récupère la séquence de GenBank et renvoie le nombre d'ARNt trouvé sur chaque organisme. Cela permet de vérifier facilement si les organismes du Fasta sont des opérons homologues.
Remarque Si vous vous perdez, vous pouvez toujours exécuter cims -h ou python cims.py -h et vous obtiendrez une référence rapide des options disponibles.
“Could not find the end of 16S to determine the ITS region boundaries”Cette erreur signifie que la séquence donnée au logiciel ne contenait pas la séquence qui représente la fin de la région 16S (CCTCCTT). Vous pouvez procéder à l'exécution si vous avez nourri le programme dans sa région uniquement et que tout fonctionnera comme normal autrement, interdit l'exécution de cette séquence en tapant «n» lorsque vous avez invité «procéder à la recherche de toute façon? (Y / n)». Cela permettra au programme de passer à la séquence suivante dans le fichier FastA ou vous permettra de réessayer avec un autre fichier / accession #.
“Region length too short. Skipped.”Ceci sera imprimé si la région ITS après la fin du gène 16S est inférieure à 20 pb. Cette fonctionnalité est codée pour supprimer les séquences avec ses régions trop petites pour être utilisées pour trouver l'un des motifs.
“Not found in this sequence.”Cette sortie sera imprimée lorsqu'un motif particulier n'a pas été trouvé dans la séquence ITS. Cela pourrait être dû au fait que les régions flanquantes sont uniques ou autrement rares et que le logiciel ne les a donc pas trouvés. Si cela se produit fréquemment dans votre ensemble de données, veuillez nous le signaler dans la page «Problèmes» du GitHub afin que nous puissions aborder cette erreur et améliorer le code.
“Not present in this operon”Ceci ne sera imprimé que concernant les ARNn dans la séquence. Si le programme ne trouve pas TRNA-ALA ou TRNA-ILE, il supposera que cet opéron ne contient pas un ou les deux TRNA. N'oubliez pas qu'il est préférable d'utiliser des opérons homologues lors de la comparaison de ses motifs entre les taxons (c'est-à-dire les opérons contenant le même nombre d'ARNn).