CIMS ist ein Werkzeug, um die häufig verwendeten Faltmotive aus einer 16S-23S-rRNA-Sequenz zu extrahieren. Es benötigt eine Fasta- oder mindestens eine GenBank -Zugangsnummer und gibt eine Liste von Motiven mit ihren jeweiligen Etiketten für jede der bereitgestellten Sequenzen zurück. Die Cyanobakterien -Forschungen gewidmet, die viele Stunden damit verbringen, Motive in MS Word hervorzuheben.
=========
CIMS gemacht?Der 16S-23S-rRNA-interne transkribierte Abstandshalter (IT) ist ein häufig verwendeter phylogenetischer Marker in der cyanobakteriellen Systematik. Die Untersuchung ihrer Regionen ermöglicht es Forschern, Kongruden und Apomorphien zwischen Cyanobakterienarten zu entdecken. Dies liefert dem Forscher mehr Beweise bei der Errichtung eines neuen kryptischen Taxons oder der Analyse zuvor ungelöster taxonomischer Beziehungen. Die Herausforderung besteht jedoch darin, dass historisch gesehen die Forscher durch Sequenzdaten manuell durchgehen müssen, um ihre Sequenzmotive visuell zu finden und zu identifizieren. Dieser sorgfältige Prozess verhindert die Forscher daran, seine Motive zu verwenden, führt zu Fehlern und führt nicht zu erwähnen ... verursacht Kopfschmerzen.
Wir wussten, dass es einen besseren Weg gibt, dies zu tun. Nachdem wir den manuellen Prozess analysiert hatten, haben wir CIMS erstellt.
CIMS findet die häufig verwendeten Faltmotive wie D1-D1 ', Kasten B, Trna-ile und tRNA-ALA, um sicherzustellen, dass die Forscher beim Vergleich seiner sekundären Strukturen zwischen Taxa homologe Operons verwenden.
CIMS ist ein Terminalantrag, der in Python geschrieben wurde, dassIn der aktuellen Version der Software sind die in der Standardausgabe enthaltenen Motive:
Wir bekommen es, Sie sind Biologe, wir haben Sie. Alles, was Sie brauchen, ist Anfängerstufe des Terminals ... vielleicht nicht einmal so viel. Wenn Sie wissen, wie Sie zu einem Verzeichnis ( cd ) suchen und eine ausführbare Datei ( ./cims ) ausführen, können Sie loslegen.
Um die Dinge einfach zu halten, haben wir CIMS mit all den Abhängigkeiten von einer einzelnen Datei vorgepackt und sie für Windows, Linux und MacOS zusammengestellt. Diese Dateien sind unter Veröffentlichungen verfügbar.
cd , für dieses Verzeichnis zu öffnen und CIMS als ausführbare Datei auszuführen, normalerweise durch Eingabe ./cims . Um die Dinge einfach zu halten, empfehlen wir, CIMS in dem Verzeichnis zu speichern, in dem Sie über die Fasta -Dateien verfügen, die Sie verarbeiten möchten. Wenn Sie Ihre Sequenzen direkt aus der GenBank ziehen, spielt es keine Rolle.
Wenn Sie vielleicht Ihre eigenen Änderungen an den flankierenden Regionen vornehmen oder Änderungen am Code vornehmen möchten, können Sie einfach CIMS.py herunterladen und ihn mit Python ausführen. (Aber Sie wussten das wahrscheinlich schon, wenn Sie das wollten).
Um CIMS zu führen, brauchen Sie:
$ pip install Biopython$ pip install colorama Mit Biopython können CIMS mit GenBank kommunizieren, um Sequenzen herunterzuladen. Mit Colorama können wir die Motive in hübschen Farben problemlos ausgeben.
Sobald Sie diese Abhängigkeiten installiert haben (entweder global oder in einer virtuellen Umgebung), führen Sie einfach cims.py aus.
CIMS läuft im Terminal. Es wird eine Sequenz entweder über eine Fasta -Datei oder durch Abrufen von GenBank basierend auf Zugangsnummern bereitgestellt. Die Eingabe für dieses Tool muss entweder eine Fasta-Datei mit einer oder mehrerer ordnungsgemäß formatierter 16S-23-Sendungen oder einer GenBank-Zugangsnummer zu einem 16S-23-Sequenz sein.
Navigieren Sie zu dem Ort, an dem CIMS gerettet wurde.
In Windows können Sie beispielsweise cd als solches in ein Verzeichnis wechseln:
cd C:/Users/{your-username}/Desktop/PathtoFile
Oder in Linux/Mac:
cd /home/{your username}/{where you downloaded cims}
Um CIMS auszuführen, führen Sie es einfach durch Ausführen von ./cims oder python cims.py aus dem Verzeichnis aus, in dem es gerettet wurde.
Wenn Sie dies auf Ihrem Terminal ausführen, enthält die Ausgabe alle Motive, die in den dem Programm angegebenen Sequenzen enthalten sind. Wenn Sie die Ausgabe Ihres Laufs speichern möchten, denken Sie daran, „>>“ zu verwenden, um die Ausgabe in einer Textdatei zu speichern:
cims -f myfasta.fasta >> motifs.txt
Die Liste der Flaggen, Argumente und deren Beschreibungen finden Sie unten:
Usage: cims [-f or -g ] [file or accession number] [OPTIONS]
Options:
-f, --fasta PATH-TO-FASTA-FILE Provide FASTA to be processed.
-g, --genbank ACCESSION1 [ACCESSION2 ...] Provide one or more Genbank Accession Numbers to fetch and process.
-s, --select {leader,d1d1,sp_v2_sp,trna_ile,trna_ala,boxa,boxb,d4,v3,all} Select which motifs to print out. By default it prints all.
-e, --email Provide an email to be used when querying Genbank. An NCBI requirement.
-j, --json Create a json file in the working directory with the output.
-t, --trna Returns ONLY how many tRNAs were found per sequence. cims =f allmycyanos.fasta
Ergebnis: CIMS verarbeitet die bereitgestellte Fasta -Datei und gibt alle von ihnen fundierten Motive zurück.
cims -f ~/home/me/fasta/limnothrix_16-23_ITS.fasta -s d1d1, trna_ile, trna_ala, boxb
Ergebnis: Verarbeitet die Limnothrix_16-23_its.fasta-Datei, die in einem Verzeichnis gespeichert ist, das sich in/home/me/fasta befindet und CIMS auffordert, nur D1D1, TRNAs und Boxb-Motive auszugeben.
cims -g KU574618.1 -e [email protected]
Ergebnis: Ruft die Sequenz von KU574618.1 von GenBank ab (bereit, eine E -Mail bereitzustellen, die von NCBI erforderlich ist), verarbeitet die Sequenz und gibt die Motive zurück.
cims -f allmycyanos.fasta -t
Ergebnis: Ruft die Sequenz von GenBank ab und gibt zurück, wie viele TRNAs bei jedem Organismus gefunden wurden. Dies ermöglicht leicht zu prüfen, ob die Organismen in der Fasta homologe Operons sind.
Beachten Sie , wenn Sie sich jemals verloren gehen, können Sie immer cims -h oder python cims.py -h ausführen und erhalten eine kurze Referenz auf die verfügbaren Optionen.
“Could not find the end of 16S to determine the ITS region boundaries”Dieser Fehler bedeutet, dass die an die Software angegebene Sequenz nicht die Sequenz enthielt, die das Ende der 16S -Region (CCTCCTT) darstellt. Sie können mit dem Lauf fortfahren, wenn Sie das Programm nur in der Region gefüttert haben, und alles wird wie normal ausgeführt. Andernfalls treiben Sie den Lauf für diese Sequenz ab, indem Sie „N“ eingeben, wenn Sie auf Angabe "Suchen Sie trotzdem fortfahren? (Y/n)" eingeben. Auf diese Weise kann das Programm zur nächsten Sequenz in der Fasta -Datei übergehen oder es mit einer anderen Datei/Zugangsnummer erneut versuchen.
“Region length too short. Skipped.”Dies wird gedruckt, wenn die Region nach dem Ende des 16S -Gens unter 20 bit / s liegt. Diese Funktion wird codiert, um Sequenzen mit ihren Regionen zu entfernen, die zu klein sind, um ein der Motive zu finden.
“Not found in this sequence.”Diese Ausgabe wird gedruckt, wenn ein bestimmtes Motiv in seiner Sequenz nicht gefunden wurde. Dies könnte daran liegen, dass die flankierenden Regionen einzigartig oder auf andere Weise selten sind und die Software diese nicht gefunden hat. Wenn dies häufig in Ihrem Datensatz geschieht, melden Sie diese bitte auf der Seite „Probleme“ des Github, damit wir diesen Fehler beheben und den Code verbessern können.
“Not present in this operon”Dies wird nur in Bezug auf TRNAs in der Sequenz gedruckt. Wenn das Programm keine tRNA-ala oder tRNA-iil findet, wird davon ausgegangen, dass dieser Operon keine oder beide TRNAs enthält. Denken Sie daran, dass es am besten ist, homologe Operons beim Vergleich seiner Motive zwischen Taxa (dh Operons mit derselben Anzahl von TRNAs) zu verwenden.