CIMS 、16S-23S RRNAシーケンスから一般的に使用される折りたたみモチーフを抽出するツールです。 FASTAまたは少なくとも1つのGenBankアクセッション番号が必要であり、提供された各シーケンスのそれぞれのラベルを含むモチーフのリストを返します。 MS Wordのモチーフを強調するために何時間も費やしているシアノバクテリア研究に捧げられています。
=========
CIMSを作ったのですか?16S-23S rRNA内部転写スペーサー(ITS)は、シアノバクテリア系統で一般的に採用されている系統系マーカーです。その地域を調べることで、研究者はシアノバクテリアの種間の一致とアポモーフィーを発見することができます。これにより、新しい謎めいた分類群を建設したり、以前に解決されていなかった分類関係を分析したりする際に、研究者がより多くの証拠を得ることができます。ただし、課題は、歴史的に研究者がシーケンスデータを手動で掘り下げて、そのシーケンスモチーフを視覚的に見つけて特定する必要があることです。この骨の折れるプロセスは、研究者がそのモチーフを使用することを思いとどまらせ、エラーにつながり、言うまでもなく頭痛を引き起こします。
これを行うためのより良い方法があることはわかっていたので、手動プロセスを分析した後、 CIMSを作成しました。
CIMS 、D1-D1 '、Box B、TRNA-ILE、TRNA-ALAなどの折りたたみモチーフを一般的に使用して、分類群間の二次構造を比較する際に研究者が相同オペロンを使用していることを確認します。
CIMSは、Pythonで書かれたターミナルアプリケーションですソフトウェアの現在のバージョンでは、標準出力に含まれるモチーフは次のとおりです。
私たちはそれを手に入れ、あなたは生物学者です、私たちはあなたを手に入れました。必要なのは、ターミナルの初心者レベルだけです...多分それほどではありません。ディレクトリ( cd )に閲覧する方法を知っていて、実行可能ファイル( ./cims )を実行する場合は、行ってもいいです。
物事をシンプルに保つために、 CIMSすべての依存関係で単一のファイルに事前にパッケージ化し、Windows、Linux、およびMacOS用にコンパイルしました。これらのファイルはリリースで利用できます。
cdそのディレクトリに開き、通常は./cimsを入力して実行可能ファイルとしてCIMSを実行します。物事をシンプルに保つために、処理するFASTAファイルを持っているディレクトリにCIMSを保存することをお勧めします。 GenBankからシーケンスを直接引っ張っている場合、それは実際には問題ではありません。
おそらく、隣接する地域に独自の変更を加えたり、コードを変更したい場合は、cims.pyからpythonでCIMS.pyをダウンロードして実行できます。 (しかし、あなたはおそらくそれがあなたが望んでいたものであるかどうかをすでに知っていたでしょう)。
CIMSを実行するには、必要です。
$ pip install Biopython$ pip install colorama Biopythonを使用すると、 CIMS GenBankと通信してシーケンスをダウンロードできます。 Coloramaを使用すると、モチーフをかなり色で簡単に出力できます。
これらの依存関係を(グローバルまたは仮想環境のいずれか)にインストールしたら、 cims.pyを実行するだけです。
CIMS端末で実行されます。 FASTAファイルを介して、またはアクセッション番号に基づいてGenBankからそれらを取得することにより、シーケンスが提供されます。このツールの入力は、1つ以上の適切にフォーマットされた16S-23Sのシーケンスを備えたFASTAファイルまたは16S-23SのシーケンスへのGenBankアクセッション番号のいずれかでなければなりません。
CIMSが保存された場所に移動します。
たとえば、Windowsでは、 cdを使用してディレクトリに移動します。
cd C:/Users/{your-username}/Desktop/PathtoFile
またはLinux/Macで:
cd /home/{your username}/{where you downloaded cims}
CIMSを実行するには、保存されたディレクトリから./cimsまたはpython cims.pyを実行して実行するだけで実行します。
これを端末で実行すると、出力にはプログラムに与えられたシーケンスにあるすべてのモチーフが含まれます。実行の出力を保存したい場合は、「>>」を使用して出力をテキストファイルに保存することを忘れないでください。
cims -f myfasta.fasta >> motifs.txt
フラグ、引数、およびその説明のリストは以下にあります。
Usage: cims [-f or -g ] [file or accession number] [OPTIONS]
Options:
-f, --fasta PATH-TO-FASTA-FILE Provide FASTA to be processed.
-g, --genbank ACCESSION1 [ACCESSION2 ...] Provide one or more Genbank Accession Numbers to fetch and process.
-s, --select {leader,d1d1,sp_v2_sp,trna_ile,trna_ala,boxa,boxb,d4,v3,all} Select which motifs to print out. By default it prints all.
-e, --email Provide an email to be used when querying Genbank. An NCBI requirement.
-j, --json Create a json file in the working directory with the output.
-t, --trna Returns ONLY how many tRNAs were found per sequence. cims =f allmycyanos.fasta
結果: CIMS 、提供されたFASTAファイルを処理し、見つけたすべてのモチーフを返します。
cims -f ~/home/me/fasta/limnothrix_16-23_ITS.fasta -s d1d1, trna_ile, trna_ala, boxb
結果:/home/me/fastaにあるディレクトリに保存されているlimnothrix_16-23_its.fastaファイルを処理し、 CIMS d1d1、trnas、boxbモチーフのみを出力するように依頼します。
cims -g KU574618.1 -e [email protected]
結果:GenBankからKU574618.1のシーケンスを取得し(NCBIが必要とする電子メールを提供)、シーケンスを処理し、モチーフを返します。
cims -f allmycyanos.fasta -t
結果:GenBankからシーケンスを取得し、各生物で見つかったTRNAの数を返します。これにより、FASTAの生物が相同オペロンであるかどうかを簡単に確認できます。
迷子になった場合は、いつでもcims -hまたはpython cims.py -hを実行できます。利用可能なオプションをすばやく参照できます。
“Could not find the end of 16S to determine the ITS region boundaries”このエラーは、ソフトウェアに与えられたシーケンスに、16S領域(CCTCCTT)の終わりを表すシーケンスを含まなかったことを意味します。プログラムにその領域のみを提供し、すべてが通常どおりに実行される場合、実行を進めることができます。これにより、プログラムがFASTAファイルの次のシーケンスに移動するか、別のファイル/アクセッション#で再試行できるようになります。
“Region length too short. Skipped.”これは、16S遺伝子の終了後のその領域が20bps未満の場合に印刷されます。この機能は、モチーフを見つけるには小さすぎる領域でシーケンスを削除するようにコーディングされています。
“Not found in this sequence.”この出力は、そのシーケンスに特定のモチーフが見つからなかったときに印刷されます。これは、隣接する地域がユニークであるか、そうでなければレアであるため、ソフトウェアがこれらを見つけられなかったためかもしれません。これがデータセットで頻繁に発生する場合は、このエラーに対処してコードを改善できるように、GitHubの「問題」ページでこれを報告してください。
“Not present in this operon”これは、シーケンス内のTRNAに関してのみ印刷されます。プログラムがtRNA-ALAまたはtRNA-ILEを見つけられない場合、このオペロンには一方または両方のTRNAが含まれていないと仮定します。分類群(つまり、同じ数のTRNAを含むオペロン)間でモチーフを比較するときに、相同オペロンを使用することをお勧めします。