CIMS -это инструмент для извлечения обычно используемых его складных мотивов из последовательности рРНК 16S-23S. Это требует FASTA или, по крайней мере, одного вступления в GenBank и возвращает список мотивов с их соответствующими этикетками для каждой из предоставленных последовательностей. Посвящены исследованиям цианобактерий, которые проводят много часов, выделяя мотивы в MS Word.
========
CIMS ?Внутренняя транскрибируемая транскрибируемая спейсер 16S-23S является широко используемым филогенетическим маркером в цианобактериальной систематике. Изучение его регионов позволяет исследователям обнаружить конгрузку и апоморфию между видами цианобактерий. Это дает исследователю больше доказательств при возведении нового загадочного таксона или анализа ранее неразрешенных таксономических отношений. Однако задача состоит в том, что исторически исследователи должны вручную копаться через данные последовательности, чтобы визуально найти и идентифицировать его мотивы последовательности. Этот кропотливый процесс удерживает исследователей от использования его мотивов, приводит к ошибкам и не говоря уже о… вызывает головные боли.
Мы знали, что есть лучший способ сделать это, поэтому после рассечения ручного процесса мы создали CIMS .
CIMS обнаруживает, что обычно используются свои складные мотивы, такие как D1-D1 ', Box B, TRNA-ILE и TRNA-ALA, чтобы гарантировать, что исследователи используют гомологичные опероны при сравнении своих вторичных структур между таксонами.
CIMS - это терминальное приложение, написанное на Python, котороеВ текущей версии программного обеспечения мотивы, включенные в стандартный выход:
Мы поняли, ты биолог, мы тебя достали. Все, что вам нужно, это уровень терминала для начинающего ... может быть, даже не так много. Если вы знаете, как просмотреть каталог ( cd ) и запустить исполняемый файл ( ./cims ), вы готовы идти.
Чтобы сделать вещи простыми, мы предварительно упаковали CIMS со всеми его зависимостями в один файл и собрали его для Windows, Linux и MacOS. Эти файлы доступны в релизах.
cd в этот каталог и запустите CIMS в качестве исполняемого, обычно путем набора ./cims . Чтобы все было просто, мы предлагаем сохранить CIMS в каталог, где у вас будут файлы FASTA, которые вы хотите обработать. Если вы тянете свои последовательности прямо из GenBank, это не имеет значения.
Если вы хотите, возможно, внести свои собственные изменения в фланкирующие регионы или внести изменения в код, вы можете просто загрузить CIMS.py и запустить его с помощью Python. (Но вы, вероятно, уже знали, что если вы этого хотели).
Чтобы запустить CIMS вам понадобится:
$ pip install Biopython$ pip install colorama BiopyThon позволяет CIMS общаться с GenBank для загрузки последовательностей. Colorama позволяет нам легко выводить мотивы в красивых цветах.
После того, как у вас установлены эти зависимости (во всем мире или в виртуальной среде), просто запустите cims.py
CIMS работает в терминале. Он предоставляется последовательность либо через файл FASTA, либо путем извлечения их из GenBank на основе чисел вступления. Ввод для этого инструмента должен быть либо файлом FASTA с одним или более правильно отформатированным 16S-23, его последовательностями, либо номером вступления в GenBank до 16S-23S ее последовательности.
Перейдите в место, где CIMS был спасен.
Например, в Windows вы бы использовали cd для перемещения в каталог как таковой:
cd C:/Users/{your-username}/Desktop/PathtoFile
Или в Linux/Mac:
cd /home/{your username}/{where you downloaded cims}
Чтобы запустить CIMS , просто выполните его, запустив ./cims или python cims.py из каталога, где он был сохранен.
При запуске этого на терминале вывод будет включать все мотивы, найденные в последовательностях, приведенных программе. Если вы хотите сохранить вывод вашего запуска. Не забудьте использовать «>>», чтобы сохранить вывод в текстовый файл:
cims -f myfasta.fasta >> motifs.txt
Список флагов, аргументов и их описаний ниже:
Usage: cims [-f or -g ] [file or accession number] [OPTIONS]
Options:
-f, --fasta PATH-TO-FASTA-FILE Provide FASTA to be processed.
-g, --genbank ACCESSION1 [ACCESSION2 ...] Provide one or more Genbank Accession Numbers to fetch and process.
-s, --select {leader,d1d1,sp_v2_sp,trna_ile,trna_ala,boxa,boxb,d4,v3,all} Select which motifs to print out. By default it prints all.
-e, --email Provide an email to be used when querying Genbank. An NCBI requirement.
-j, --json Create a json file in the working directory with the output.
-t, --trna Returns ONLY how many tRNAs were found per sequence. cims =f allmycyanos.fasta
Результат: CIMS обработает предоставленный файл FASTA и вернет все мотивы, которые он находит.
cims -f ~/home/me/fasta/limnothrix_16-23_ITS.fasta -s d1d1, trna_ile, trna_ala, boxb
Результат: обрабатывает файл limnothrix_16-23_its.fasta, хранящийся в каталоге, который находится в/home/me/fasta, и просит CIMS только вывести D1D1, TRNAS и мотивы BoxB.
cims -g KU574618.1 -e [email protected]
Результат: получает последовательность Ku574618.1 от GenBank (предоставляя электронное письмо, которое требуется NCBI), обрабатывает последовательность и возвращает мотивы.
cims -f allmycyanos.fasta -t
Результат: получает последовательность из GenBank и возвращает, сколько тРНК было обнаружено на каждом организме. Это позволяет легко проверить, являются ли организмы в FASTA гомологичными оперонами.
Обратите внимание, что если вы когда -нибудь потерялись, вы всегда можете запустить cims -h или python cims.py -h и вы получите быструю ссылку на доступные варианты.
“Could not find the end of 16S to determine the ITS region boundaries”Эта ошибка означает, что последовательность, предоставленная программному обеспечению, не содержала последовательности, которая представляет конец области 16S (CCTCCTT). Вы можете продолжить работу, если вы кормили программу только в ее регионе, и все будет работать как нормально, в противном случае прервать пробег для этой последовательности, вводя «n», когда будет предложено «продолжить поиск в любом случае? (Y/N)». Это позволит программе перейти к следующей последовательности в файле FASTA или позволит вам попробовать еще раз с другим файлом/Accession #.
“Region length too short. Skipped.”Это будет напечатано, если ее область после окончания гена 16S будет менее 20 бит / с. Эта функция кодирована для удаления последовательностей с его областями, которые слишком малы, чтобы их можно было найти, чтобы найти любой из мотивов.
“Not found in this sequence.”Этот вывод будет напечатан, когда определенный мотив не был найден в его последовательности. Это может быть связано с тем, что фланкирующие регионы уникальны или иным образом редки, и поэтому программное обеспечение не нашел их. Если это часто случается в вашем наборе данных, сообщите об этом нам на странице «проблемы» GitHub, чтобы мы могли решить эту ошибку и улучшить код.
“Not present in this operon”Это будет напечатано только в отношении тРНК в последовательности. Если программа не найдет тРНК-ALA или TRNA-ILE, она предполагает, что этот оперон не содержит одного или оба тРНК. Помните, что лучше всего использовать гомологичные опероны при сравнении его мотивов между таксонами (т.е. оперонами, содержащими одинаковое количество тРНК).