CIMS 16S-23S RRNA 서열에서 일반적으로 사용되는 접이식 모티프를 추출하는 도구입니다. FASTA 또는 하나 이상의 GenBank 수탁 번호가 필요하며 제공된 각 시퀀스에 대해 각각의 라벨로 모티프 목록을 반환합니다. MS Word에서 주제를 강조하는 데 많은 시간을 보내는 Cyanobacteria 연구에 전념합니다.
========
CIMS 만들었습니까?16S-23S RRNA 내부 전사 스페이서 (ITS)는 시아 노 박테리아 체계에서 일반적으로 사용되는 계통 발생 마커입니다. 지역을 조사하면 연구원들은 시아 노 박테리아 종 사이의 합동과 묵시를 발견 할 수 있습니다. 이것은 새로운 암호 분류를 세우거나 이전에 해결되지 않은 분류 학적 관계를 분석 할 때 연구원에게 더 많은 증거를 제공합니다. 그러나 과제는 역사적으로 연구원들이 시퀀스 데이터를 수동으로 파헤쳐 서 시퀀스 모티프를 발견하고 식별해야한다는 것입니다. 이 어려운 과정은 연구원들이 주제를 사용하지 못하게하고 오류로 이어지고 말할 것도없이… 두통을 유발합니다.
우리는 더 좋은 방법이 있다는 것을 알았으므로 수동 프로세스를 해부 한 후 CIMS 만들었습니다.
CIMS D1-D1 ', Box B, TRNA-IL 및 TRNA-ALA와 같은 일반적으로 사용되는 접이식 모티프를 발견하여 분류군 사이의 2 차 구조를 비교할 때 연구자들이 상 동성 오페론을 사용하도록합니다.
CIMS 는 파이썬으로 작성된 터미널 응용 프로그램입니다소프트웨어의 현재 버전에서 표준 출력에 포함 된 주제는 다음과 같습니다.
우리는 그것을 얻고, 당신은 생물 학자이고, 우리는 당신을 얻었습니다. 초보자 수준의 터미널 만 있으면됩니다. 디렉토리 ( cd )를 탐색하고 실행 파일 ( ./cims )을 실행하는 방법을 알고 있다면 좋습니다.
간단하게 유지하기 위해 모든 종속성을 단일 파일로 전달하여 CIMS 사전 포장하여 Windows, Linux 및 MacOS 용으로 컴파일했습니다. 이 파일은 릴리스에서 사용할 수 있습니다.
cd 열고 일반적으로 ./cims 입력하여 CIMS 실행 파일로 실행하십시오. 물건을 간단하게 유지하려면 처리하려는 FASTA 파일이있는 디렉토리에 CIMS 저장하는 것이 좋습니다. GenBank에서 시퀀스를 바로 당기면 실제로 중요하지 않습니다.
측면 지역을 직접 변경하거나 코드를 변경하려면 CIMS.py 다운로드하여 Python으로 실행할 수 있습니다. (그러나 당신은 아마 그것이 당신이 원하는 것이라면 이미 알고있을 것입니다).
CIMS 실행하려면 다음이 필요합니다.
$ pip install Biopython$ pip install colorama Biopython을 사용하면 CIMS GenBank와 통신하여 시퀀스를 다운로드 할 수 있습니다. Colorama는 우리가 예쁜 색상으로 주제를 쉽게 출력 할 수있게합니다.
해당 종속성이 설치되면 (전 세계 또는 가상 환경에) cims.py 실행하십시오.
CIMS 터미널에서 실행됩니다. FASTA 파일을 통해 또는 가입 번호를 기반으로 GenBank에서 가져 와서 시퀀스가 제공됩니다. 이 도구의 입력은 하나 이상의 올바른 16S-23s 시퀀스 또는 GenBank 수탁 번호가 16S-23s의 시퀀스를 가진 FASTA 파일이어야합니다.
CIMS 저장된 위치로 이동하십시오.
예를 들어 Windows에서 cd 사용하여 디렉토리로 이동합니다.
cd C:/Users/{your-username}/Desktop/PathtoFile
또는 Linux/Mac에서 :
cd /home/{your username}/{where you downloaded cims}
CIMS 실행하려면 저장된 디렉토리에서 ./cims 또는 python cims.py 실행하여 실행하십시오.
터미널에서 이것을 실행할 때 출력에는 프로그램에 주어진 시퀀스에서 발견 된 모든 주제가 포함됩니다. 실행의 출력을 저장하려면 ">>"를 사용하여 출력을 텍스트 파일에 저장해야합니다.
cims -f myfasta.fasta >> motifs.txt
플래그, 인수 및 설명 목록은 다음과 같습니다.
Usage: cims [-f or -g ] [file or accession number] [OPTIONS]
Options:
-f, --fasta PATH-TO-FASTA-FILE Provide FASTA to be processed.
-g, --genbank ACCESSION1 [ACCESSION2 ...] Provide one or more Genbank Accession Numbers to fetch and process.
-s, --select {leader,d1d1,sp_v2_sp,trna_ile,trna_ala,boxa,boxb,d4,v3,all} Select which motifs to print out. By default it prints all.
-e, --email Provide an email to be used when querying Genbank. An NCBI requirement.
-j, --json Create a json file in the working directory with the output.
-t, --trna Returns ONLY how many tRNAs were found per sequence. cims =f allmycyanos.fasta
결과 : CIMS 제공된 FASTA 파일을 처리하고 찾은 모든 주제를 반환합니다.
cims -f ~/home/me/fasta/limnothrix_16-23_ITS.fasta -s d1d1, trna_ile, trna_ala, boxb
결과 :/home/me/fasta에 거주하는 디렉토리에 저장된 limnothrix_16-23_its.fasta 파일을 처리하고 CIMS D1D1, TRNA 및 BoxB 모티프 만 출력하도록 요청합니다.
cims -g KU574618.1 -e [email protected]
결과 : GenBank (NCBI가 요구하는 이메일 제공)에서 KU574618.1의 시퀀스를 가져오고 순서를 처리하며 주제를 반환합니다.
cims -f allmycyanos.fasta -t
결과 : GenBank에서 시퀀스를 가져 와서 각 유기체에서 발견 된 TRNA 수를 반환합니다. 이것은 Fasta의 유기체가 상 동성 오페론인지 쉽게 확인할 수 있습니다.
참고로 길을 잃으면 언제든지 cims -h 또는 python cims.py -h 를 실행할 수 있으며 사용 가능한 옵션을 빠르게 참조 할 수 있습니다.
“Could not find the end of 16S to determine the ITS region boundaries”이 오류는 소프트웨어에 주어진 시퀀스가 16S 영역 (CCTCCTT)의 끝을 나타내는 시퀀스를 포함하지 않았 음을 의미합니다. 프로그램을 그 영역에만 공급하고 모든 것이 정상으로 실행되면 달리기를 진행할 수 있습니다.“어쨌든 검색 진행? (y/n)”을 프롬프트 할 때“n”을 입력하여 해당 시퀀스의 실행을 중단시킵니다. 이를 통해 프로그램이 FASTA 파일의 다음 시퀀스로 이동하거나 다른 파일/가입 #로 다시 시도 할 수 있습니다.
“Region length too short. Skipped.”16S 유전자가 끝난 후 그 영역이 20bps 미만인 경우 인쇄됩니다. 이 기능은 모티프를 찾는 데 너무 작은 영역이있는 서열을 제거하도록 코딩됩니다.
“Not found in this sequence.”이 출력은 ITS 시퀀스에서 특정 주제를 찾을 수없는 경우 인쇄됩니다. 측면 영역이 독특하거나 드물기 때문에 소프트웨어가 찾지 못했기 때문일 수 있습니다. 데이터 세트에서 자주 발생하는 경우이 오류를 해결하고 코드를 개선 할 수 있도록 GitHub의 "문제"페이지 에서이 사실을보고하십시오.
“Not present in this operon”이것은 순서대로 TRNA에 대해서만 인쇄됩니다. 프로그램이 trna-ala 또는 trna-ie를 찾지 못하면이 오페론에는 하나 또는 둘 다를 포함하지 않는다고 가정합니다. 분류군 사이의 모티프 (예 : 동일한 수의 TRNA를 함유하는 오페론) 사이의 모티프를 비교할 때 동종 오페론을 사용하는 것이 가장 좋습니다.