Biopal (v0.3) 은 Fasta 시퀀스 파일을 처리하도록 설계된 생물 정보학 툴킷입니다. 이 도구는 Fasta 파일 분할, 단백질 매개 변수 계산, NCBI의 분류 정보 쿼리 등과 같은 몇 가지 기능을 제공합니다. tkinter 라이브러리를 사용하여 쉽게 파일 입력 및 기능 선택을 위해 사용자 친화적 인 그래픽 인터페이스를 제공합니다.
Fasta 파일 분할 : 파일 당 최대 99 시퀀스의 SASTA 파일을 여러 개의 작은 파일로 나눕니다. 때때로 PRrocessing 후에 필요합니다.
헤더 이력서 : 긴 헤더를 더 짧고 표준화 된 헤더로 재개하고 (예 : NCBI 형식의 유기체 이름을 기준으로 [organism=...] ) 원본 및 새 헤더를 매핑하는 CSV를 출력합니다. 새로운 Short 헤더와 시퀀스가 포함 된 새로운 FASTA 파일과 시퀀스의 적절한 추적을위한 "Old"및 "New/Short"헤더 이름이 모두 포함 된 CSV 파일을 모두 제공합니다.
Protparam 계산기 : Expasy의 Protparam 도구와 유사한 다양한 단백질 특성 (예 : 분자량, 등전 지점 등)의 대량 계산을 수행하고 결과를 CSV 파일로 출력합니다. 참고 :이 프로그램은 모든 시퀀스의 "x"문자를 무시하여 오류없이 계산을 수행합니다. 결과와 함께 CSV 파일을 반환합니다. 지금 까지이 기능은 여전히 하드 코딩되어 있으며 사용자는 프로그램의 출력을 변경할 수 없습니다.
접기 인덱스 계산기 : FASTA 파일의 각 시퀀스에 대한 Proteopedia Fold Index 도구를 쿼리하고 각 시퀀스의 폴드 인덱스를 CSV 파일로 출력합니다.
분류 세이지 : Fasta 파일의 유기체에 대한 분류 정보 (부서, 순서, 클래스, 가족)를 쿼리하고 (헤더에 [organism=...] 의 존재가 필요하고 결과를 CSV 파일에 씁니다.
Microsintenic retriever : NCBI의 데이터 세트 컬렉션에서 다운로드 한 FASTA 파일에서 시작하여 데이터를 구문 분석하고 관심있는 유전자를 둘러싼 20KBP의 GFF3 데이터를 찾습니다. 읽기 쉬운 CSV 파일의 데이터를 나타냅니다. 진화 분석에 적합합니다.
도움말 메뉴 : 도구의 기능에 대한 설명을 제공합니다.
종료 : 신청서를 안전하게 닫습니다. 프로그램은 경로/파일 정보를 보유하지 않습니다.
이 도구는 다음과 같은 파이썬 라이브러리를 설치해야합니다.
tkinter .biopython .requests 및 json .다음을 사용하여 필요한 종속성을 설치할 수 있습니다.
pip install biopython requestsgit clone https://github.com/SilicoGoBrr/BioPal.git
cd BioPalpip install -r requirements.txtpython biopal.py입력 파일 선택 : "입력 파일 선택"버튼을 클릭하여 FASTA 파일을 선택하십시오.
작업 선택 :
결과는 입력 파일과 동일한 디렉토리에 저장되며 수행 된 작업에 따라 적절한 파일 이름을 사용합니다.
Taxa Sage 기능은 NCBI의 Entrez API를 사용하여 분류 데이터를 검색합니다. 이를 위해서는 NCBI의 Entrez API가 요구하는대로 이메일 주소를 지정해야합니다.
코드에서 다음 줄을 찾으십시오.
Entrez . email = "" # Add your email here유효한 이메일 주소로 바꾸십시오.
Entrez . email = "[email protected]"이 단계는 Entrez API가 올바르게 작동하도록 요청하는 데 필요합니다.
속도 제한 : NCBI Entrez API는 비율 제한을 부과 할 수 있습니다. 속도 제한을 피하기 위해이 도구는 분류군 SAGE 기능을 사용할 때 API 요청간에 짧은 지연을 도입합니다.
FASTA 형식 요구 사항 : 입력 FASTA 파일에는 분류군 SAGE 기능이 올바르게 작동하려면 [organism=...] 태그가 포함되어야합니다.
이 프로그램은 보증이나 보증없이 "그대로"제공됩니다. 자신의 위험에 따라 사용하십시오. 일부 기능에는 활성 인터넷 연결이 필요할 수 있습니다.