Biopal(V0.3)是一种生物信息学工具包,旨在处理FastA序列文件。该工具提供了多种功能,例如分解FASTA文件,计算蛋白质参数,从NCBI查询分类信息等等。它使用tkinter库提供一个用户友好的图形接口,以简化文件输入和功能选择。
Split FastA文件:将FASTA文件分为多个较小的文件,每个文件最多99个序列。有时需要邮政邮政。
标题简历:将长标头恢复到较短的标准化(例如,基于NCBI格式的有机体名称[organism=...] ),并输出CSV映射原始和新标头。它提供了一个新的FASTA文件,上面有新的短标头和序列,以及一个带有“旧”和“新/短”标题名称的CSV文件,用于足够的序列跟踪。
Protparam计算器:类似于Expasy的Protparam工具,执行各种蛋白质特性(例如,分子量,等电点等)的大量计算,并将结果输出到CSV文件中。注意:此程序忽略所有序列中的“ X”字符以执行无错误的计算。返回带有结果的CSV文件。到目前为止,此功能仍然是硬编码的,并且用户无法更改程序的输出。
折叠索引计算器:查询FASTA文件中每个序列的proteopedia折叠索引工具,并将每个序列的折叠索引输出到CSV文件中。
分类群:查询分类信息(分类,命令,班级,家庭)中的生物中的生物(需要在标题中存在[organism=...] ),并将结果写入CSV文件。
Microsintenic Retriever :从从NCBI的数据集集合下载的FASTA文件共同基因开始,它解析数据并找到围绕感兴趣基因的20 kbp的GFF3数据。在可读的CSV文件中描述数据,非常适合进化分析。
帮助菜单:提供工具功能的描述。
出口:安全关闭应用程序。程序不容纳路径/文件信息。
此工具需要安装以下Python库:
tkinter 。biopython 。requests和json查询诸如Proteopedia和NCBI之类的在线数据库。您可以使用以下方式安装必要的依赖项
pip install biopython requestsgit clone https://github.com/SilicoGoBrr/BioPal.git
cd BioPalpip install -r requirements.txtpython biopal.py选择输入文件:单击“选择输入文件”按钮以选择您的fasta文件。
选择一个操作:
结果将与输入文件相同的目录保存,并根据执行的操作提供适当的文件名。
Taxa Sage功能使用NCBI的Entrez API检索分类数据。为此,您需要按照NCBI的Entrez API指定您的电子邮件地址。
在代码中,找到以下行:
Entrez . email = "" # Add your email here用您的有效电子邮件地址替换:
Entrez . email = "[email protected]"对于Entrez API请求正常工作是必要的。
限制速率:NCBI Entrez API可能会施加速率限制。为了避免使用速率限制,该工具在使用Taxa Sage功能时会引入API请求之间的短延迟。
FASTA格式要求:输入FASTA文件必须包含[organism=...]的分类鼠鼠标函数的标签,才能正常工作。
该计划的“原样”提供了任何保证或担保。使用它自己的风险。某些功能可能需要有效的Internet连接。