在这里,我们介绍了PTMGPT2,这是一套能够产生代表修饰蛋白序列的令牌的模型,对于识别PTM位点至关重要。该平台的核心是Protgpt2,这是一种自回归变压器模型。我们已经适应了Protgpt2,将其用作预训练的模型,并进一步微调了它,用于为给定的PTM类型生成分类标签的SPE CIFIC任务。独特的是,PTMGPT2利用了仅解码器的体系结构,从而消除了在训练过程中对特定于任务的策略的需求。取而代之的是,解码器的最后一层充当回到词汇空间的投影,可以根据输入提示中的令牌之间的学说模式有效地生成下一个可能的令牌。

链接 - (https://nsclbio.jbnu.ac.kr/gpt_model/)
直接通过[email protected]与我们联系,以获取批量预测和训练有素的模型
链接 - (https://nsclbio.jbnu.ac.kr/tools/ptmgpt2/)
链接 - (https://doi.org/10.5281/zenodo.11371883)
链接 - (https://zenodo.org/records/11362322)
链接 - (https://doi.org/10.5281/zenodo.11377398)
Python 3.11.3
变压器4.29.2
Scikit-Learn 1.2.2
Pytorch 2.0.1
Pytorch-Cuda 11.7
•模型:该文件夹托有一个示例模型,旨在预测给定蛋白质序列的PTM位点,以说明PTMGPT2的应用。
•令牌仪:该文件夹包含负责令牌化蛋白质序列的样品令牌,包括用于特定氨基酸或基序的手工制作的令牌。
•temperion.ipynb:此文件提供了可执行的代码,用于应用PTMGPT2模型和Tokenizer来预测PTM站点,并作为用户的实用指南,可以将模型应用于其数据集。