在這裡,我們介紹了PTMGPT2,這是一套能夠產生代表修飾蛋白序列的令牌的模型,對於識別PTM位點至關重要。該平台的核心是Protgpt2,這是一種自回歸變壓器模型。我們已經適應了Protgpt2,將其用作預訓練的模型,並進一步微調了它,用於為給定的PTM類型生成分類標籤的SPE CIFIC任務。獨特的是,PTMGPT2利用了僅解碼器的體系結構,從而消除了在訓練過程中對特定於任務的策略的需求。取而代之的是,解碼器的最後一層充當回到詞彙空間的投影,可以根據輸入提示中的令牌之間的學說模式有效地生成下一個可能的令牌。

鏈接 - (https://nsclbio.jbnu.ac.kr/gpt_model/)
直接通過[email protected]與我們聯繫,以獲取批量預測和訓練有素的模型
鏈接 - (https://nsclbio.jbnu.ac.kr/tools/ptmgpt2/)
鏈接 - (https://doi.org/10.5281/zenodo.11371883)
鏈接 - (https://zenodo.org/records/11362322)
鏈接 - (https://doi.org/10.5281/zenodo.11377398)
Python 3.11.3
變壓器4.29.2
Scikit-Learn 1.2.2
Pytorch 2.0.1
Pytorch-Cuda 11.7
•模型:該文件夾託有一個示例模型,旨在預測給定蛋白質序列的PTM位點,以說明PTMGPT2的應用。
•令牌儀:該文件夾包含負責令牌化蛋白質序列的樣品令牌,包括用於特定氨基酸或基序的手工製作的令牌。
•temperion.ipynb:此文件提供了可執行的代碼,用於應用PTMGPT2模型和Tokenizer來預測PTM站點,並作為用戶的實用指南,可以將模型應用於其數據集。