여기, 우리는 PTM 부위를 식별하는 데 결정적인 변형 된 단백질 서열을 나타내는 토큰을 생성 할 수있는 모델 스위트 인 PTMGPT2를 소개합니다. 이 플랫폼의 핵심에는 자동 회귀 변압기 모델 인 PROTGPT2가 있습니다. 우리는 PROTGPT2를 조정하여 사전 훈련 된 모델로 사용하여 주어진 PTM 유형에 대한 분류 레이블을 생성하는 스파이 작업을 위해 더 미세 조정했습니다. 독창적으로 PTMGPT2는 디코더 전용 아키텍처를 사용하여 훈련 중 작업 별 차단 헤드가 필요하지 않습니다. 대신, 디코더의 최종 층은 어휘 공간으로의 투영으로 기능하여 입력 프롬프트에서 토큰들 사이의 학습 된 패턴을 기반으로 다음 가능한 토큰을 효과적으로 생성합니다.

링크 - (https://nsclbio.jbnu.ac.kr/gpt_model/)
대량 예측 및 훈련 된 모델은 [email protected] 로 직접 문의하십시오.
링크 - (https://nsclbio.jbnu.ac.kr/tools/ptmgpt2/)
링크 - (https://doi.org/10.5281/zenodo.11371883)
링크 - (https://zenodo.org/records/11362322)
링크 - (https://doi.org/10.5281/zenodo.11377398)
파이썬 3.11.3
변압기 4.29.2
Scikit-Learn 1.2.2
Pytorch 2.0.1
Pytorch-Cuda 11.7
• 모델 :이 폴더는 주어진 단백질 서열로부터 PTM 사이트를 예측하도록 설계된 샘플 모델을 호스트하여 PTMGPT2의 적용을 보여줍니다.
• 토큰 화기 :이 폴더에는 특정 아미노산 또는 모티프에 대한 수제 토큰을 포함하여 단백질 서열 토큰 화를 담당하는 샘플 토큰 화제가 포함되어 있습니다.
• inference.ipynb :이 파일은 PTMGPT2 모델 및 토큰 화기를 적용하여 PTM 사이트를 예측하기위한 실행 가능한 코드를 제공하여 사용자가 모델을 데이터 세트에 적용 할 수있는 실용적인 안내서 역할을합니다.