protein sequence embedding iclr2019
1.0.0
시퀀스와 구조 훈련을 결합한 새롭고 개선 된 임베딩 모델은 이제 https://github.com/tbepler/prose에서 사용할 수 있습니다!
이 저장소에는 소스 코드와 ICLR 2019 용지와 함께 데이터 및 사전 처리 된 임베딩 모델에 대한 링크가 포함되어 있습니다.
@inproceedings{
bepler2018learning,
title={Learning protein sequence embeddings using information from structure},
author={Tristan Bepler and Bonnie Berger},
booktitle={International Conference on Learning Representations},
year={2019},
}
종속성 :
setup.py를 실행하려면 Cython 파일을 컴파일합니다.
python setup.py build_ext --inplace
Train/Dev/Test Splits가있는 데이터 세트는 아래 링크에서 .tar.gz 파일로 제공됩니다.
교육 및 평가 스크립트는 이러한 데이터 세트가 '데이터'라는 디렉토리로 추출되었다고 가정합니다.
구조 기반 임베딩 모델의 숙련 된 버전과 양방향 언어 모델은 여기에서 다운로드 할 수 있습니다.
Tristan Bepler ([email protected])
이 코드를 사용하거나 작업에서 사전 치료 된 모델을 사용하는 경우 위의 논문을 인용하십시오.
소스 코드 및 훈련 된 모델은 CC By-NC 4.0 라이센스의 조건에 따라 비상업적 사용을 위해 무료로 제공됩니다. 자세한 내용은 라이센스 파일 및/또는 https://creativecommons.org/licenses/by-nc/4.0/legalcode를 참조하십시오.
궁금한 점, 의견이 있거나 버그를보고하려면 github 문제를 제기하거나 [email protected]로 저에게 연락하십시오.