protein sequence embedding iclr2019
1.0.0
現在可以在https://github.com/tbepler/prose上獲得結合序列和結構訓練的新的和改進的嵌入模型!
該存儲庫包含源代碼並鏈接到數據,並遵循ICLR 2019論文的嵌入模型:學習蛋白質序列嵌入,使用來自結構的信息
@inproceedings{
bepler2018learning,
title={Learning protein sequence embeddings using information from structure},
author={Tristan Bepler and Bonnie Berger},
booktitle={International Conference on Learning Representations},
year={2019},
}
依賴性:
運行setup.py來編譯Cython文件:
python setup.py build_ext --inplace
從下面的鏈接中提供了帶有火車/開發/測試拆分的數據集為.tar.gz文件。
培訓和評估腳本假定這些數據集已提取到稱為“數據”的目錄中。
我們訓練有素的基於結構的嵌入模型和雙向語言模型的版本可以在此處下載。
Tristan Bepler([email protected])
如果您在工作中使用此代碼或預位的模型,請引用上面的論文。
根據CC BY-NC 4.0許可證的條款,免費提供源代碼和訓練有素的模型,以供非商業使用。有關更多信息,請參見許可證文件和/或https://creativecommons.org/licenses/by-nc/4.0/legalcode。
如果您有任何疑問,評論或想報告錯誤,請提交GitHub問題或通過[email protected]與我聯繫。