protein sequence embedding iclr2019
1.0.0
现在可以在https://github.com/tbepler/prose上获得结合序列和结构训练的新的和改进的嵌入模型!
该存储库包含源代码并链接到数据,并遵循ICLR 2019论文的嵌入模型:学习蛋白质序列嵌入,使用来自结构的信息
@inproceedings{
bepler2018learning,
title={Learning protein sequence embeddings using information from structure},
author={Tristan Bepler and Bonnie Berger},
booktitle={International Conference on Learning Representations},
year={2019},
}
依赖性:
运行setup.py来编译Cython文件:
python setup.py build_ext --inplace
从下面的链接中提供了带有火车/开发/测试拆分的数据集为.tar.gz文件。
培训和评估脚本假定这些数据集已提取到称为“数据”的目录中。
我们训练有素的基于结构的嵌入模型和双向语言模型的版本可以在此处下载。
Tristan Bepler([email protected])
如果您在工作中使用此代码或预位的模型,请引用上面的论文。
根据CC BY-NC 4.0许可证的条款,免费提供源代码和训练有素的模型,以供非商业使用。有关更多信息,请参见许可证文件和/或https://creativecommons.org/licenses/by-nc/4.0/legalcode。
如果您有任何疑问,评论或想报告错误,请提交GitHub问题或通过[email protected]与我联系。