¡Los modelos de incrustación nuevos y mejorados que combinan la secuencia y el entrenamiento de la estructura ahora están disponibles en https://github.com/tbepler/prose!
Este repositorio contiene el código fuente y los enlaces a los datos y los modelos de incrustación previos a la aparición que acompañan el documento ICLR 2019: incrustaciones de secuencia de proteínas de aprendizaje utilizando información de la estructura
@inproceedings{
bepler2018learning,
title={Learning protein sequence embeddings using information from structure},
author={Tristan Bepler and Bonnie Berger},
booktitle={International Conference on Learning Representations},
year={2019},
}
Dependencias:
Ejecute Setup.py para compilar los archivos Cython:
python setup.py build_ext --inplace
Los conjuntos de datos con divisiones de trenes/dev/test se proporcionan como archivos .tar.gz de los enlaces a continuación.
Los scripts de capacitación y evaluación suponen que estos conjuntos de datos se han extraído en un directorio llamado 'datos'.
Nuestras versiones capacitadas de los modelos de incrustación basados en la estructura y el modelo de lenguaje bidireccional se pueden descargar aquí.
Tristan Borpler ([email protected])
Cite el documento anterior si usa este código o modelos previos a la detención en su trabajo.
El código fuente y los modelos capacitados se proporcionan gratis para uso no comercial bajo los términos de la licencia CC BY-NC 4.0. Consulte el archivo de licencia y/o https://createivecommons.org/licenses/by-nc/4.0/legalcode para obtener más información.
Si tiene alguna pregunta, comentario o desea informar un error, presente un problema de GitHub o contácteme en [email protected].