Des modèles d'intégration nouveaux et améliorés combinant la formation de séquence et de structure sont maintenant disponibles sur https://github.com/tbepler/prose!
Ce référentiel contient le code source et les liens vers les données et les modèles d'incorporation pré-entraînés accompagnant le document ICLR 2019: apprentissage des intérêts de séquence de protéines à l'aide d'informations de la structure
@inproceedings{
bepler2018learning,
title={Learning protein sequence embeddings using information from structure},
author={Tristan Bepler and Bonnie Berger},
booktitle={International Conference on Learning Representations},
year={2019},
}
Dépendances:
Exécutez setup.py pour compiler les fichiers Cython:
python setup.py build_ext --inplace
Les ensembles de données avec Train / Dev / Test Splits sont fournis sous forme de fichiers .tar.gz à partir des liens ci-dessous.
Les scripts de formation et d'évaluation supposent que ces ensembles de données ont été extraits dans un répertoire appelé «données».
Nos versions qualifiées des modèles d'intégration basés sur la structure et du modèle de langage bidirectionnel peuvent être téléchargés ici.
Tristan Bepler ([email protected])
Veuillez citer le document ci-dessus si vous utilisez ce code ou des modèles pré-entraînés dans votre travail.
Le code source et les modèles formés sont fournis gratuitement pour une utilisation non commerciale en vertu des termes de la licence CC BY-NC 4.0. Voir le fichier de licence et / ou https://creativecommons.org/licenses/by-nc/4.0/legalcode pour plus d'informations.
Si vous avez des questions, des commentaires ou souhaitez signaler un bogue, veuillez déposer un problème GitHub ou me contacter à [email protected].