Novos e aprimorados modelos de incorporação que combinam o treinamento de sequência e estrutura estão agora disponíveis em https://github.com/tbepler/Prose!
Este repositório contém o código -fonte e links para os dados e modelos de incorporação pré -tenhada que acompanham o artigo ICLR 2019: Aprendendo a sequência de proteínas incorporadas usando informações da estrutura
@inproceedings{
bepler2018learning,
title={Learning protein sequence embeddings using information from structure},
author={Tristan Bepler and Bonnie Berger},
booktitle={International Conference on Learning Representations},
year={2019},
}
Dependências:
Execute setup.py para compilar os arquivos do Cython:
python setup.py build_ext --inplace
Os conjuntos de dados com divisões de trem/dev/teste são fornecidos como arquivos .tar.gz dos links abaixo.
Os scripts de treinamento e avaliação assumem que esses conjuntos de dados foram extraídos para um diretório chamado 'dados'.
Nossas versões treinadas dos modelos de incorporação baseada em estrutura e o modelo de linguagem bidirecional podem ser baixados aqui.
Tristan Bepler ([email protected])
Cite o artigo acima se você usar este código ou modelos pré -terenciados em seu trabalho.
O código-fonte e os modelos treinados são fornecidos gratuitamente para uso não comercial nos termos da licença CC BY-NC 4.0. Consulte o arquivo de licença e/ou https://creracivecommons.org/license/by-nnc/4.0/legalcode para obter mais informações.
Se você tiver alguma dúvida, comentário ou gostaria de relatar um bug, registre um problema do GitHub ou entre em contato comigo em [email protected].