Neue und verbesserte Einbettungsmodelle, die Sequenz- und Strukturtraining kombinieren, finden Sie jetzt unter https://github.com/tbepler/prose!
Dieses Repository enthält den Quellcode und die Links zu den Daten und vorbereiteten Einbettungsmodellen, die mit dem ICLR 2019 -Papier beigefügt sind: Lernproteinsequenz -Einbettung mit Informationen aus der Struktur
@inproceedings{
bepler2018learning,
title={Learning protein sequence embeddings using information from structure},
author={Tristan Bepler and Bonnie Berger},
booktitle={International Conference on Learning Representations},
year={2019},
}
Abhängigkeiten:
Führen Sie Setup.py aus, um die Cython -Dateien zu kompilieren:
python setup.py build_ext --inplace
Die Datensätze mit Zug-/Dev/Test -Splits werden als .tar.gz -Dateien aus den folgenden Links bereitgestellt.
Die Schulungs- und Bewertungsskripte gehen davon aus, dass diese Datensätze in ein Verzeichnis namens "Daten" extrahiert wurden.
Unsere geschulten Versionen der strukturbasierten Einbettungsmodelle und des bidirektionalen Sprachmodells können hier heruntergeladen werden.
Tristan Bepler ([email protected])
Bitte zitieren Sie das obige Papier, wenn Sie diesen Code oder diese vorbereiteten Modelle in Ihrer Arbeit verwenden.
Der Quellcode und die geschulten Modelle werden für den nichtkommerziellen Gebrauch gemäß den Bestimmungen der CC BY-NC 4.0-Lizenz kostenlos bereitgestellt. Weitere Informationen finden Sie unter Lizenzdatei und/oder https://creatvecommons.org/licenses/by-nc/4.0/legalcode, um weitere Informationen zu erhalten.
Wenn Sie Fragen, Kommentare haben oder einen Fehler melden möchten, stellen Sie bitte ein GitHub -Problem ein oder kontaktieren Sie mich unter [email protected].