Новые и улучшенные модели встраивания, объединяющие последовательность и структуру, теперь доступны по адресу https://github.com/tbepler/prose!
Этот репозиторий содержит исходный код и ссылки на данные и модели предварительного встраивания, сопровождающие бумагу ICLR 2019: встроенные последовательности белка обучения с использованием информации из структуры
@inproceedings{
bepler2018learning,
title={Learning protein sequence embeddings using information from structure},
author={Tristan Bepler and Bonnie Berger},
booktitle={International Conference on Learning Representations},
year={2019},
}
Зависимости:
Запустить setup.py для компиляции файлов Cython:
python setup.py build_ext --inplace
Наборы данных с разделениями Train/Dev/Test предоставляются в виде файлов .tar.gz по ссылкам ниже.
Сценарии обучения и оценки предполагают, что эти наборы данных были извлечены в каталог, называемый «данные».
Наши обученные версии моделей встраивания на основе структуры и модели двунаправленного языка могут быть загружены здесь.
Тристан Беплер ([email protected])
Пожалуйста, цитируйте приведенную выше статью, если вы используете этот код или предварительно подготовленные модели в своей работе.
Исходный код и обученные модели предоставляются бесплатно для некоммерческого использования в соответствии с условиями лицензии CC BY-NC 4.0. См. Файл лицензии и/или https://creativecommons.org/licenses/by-nc/4.0/legalcode для получения дополнительной информации.
Если у вас есть какие -либо вопросы, комментарии или вы хотите сообщить об ошибке, подайте проблему GitHub или свяжитесь со мной по адресу [email protected].