تتوفر نماذج التضمين الجديدة والمحسّنة التي تجمع بين التسلسل والتدريب على الهيكل على https://github.com/tbepler/prose!
يحتوي هذا المستودع على رمز المصدر والروابط للبيانات ونماذج التضمين المسبقة المصاحبة لورقة ICLR 2019: تلازمات بروتين التعلم باستخدام المعلومات من الهيكل
@inproceedings{
bepler2018learning,
title={Learning protein sequence embeddings using information from structure},
author={Tristan Bepler and Bonnie Berger},
booktitle={International Conference on Learning Representations},
year={2019},
}
التبعيات:
قم بتشغيل setup.py لتجميع ملفات Cython:
python setup.py build_ext --inplace
يتم توفير مجموعات البيانات مع انقسامات القطار/dev/الاختبار كملفات .tar.gz من الروابط أدناه.
تفترض البرامج النصية للتدريب والتقييم أن مجموعات البيانات هذه قد تم استخراجها في دليل يسمى "البيانات".
يمكن تنزيل إصداراتنا المدربة من نماذج التضمين القائمة على الهيكل ونموذج اللغة ثنائية الاتجاه هنا.
تريستان بيبلر ([email protected])
يرجى الاستشهاد بالورقة أعلاه إذا كنت تستخدم هذا الرمز أو النماذج المسبقة في عملك.
يتم توفير رمز المصدر والنماذج المدربة مجانًا للاستخدام غير التجاري بموجب شروط ترخيص CC BY-NC 4.0. راجع ملف الترخيص و/أو https://creativecommons.org/licenses/by-nc/4.0/legalcode لمزيد من المعلومات.
إذا كان لديك أي أسئلة أو تعليقات أو ترغب في الإبلاغ عن خطأ ، فيرجى تقديم مشكلة في GitHub أو الاتصال بي على [email protected].