Model embedding baru dan lebih baik yang menggabungkan urutan dan pelatihan struktur sekarang tersedia di https://github.com/tbepler/prose!
Repositori ini berisi kode sumber dan tautan ke data dan model embedding pretrained yang menyertai makalah ICLR 2019: belajar embedding urutan protein menggunakan informasi dari struktur
@inproceedings{
bepler2018learning,
title={Learning protein sequence embeddings using information from structure},
author={Tristan Bepler and Bonnie Berger},
booktitle={International Conference on Learning Representations},
year={2019},
}
Ketergantungan:
Jalankan setup.py untuk mengkompilasi file cython:
python setup.py build_ext --inplace
Kumpulan data dengan pemisahan kereta/dev/tes disediakan sebagai file .tar.gz dari tautan di bawah ini.
Script pelatihan dan evaluasi mengasumsikan bahwa set data ini telah diekstraksi ke dalam direktori yang disebut 'data'.
Versi terlatih kami dari model embedding berbasis struktur dan model bahasa dua arah dapat diunduh di sini.
Tristan Bepler ([email protected])
Harap kutip kertas di atas jika Anda menggunakan kode ini atau model pretrained dalam pekerjaan Anda.
Kode sumber dan model terlatih disediakan gratis untuk penggunaan non-komersial berdasarkan ketentuan lisensi CC BY-NC 4.0. Lihat file lisensi dan/atau https://creativecommons.org/licenses/by-nc/4.0/legalcode untuk informasi lebih lanjut.
Jika Anda memiliki pertanyaan, komentar, atau ingin melaporkan bug, silakan ajukan masalah github atau hubungi saya di [email protected].