protein sequence embedding iclr2019
1.0.0
シーケンスと構造トレーニングを組み合わせた新しい改良された埋め込みモデルがhttps://github.com/tbepler/proseで入手可能になりました!
このリポジトリにはソースコードが含まれており、ICLR 2019ペーパーに付随するデータおよび事前に埋め込まれた埋め込みモデルへのリンク:構造からの情報を使用したタンパク質シーケンスの学習埋め込み
@inproceedings{
bepler2018learning,
title={Learning protein sequence embeddings using information from structure},
author={Tristan Bepler and Bonnie Berger},
booktitle={International Conference on Learning Representations},
year={2019},
}
依存関係:
セットアップを実行して、Cythonファイルをコンパイルします。
python setup.py build_ext --inplace
Train/Dev/Test Splitsを使用したデータセットは、以下のリンクから.tar.gzファイルとして提供されます。
トレーニングと評価のスクリプトは、これらのデータセットが「データ」と呼ばれるディレクトリに抽出されていると想定しています。
構造ベースの埋め込みモデルと双方向言語モデルの訓練されたバージョンは、ここからダウンロードできます。
Tristan Bepler([email protected])
作業でこのコードまたは事前に処理されたモデルを使用する場合は、上記の論文を引用してください。
ソースコードと訓練されたモデルは、CC BY-NC 4.0ライセンスの条件の下で非営利的な使用のために無料で提供されます。詳細については、ライセンスファイルおよびhttps://creativecommons.org/licenses/by-nc/4.0/legalcodeを参照してください。
ご質問、コメント、またはバグを報告したい場合は、githubの問題を提出するか、[email protected]に連絡してください。