グリカンシーケンスのディープラーニングベースの進化分類器
このリポジトリは、Bojar et al。、2020のコードを提供します
多くの生物学的プロセスにとって最も多様な生体高分子であり重要であるグリカンは、特に宿主と病原体の相互作用から生じる進化的圧力によって形作られています。これにより、グリカンは宿主と病原体の相互作用を理解しターゲットにするために不可欠であると位置付けていますが、かなりの多様性と方法の欠如は、これまで予測可能性を活用することに進歩を遂げてきました。ここでは、1,726種の12,674個のグリカンのキュレーションデータセットを利用して、機械学習方法を開発および適用して、グリカンから進化情報を抽出します。私たちの深い学習ベースの言語モデルのスイートリギンは、共生および病原体による分子模倣媒介免疫回避に使用されるモチーフを発見および調査するために利用する進化に基づいたグリカン表現を提供します。新規グリカンアライメント方法により、黄色ブドウ球菌およびアシネトバクターbaumanniiのcapsular多糖類の毒性決定モチーフを特定してコンテキスト化することができます。さらに、グリカンベースの系統樹は、従来の16S rRNAベースの系統に存在する情報のほとんどを含み、遺伝的に密接に関連しているが表現型的に分岐した種の分化を改善することを示しています。グリカンに固有の機械学習方法論に固有の進化情報を活用することは、宿主病原体の相互作用、シーケンスと機能の関係、および表現型の可塑性に対するグリカンの主要な影響に関する洞察をさらに - 非常に必要とすることを提供する態勢が整っています。
このプロジェクトに使用されるすべてのデータは、リンクされた原稿に関連付けられた補足表にあります。このリポジトリの注釈付きJupyterノートには、モデルのトレーニングと分析と原稿の生成に使用されるコードが含まれています。エラーを避けるために、提供された順序でノートブックを実行します。訓練されたモデルはリポジトリにあり、ヘルパー機能を使用して、新しいグリカンシーケンスの分類学的クラスを予測するために使用できます。 https://wyss.shinyapps.io/glycobase/で利用可能なツール。