sweetorigins
1.0.0
基于深度学习的聚糖序列的进化分类器
该存储库为Bojar等人提供代码,2020年
Glycans是许多生物过程的最多样化的生物聚合物和关键,它是由宿主 - 病原体相互作用所造成的进化压力所影响的。尽管这将聚糖定位为理解和靶向宿主 - 病原体相互作用至关重要,但它们的大量多样性和缺乏方法在利用其预测潜力时阻碍了进步。在这里,我们利用了来自1,726种的12,674种聚糖的策划数据集来开发和应用机器学习方法来从聚糖中提取进化信息。我们深度学习的语言模型甜味素提供了进化有进化的聚糖表示,我们用来发现和研究用于分子模拟介导的分子介导的免疫逃避和病原体的基序。新型的聚糖比对方法使我们能够在金黄色葡萄球菌和鲍曼尼杆菌的囊囊多糖中识别和上下文化毒力确定的基序。此外,我们表明,基于聚糖的系统发育树包含传统16S基于RRNA的系统发育中的大多数信息,并改善了遗传密切相关但表现上不同物种的分化,例如蜡状芽孢杆菌和炭疽芽孢杆菌。利用机器学习方法的聚糖中固有的进化信息有望提供进一步的(至关重要的)洞察宿主 - 病原体相互作用,序列到功能关系以及聚糖对表型可塑性的主要影响。
该项目使用的所有数据都可以在与链接手稿相关的补充表中找到。该存储库中的注释的jupyter笔记本包含用于模型培训和分析的代码,并从手稿中生成数字。按照提供的顺序运行笔记本以避免错误。训练有素的模型可以在存储库中找到,并且具有辅助功能可用于预测新的聚糖序列的分类类别。 https://wyss.shinyapps.io/glycobase/可用的更多工具。