sweetorigins
1.0.0
基於深度學習的聚醣序列的進化分類器
該存儲庫為Bojar等人提供代碼,2020年
Glycans是許多生物過程的最多樣化的生物聚合物和關鍵,它是由宿主 - 病原體相互作用所造成的進化壓力所影響的。儘管這將聚醣定位為理解和靶向宿主 - 病原體相互作用至關重要,但它們的大量多樣性和缺乏方法在利用其預測潛力時阻礙了進步。在這裡,我們利用了來自1,726種的12,674種聚醣的策劃數據集來開發和應用機器學習方法來從聚醣中提取進化信息。我們深度學習的語言模型甜味素提供了進化有進化的聚醣表示,我們用來發現和研究用於分子模擬介導的分子介導的免疫逃避和病原體的基序。新型的聚醣比對方法使我們能夠在金黃色葡萄球菌和鮑曼尼桿菌的囊囊多醣中識別和上下文化毒力確定的基序。此外,我們表明,基於聚醣的系統發育樹包含傳統16S基於RRNA的系統發育中的大多數信息,並改善了遺傳密切相關但表現上不同物種的分化,例如蠟狀芽孢桿菌和炭疽芽孢桿菌。利用機器學習方法的聚醣中固有的進化信息有望提供進一步的(至關重要的)洞察宿主 - 病原體相互作用,序列到功能關係以及聚醣對錶型可塑性的主要影響。
該項目使用的所有數據都可以在與鏈接手稿相關的補充表中找到。該存儲庫中的註釋的jupyter筆記本包含用於模型培訓和分析的代碼,並從手稿中生成數字。按照提供的順序運行筆記本以避免錯誤。訓練有素的模型可以在存儲庫中找到,並且具有輔助功能可用於預測新的聚醣序列的分類類別。 https://wyss.shinyapps.io/glycobase/可用的更多工具。