Classificador evolutivo baseado em aprendizado profundo para sequências de glicano
Este repositório fornece código para Bojar et al., 2020
Os glicanos, o biopolímero mais diversificado e cruciais para muitos processos biológicos, são moldados por pressões evolutivas decorrentes de interações hospedeiras-patógenos. Enquanto isso posiciona os glicanos como essenciais para entender e direcionar as interações-patógenos do hospedeiro, sua considerável diversidade e falta de métodos tenham o progresso até agora frustrado na alavancagem de seu potencial preditivo. Aqui, utilizamos um conjunto de dados com curadoria de 12.674 glicanos de 1.726 espécies para desenvolver e aplicar métodos de aprendizado de máquina para extrair informações evolutivas dos glicanos. Nosso modelo de linguagem baseado em aprendizado profundo fornece representações de glicano informadas à evolução que utilizamos para descobrir e investigar motivos usados para evasão imune mediada por imune de imitação molecular por comensais e patógenos. Novos métodos de alinhamento do glicano nos permitem identificar e contextualizar motivos de determinação de virulência no polissacarídeo capsular de Staphylococcus aureus e Acinetobacter baumannii. Além disso, mostramos que as árvores filogenéticas à base de glicano contêm a maioria das informações presentes nas filogenias tradicionais à base de rRNA 16S e melhoram a diferenciação de espécies geneticamente intimamente relacionadas, mas fenotipicamente divergentes, como Bacillus cereus e Bacillus anthracis. A alavancagem das informações evolutivas inerentes aos glicanos com a metodologia de aprendizado de máquina está pronta para fornecer informações mais necessárias-criticamente necessárias sobre as interações-patógenos do hospedeiro, relações de sequência para função e a principal influência dos glicanos na plasticidade fenotípica.
Todos os dados utilizados para este projeto podem ser encontrados nas tabelas suplementares associadas ao manuscrito vinculado. O notebook Jupyter anotado neste repositório contém código usado para treinamento e análise de modelo e geração de números do manuscrito. Execute o caderno na ordem fornecida para evitar erros. Modelos treinados podem ser encontrados no repositório e, com funções auxiliares, podem ser usados para prever a classe taxonômica de novas sequências de glicano. Outras ferramentas disponíveis em https://wys.shinyapps.io/glycobase/.