Classificateur évolutif basé sur l'apprentissage en profondeur pour les séquences de glycane
Ce référentiel fournit du code pour Bojar et al., 2020
Les glycanes, le biopolymère le plus diversifié et crucial pour de nombreux processus biologiques, sont façonnés par des pressions évolutives résultant en particulier des interactions hôte-pathogène. Bien que cela positionne les glycanes comme étant essentiels pour comprendre et cibler les interactions hôtes-pathogènes, leur diversité considérable et le manque de méthodes ont jusqu'à présent des progrès pour tirer parti de leur potentiel prédictif. Ici, nous utilisons un ensemble de données organisé de 12 674 glycanes de 1 726 espèces pour développer et appliquer des méthodes d'apprentissage automatique pour extraire les informations évolutives des glycanes. Notre modèle de langage basé sur l'apprentissage en profondeur Sweetorigins fournit des représentations de glycane axées sur l'évolution que nous utilisons pour découvrir et étudier les motifs utilisés pour l'évasion immunitaire médiée par les mimétisme moléculaire par les commensaux et les agents pathogènes. De nouvelles méthodes d'alignement du glycane nous permettent d'identifier et de contextualiser les motifs déterminants de la virulence dans le polysaccharide capsulaire de Staphylococcus aureus et d'Acinetobacter baumannii. De plus, nous montrons que les arbres phylogénétiques à base de glycane contiennent la plupart des informations présentes dans les phylogénies traditionnelles à base d'ARNr 16S et améliorent la différenciation des espèces génétiquement étroitement liées mais phénotypiquement divergentes, telles que Bacillus cereus et Bacillus anthracis. Tirer parti des informations évolutives inhérentes aux glycanes avec méthodologie d'apprentissage automatique est sur le point de fournir plus loin - nécessaire - des informations sur les interactions hôte-pathogène, les relations de séquence à fonction et l'influence majeure des glycanes sur la plasticité phénotypique.
Toutes les données utilisées pour ce projet peuvent être trouvées dans les tableaux supplémentaires associés au manuscrit lié. Le cahier Jupyter annoté dans ce référentiel contient du code utilisé pour la formation et l'analyse du modèle et la génération de chiffres à partir du manuscrit. Exécutez le cahier dans l'ordre fourni pour éviter les erreurs. Des modèles formés peuvent être trouvés dans le référentiel et, avec des fonctions auxiliaires, peuvent être utilisés pour prédire la classe taxonomique de nouvelles séquences de glycane. D'autres outils disponibles sur https://wys.shinyapps.io/glycobase/.