Clasificador evolutivo basado en el aprendizaje profundo para secuencias de glucano
Este repositorio proporciona código para Bojar et al., 2020
Los glicanos, el biopolímero y crucial más diversos para muchos procesos biológicos, están formados por presiones evolutivas derivadas en particular de las interacciones huésped-patógeno. Si bien esto posiciona a los glicanos como esenciales para comprender y apuntar a las interacciones huésped-patógeno, su considerable diversidad y la falta de métodos han obstaculizado hasta ahora el progreso en el aprovechamiento de su potencial predictivo. Aquí, utilizamos un conjunto de datos curado de 12,674 glicanos de 1.726 especies para desarrollar y aplicar métodos de aprendizaje automático para extraer información evolutiva de los glicanos. Nuestro modelo de lenguaje basado en el aprendizaje profundo Sweetorigins proporciona representaciones de glucano informadas por evolución que utilizamos para descubrir e investigar los motivos utilizados para la evasión inmune mediada por mimetismo molecular por comensales y patógenos. Los nuevos métodos de alineación de glucano nos permiten identificar y contextualizar motivos que determinan la virulencia en el polisacárido capsular de Staphylococcus aureus y Acinetobacter baumannii. Además, mostramos que los árboles filogenéticos basados en glucano contienen la mayor parte de la información presente en las filogenias tradicionales basadas en 16S rRNA y mejoran la diferenciación de especies genéticamente estrechamente relacionadas pero fenotípicamente divergentes, como Bacillus cereus y Bacillus anthracis. Aprovechar la información evolutiva inherente a los glicanos con metodología de aprendizaje automático está listo para proporcionar más información, críticamente necesaria, sobre las interacciones huésped-patógeno, las relaciones de secuencia a función y la mayor influencia de los glicanos en la plasticidad fenotípica.
Todos los datos utilizados para este proyecto se pueden encontrar en las tablas complementarias asociadas con el manuscrito vinculado. El cuaderno anotado de Jupyter en este repositorio contiene código utilizado para el entrenamiento y análisis de modelos y la generación de figuras del manuscrito. Ejecute el cuaderno en el orden proporcionado para evitar errores. Se pueden encontrar modelos capacitados en el repositorio y, con funciones auxiliares, se pueden utilizar para predecir la clase taxonómica de nuevas secuencias de glucano. Otras herramientas disponibles en https://wyss.shinyapps.io/glycobase/.