Deep Learning-basierte evolutionäre Klassifizierer für Glycan-Sequenzen
Dieses Repository bietet Code für Bojar et al., 2020
Glykane, die vielfältigsten Biopolymer und entscheidend für viele biologische Prozesse, werden durch evolutionäre Drucke geprägt, insbesondere aus Wechselwirkungen zwischen Wirtspathogen. Während dies Glykane als wesentlich für das Verständnis und die Ausrichtung von Wirts-Pathogen-Wechselwirkungen positioniert, hat ihre beträchtliche Vielfalt und ein Mangel an Methoden bisher behinderte Fortschritte bei der Nutzung ihres Vorhersagepotentials. Hier verwenden wir einen kuratierten Datensatz von 12.674 Glykanen von 1.726 Arten, um maschinelle Lernmethoden zu entwickeln und anzuwenden, um evolutionäre Informationen aus Glykanen zu extrahieren. Unser Deep-Lernbasis-Sprachmodell Sweetorigines bietet Evolution-informierte Glycan-Darstellungen, die wir verwenden, um Motive zu entdecken und zu untersuchen, die für molekulare Mimikrik-vermittelte Immunhinweise durch Kommensal- und Krankheitserreger verwendet werden. Neuartige Glycan-Ausrichtungsmethoden ermöglichen es uns, virulenzbestimmende Motive im Kapselpolysaccharid von Staphylococcus aureus und Acinetobacter baumannii zu identifizieren und zu kontextualisieren. Darüber hinaus zeigen wir, dass phylogenetische Bäume auf Glycanbasis die meisten Informationen in traditionellen 16S-basierten Phylogenien enthalten und die Differenzierung genetisch eng verwandter, aber phänotypisch divergierender Spezies wie Bacillus cereus und Bacillus Anthracis verbessern. Die Nutzung der Evolutionsinformationen, die Glykanen mit maschinellem Lernen inhärent sind, ist bereit, weiterhin Einblicke in die Wechselwirkungen zwischen Wirt und Pathogen, Beziehungen zwischen Sequenz-zu-Funktion und dem Haupteinfluss von Glykanen auf die phänotypische Plastizität zu liefern.
Alle für dieses Projekt verwendeten Daten finden Sie in den mit dem verknüpften Manuskript verbundenen ergänzenden Tabellen. Das kommentierte Jupyter -Notizbuch in diesem Repository enthält Code für Modelltraining und -analyse und Generierung von Zahlen aus dem Manuskript. Führen Sie das Notizbuch in der angegebenen Reihenfolge aus, um Fehler zu vermeiden. Ausgebildete Modelle finden Sie im Repository und können mit Helferfunktionen verwendet werden, um die taxonomische Klasse neuer Glycan -Sequenzen vorherzusagen. Weitere Tools, die unter https://wys.shinyapps.io/glycobase/ verfügbar sind.