Deep Learning-basierte Sprachmodell für Glycan-Sequenzen
Dieses Repository bietet Code für Bojar et al. 2020.
Während Nukleinsäuren und Proteine ausreichend Aufmerksamkeit erhalten, ist das Fortschreiten des Verständnisses der strukturellen und funktionellen Rollen von Kohlenhydraten zurückgegangen. Hier entwickeln wir ein Sprachmodell für Glykane, Sweetalk, unter Berücksichtigung der Glycan -Konnektivität und -Komposition. Wir verwenden dieses Modell, um Motive in Glycan-Substrukturen zu untersuchen, sie nach ihrer O/N-Verknüpfung zu klassifizieren und ihre Immunogenität mit einer Genauigkeit von ~ 92%vorherzusagen, wodurch das Potenzial für rationale Glycoengineering geöffnet wird.
Alle für dieses Projekt verwendeten Daten finden Sie in den mit dem verknüpften Manuskript verbundenen ergänzenden Tabellen. Das kommentierte Jupyter -Notizbuch in diesem Repository enthält Code für Modelltraining und -analyse, generiert Zahlen aus dem Manuskript und Glycan -Maskierung und -änderung. Führen Sie das Notizbuch in der angegebenen Reihenfolge aus, um Fehler zu vermeiden. Schul geschulte Modelle finden Sie im Repository und können mit Helferfunktionen verwendet werden, um die Immunogenität neuer benutzerdefinierter Glycan-Sequenzen vorherzusagen und Glykane zu modifizieren, um die vorhergesagte Immunogenität zu erhöhen oder zu verringern.