Modelo de linguagem baseado em aprendizado profundo para sequências de glicano
Este repositório fornece código para Bojar et al. 2020.
Enquanto os ácidos nucleicos e as proteínas recebem muita atenção, o progresso na compreensão dos papéis estruturais e funcionais dos carboidratos ficou para trás. Aqui, desenvolvemos um modelo de idioma para glicanos, SweetTalk, levando em consideração a conectividade e a composição do glicano. Usamos esse modelo para investigar motivos nas subestruturas do glicano, classificá-los de acordo com sua ligação O/N e prevemos sua imunogenicidade com precisão de ~ 92%, abrindo o potencial de glicoengenharia racional.
Todos os dados utilizados para este projeto podem ser encontrados nas tabelas suplementares associadas ao manuscrito vinculado. O notebook Jupyter anotado neste repositório contém código usado para treinamento e análise de modelo, gerando números do manuscrito e mascaramento e modificação do glicano. Execute o caderno na ordem fornecida para evitar erros. Modelos treinados podem ser encontrados no repositório e, com funções auxiliares, podem ser usados para prever a imunogenicidade de novas sequências de glicano definido pelo usuário e modificar os glicanos para aumentar ou diminuir a imunogenicidade prevista.