Эволюционный классификатор на основе глубокого обучения для последовательностей гликана
Этот репозиторий предоставляет код для Bojar et al., 2020
Гликаны, наиболее разнообразный биополимер и решающий для многих биологических процессов, формируются эволюционными давлениями, связанными с взаимодействиями с хозяином-патогеном. В то время как это позиционирует гликаны как необходимые для понимания и нацеливания на взаимодействия с хозяином-патогеном, их значительное разнообразие и отсутствие методов до сих пор сталкивались с прогрессом в использовании своего прогнозирующего потенциала. Здесь мы используем кураторный набор данных из 12 674 гликанов от 1726 видов для разработки и применения методов машинного обучения для извлечения эволюционной информации из гликанов. Наша языковая модель, основанная на глубоком обучении, обеспечивает информированные эволюционными представлениями гликана, которые мы используем для обнаружения и исследования мотивов, используемых для молекулярно-опосредованной иммунной уклонением к молекулярным мимикрикам комменсалами и патогенами. Новые методы выравнивания гликана позволяют нам идентифицировать и контекстуализировать мотивы, определяющие вирулентность в капсулярном полисахариде Staphylococcus aureus и Acinetobacter baumannii. Кроме того, мы показываем, что филогенетические деревья на основе гликана содержат большую часть информации, присутствующей в традиционных филогениях на основе 16S рРНК, и улучшают дифференцировку генетически тесно связанных, но фенотипически дивергентных видов, таких как Bacillus cereus и Bacillus anthracis. Использование эволюционной информации, присущей гликанам с методологией машинного обучения, готово обеспечить дальнейшее-критически необходимое-понимание взаимодействий с хозяином и патогеном, взаимосвязи последовательности и функции и основного влияния гликанов на фенотипическую пластичность.
Все данные, используемые для этого проекта, можно найти в дополнительных таблицах, связанных с связанной рукописью. Аннотированный ноутбук Юпитера в этом хранилище содержит код, используемый для обучения и анализа моделей, и генерируя цифры из рукописи. Запустите ноутбук в предоставленном заказе, чтобы избежать ошибок. Обученные модели можно найти в репозитории, и, с помощью вспомогательных функций, могут использоваться для прогнозирования таксономического класса новых последовательностей гликана. Дополнительные инструменты доступны по адресу https://wyss.shinyapps.io/glycobase/.