글리 칸 서열에 대한 딥 러닝 기반 진화 분류기
이 저장소는 Bojar et al., 2020에 대한 코드를 제공합니다
많은 생물학적 과정에서 가장 다양한 바이오 폴리머이자 중요한 글리 칸은 특히 숙주-경상 상호 작용으로 인한 진화 적 압력에 의해 형성됩니다. 이것은 글리 칸이 숙주-경상 상호 작용을 이해하고 타겟팅하는 데 필수적이라고 위치하지만, 상당한 다양성과 방법이 부족하여 지금까지 예측 잠재력을 활용하는 데 진전이있었습니다. 여기, 우리는 1,726 종의 12,674 개의 글리 칸의 선별 된 데이터 세트를 활용하여 기계 학습 방법을 개발하고 적용하여 글리 칸에서 진화 정보를 추출합니다. 우리의 딥 러닝 기반 언어 모델 Sweetorigins는 공생 및 병원체에 의한 분자 모방-매개 면역 회피에 사용되는 모티프를 발견하고 조사하는 데 활용하는 진화 정보 글리 칸 표현을 제공합니다. 신규 한 글리 칸 정렬 방법을 사용하면 포도상 구균 및 acinetobacter baumannii의 캡슐 다당류에서 독성 결정 모티프를 식별하고 맥락화 할 수 있습니다. 또한, 우리는 글리 칸 기반 계통 발생 나무가 전통적인 16S rRNA 기반 계통 발생에 존재하는 대부분의 정보를 포함하고 바실러스 세레 우스 및 바실러스 안트라스와 같은 유 전적으로 밀접하게 관련이 있지만 표현형 적으로 발산 된 종의 분화에 대한 개선을 보여줍니다. 기계 학습 방법론을 가진 글리 칸에 내재 된 진화 정보를 활용하는 것은 숙주-경상 상호 작용에 대한 통찰력, 시퀀스-기능 관계 및 표현형 소성에 대한 글리 칸의 주요 영향을 더 많이 제공 할 준비가되어 있습니다.
이 프로젝트에 사용 된 모든 데이터는 연결된 원고와 관련된 보충 테이블에서 찾을 수 있습니다. 이 저장소의 주석이 달린 Jupyter 노트북에는 모델 교육 및 분석 및 원고에서 수치를 생성하는 데 사용되는 코드가 포함되어 있습니다. 오류를 피하기 위해 제공된 순서로 노트북을 실행하십시오. 훈련 된 모델은 저장소에서 찾을 수 있으며 도우미 기능을 사용하여 분류 학적 클래스의 새로운 글리 칸 서열을 예측하는 데 사용될 수 있습니다. 추가 도구는 https://wyss.shinyapps.io/glycobase/에서 제공됩니다.