ตัวจําแนกวิวัฒนาการที่ใช้การเรียนรู้ลึกสำหรับลำดับ Glycan
ที่เก็บนี้มีรหัสสำหรับ Bojar et al., 2020
Glycans ซึ่งเป็นไบโอโพลีเมอร์ที่มีความหลากหลายและสำคัญที่สุดสำหรับกระบวนการทางชีวภาพหลายอย่างนั้นถูกสร้างขึ้นจากแรงกดดันเชิงวิวัฒนาการโดยเฉพาะอย่างยิ่งจากการปฏิสัมพันธ์ระหว่างโฮสต์-พยาธิ ในขณะที่ตำแหน่งนี้ไกลแคนเป็นสิ่งจำเป็นสำหรับการทำความเข้าใจและกำหนดเป้าหมายปฏิสัมพันธ์ระหว่างโฮสต์-พาเจนความหลากหลายของพวกเขาและการขาดวิธีการมีความคืบหน้ามาก่อนในการใช้ประโยชน์จากศักยภาพในการทำนายของพวกเขา ที่นี่เราใช้ชุดข้อมูลที่รวบรวมไว้ 12,674 glycans จาก 1,726 สปีชีส์เพื่อพัฒนาและใช้วิธีการเรียนรู้ของเครื่องเพื่อแยกข้อมูลวิวัฒนาการจาก glycans แบบจำลองภาษาที่ใช้การเรียนรู้อย่างลึกซึ้งของเรา Sweetorigins ให้การเป็นตัวแทนของ Glycan ที่เราใช้ในการค้นพบและตรวจสอบลวดลายที่ใช้สำหรับการหลีกเลี่ยงระบบภูมิคุ้มกันแบบจำลองการเลียนแบบโมเลกุลโดย commensals และเชื้อโรค วิธีการจัดตำแหน่ง Glycan นวนิยายช่วยให้เราสามารถระบุและกำหนดบริบทการกำหนดความรุนแรงในการกำหนดค่าความรุนแรงใน polysaccharide capsular ของ Staphylococcus aureus และ Acinetobacter baumannii นอกจากนี้เรายังแสดงให้เห็นว่าต้นไม้สายวิวัฒนาการที่ใช้ไกลแคนมีข้อมูลส่วนใหญ่ที่มีอยู่ใน phylogenies ที่ใช้ 16S rRNA แบบดั้งเดิมและปรับปรุงความแตกต่างของสายพันธุ์ที่เกี่ยวข้องอย่างใกล้ชิดทางพันธุกรรม การใช้ประโยชน์จากข้อมูลวิวัฒนาการที่มีอยู่ใน glycans ด้วยวิธีการเรียนรู้ของเครื่องมีความพร้อมที่จะให้เพิ่มเติม-จำเป็นอย่างยิ่ง-ข้อมูลเชิงลึกเกี่ยวกับการปฏิสัมพันธ์ระหว่างโฮสต์-พยาธิความสัมพันธ์ลำดับกับฟังก์ชันและอิทธิพลที่สำคัญของ glycans ต่อพลาสติกฟีโนไทป์
ข้อมูลทั้งหมดที่ใช้สำหรับโครงการนี้สามารถพบได้ในตารางเสริมที่เกี่ยวข้องกับต้นฉบับที่เชื่อมโยง สมุดบันทึก Jupyter ที่มีคำอธิบายประกอบในที่เก็บนี้มีรหัสที่ใช้สำหรับการฝึกอบรมและการวิเคราะห์แบบจำลองและการสร้างตัวเลขจากต้นฉบับ เรียกใช้สมุดบันทึกตามลำดับที่ให้ไว้เพื่อหลีกเลี่ยงข้อผิดพลาด แบบจำลองที่ผ่านการฝึกอบรมสามารถพบได้ในพื้นที่เก็บข้อมูลและด้วยฟังก์ชั่นผู้ช่วยสามารถใช้ในการทำนายคลาสอนุกรมวิธานของลำดับไกลแคนใหม่ เครื่องมือเพิ่มเติมที่มีอยู่ที่ https://wyss.shinyapps.io/glycobase/