แรงจูงใจ: แบบจำลองภาษาโปรตีนทั่วไปได้รับการแสดงเพื่อสรุปความหมายของลำดับโปรตีนในการเป็นตัวแทนที่มีประโยชน์สำหรับวิธีการทำนายที่ทันสมัย อย่างไรก็ตามสำหรับปัญหาเฉพาะแอนติบอดีเช่นการกู้คืนสารตกค้างที่หายไปเนื่องจากข้อผิดพลาดในการเรียงลำดับแบบจำลองที่ผ่านการฝึกอบรมเกี่ยวกับแอนติบอดีอาจมีประสิทธิภาพมากขึ้น แอนติบอดีเป็นหนึ่งในไม่กี่ประเภทโปรตีนที่ปริมาณของข้อมูลลำดับที่จำเป็นสำหรับแบบจำลองภาษาดังกล่าวมีอยู่เช่นในฐานข้อมูลพื้นที่แอนติบอดี (OAS) ที่สังเกตได้
ผลลัพธ์: ที่นี่เราแนะนำ Ablang รูปแบบภาษาที่ผ่านการฝึกอบรมเกี่ยวกับลำดับแอนติบอดีในฐานข้อมูล OAS เราแสดงให้เห็นถึงพลังของ Ablang โดยใช้มันเพื่อกู้คืนสิ่งตกค้างที่หายไปในข้อมูลลำดับแอนติบอดีซึ่งเป็นปัญหาสำคัญของการเรียงลำดับตัวรับ B-cell ละครเช่นมากกว่า 40% ของลำดับ OAS หายไป 15 กรดอะมิโนแรก Ablang คืนค่าสารตกค้างที่ขาดหายไปของลำดับแอนติบอดีดีกว่าการใช้การสืบพันธุ์ IMGT หรือแบบจำลองภาษาโปรตีนทั่วไป ESM-1B นอกจากนี้ Ablang ไม่ต้องการความรู้เกี่ยวกับเชื้อโรคของแอนติบอดีและเร็วกว่า ESM-1B เจ็ดเท่า
ความพร้อมใช้งานและการใช้งาน: Ablang เป็นแพ็คเกจ Python ที่มีอยู่ที่ https://github.com/oxpig/ablang
Ablang มีให้บริการอย่างอิสระและสามารถติดตั้งด้วย PIP
pip install ablangหรือโดยตรงจาก GitHub
pip install -U git+https://github.com/oxpig/AbLang.gitNB: หากคุณใช้อาร์กิวเมนต์ "Align = True" คุณต้องติดตั้ง Anarci เวอร์ชันด้วยตนเองในสภาพแวดล้อมเดียวกัน Anarci สามารถติดตั้งได้โดยใช้ bioconda; อย่างไรก็ตามรุ่นนี้ได้รับการดูแลโดยบุคคลที่สาม
conda install -c bioconda anarciสมุดบันทึก Jupyter ที่แสดงกรณีการใช้งานที่แตกต่างกันของ Ablang และการสร้างบล็อกสามารถพบได้ที่นี่
ปัจจุบัน Ablang สามารถใช้เพื่อสร้างการเป็นตัวแทน/การเข้ารหัสที่แตกต่างกันสามแบบสำหรับลำดับแอนติบอดี
Res-Codings: การเข้ารหัสเหล่านี้เป็นค่า 768 ค่าสำหรับแต่ละสารตกค้างซึ่งมีประโยชน์สำหรับการคาดการณ์เฉพาะที่ตกค้าง
SEQ-Codings: การเข้ารหัสเหล่านี้เป็นค่า 768 สำหรับแต่ละลำดับซึ่งมีประโยชน์สำหรับการคาดการณ์เฉพาะลำดับ ความยาวเท่ากันของการเข้ารหัสสำหรับแต่ละลำดับหมายถึงการเข้ารหัสเหล่านี้ยังช่วยขจัดความจำเป็นในการจัดลำดับแอนติบอดี
Res-likelihoods: การเข้ารหัสเหล่านี้เป็นโอกาสของกรดอะมิโนแต่ละตัวในแต่ละตำแหน่งในลำดับแอนติบอดีที่กำหนดซึ่งมีประโยชน์สำหรับการสำรวจการกลายพันธุ์ที่เป็นไปได้ ลำดับของกรดอะมิโนเป็นไปตามคำศัพท์ ablang
การเป็นตัวแทนเหล่านี้สามารถใช้สำหรับแอพพลิเคชั่นการออกแบบแอนติบอดีมากมาย ตัวอย่างเช่นเราได้ใช้ความน่าจะเป็น res-likelis จาก Ablang เพื่อกู้คืนสารตกค้างที่หายไปในลำดับแอนติบอดีเนื่องจากการเรียงลำดับข้อผิดพลาดเช่นฐานที่คลุมเครือหรือข้อ จำกัด ของเทคนิคการเรียงลำดับที่ใช้
การฟื้นฟูลำดับแอนติบอดีสามารถทำได้โดยใช้โหมด "กู้คืน" ตามที่เห็นด้านล่าง
import ablang
heavy_ablang = ablang.pretrained("heavy") # Use "light" if you are working with light chains
heavy_ablang.freeze()
seqs = [
'EV*LVESGPGLVQPGKSLRLSCVASGFTFSGYGMHWVRQAPGKGLEWIALIIYDESNKYYADSVKGRFTISRDNSKNTLYLQMSSLRAEDTAVFYCAKVKFYDPTAPNDYWGQGTLVTVSS',
'*************PGKSLRLSCVASGFTFSGYGMHWVRQAPGKGLEWIALIIYDESNK*YADSVKGRFTISRDNSKNTLYLQMSSLRAEDTAVFYCAKVKFYDPTAPNDYWGQGTL*****',
]
heavy_ablang(seqs, mode='restore')
เอาต์พุตของข้างต้นจะเห็นด้านล่าง
array(['EVQLVESGPGLVQPGKSLRLSCVASGFTFSGYGMHWVRQAPGKGLEWIALIIYDESNKYYADSVKGRFTISRDNSKNTLYLQMSSLRAEDTAVFYCAKVKFYDPTAPNDYWGQGTLVTVSS',
'QVQLVESGGGVVQPGKSLRLSCVASGFTFSGYGMHWVRQAPGKGLEWIALIIYDESNKYYADSVKGRFTISRDNSKNTLYLQMSSLRAEDTAVFYCAKVKFYDPTAPNDYWGQGTLVTVSS'],
dtype='<U121')สำหรับการฟื้นฟูจำนวนสิ่งตกค้างที่หายไปที่ไม่ทราบที่ปลายของลำดับแอนติบอดีพารามิเตอร์ "จัดตำแหน่ง" สามารถตั้งค่าเป็นจริงได้
seqs = [
'EV*LVESGPGLVQPGKSLRLSCVASGFTFSGYGMHWVRQAPGKGLEWIALIIYDESNKYYADSVKGRFTISRDNSKNTLYLQMSSLRAEDTAVFYCAKVKFYDPTAPNDYWGQGTLVTVSS',
'PGKSLRLSCVASGFTFSGYGMHWVRQAPGKGLEWIALIIYDESNK*YADSVKGRFTISRDNSKNTLYLQMSSLRAEDTAVFYCAKVKFYDPTAPNDYWGQGTL',
]
heavy_ablang(seqs, mode='restore', align=True)
เอาต์พุตของข้างต้นจะเห็นด้านล่าง
array(['EVQLVESGPGLVQPGKSLRLSCVASGFTFSGYGMHWVRQAPGKGLEWIALIIYDESNKYYADSVKGRFTISRDNSKNTLYLQMSSLRAEDTAVFYCAKVKFYDPTAPNDYWGQGTLVTVSS',
'QVQLVESGGGVVQPGKSLRLSCVASGFTFSGYGMHWVRQAPGKGLEWIALIIYDESNKYYADSVKGRFTISRDNSKNTLYLQMSSLRAEDTAVFYCAKVKFYDPTAPNDYWGQGTLVTVSS'],
dtype='<U121') @article{Olsen2022,
title={AbLang: An antibody language model for completing antibody sequences},
author={Tobias H. Olsen, Iain H. Moal and Charlotte M. Deane},
journal={bioRxiv},
doi={https://doi.org/10.1101/2022.01.20.477061},
year={2022}
}