แรงจูงใจ: คุณสมบัติการผูกมัดอเนกประสงค์ของแอนติบอดีทำให้พวกเขาเป็นคลาสที่สำคัญอย่างยิ่งของ biotherapeutics อย่างไรก็ตามการพัฒนาแอนติบอดีในการรักษาเป็นงานที่ซับซ้อนมีราคาแพงและใช้เวลานานโดยมีแอนติบอดีสุดท้ายที่ต้องการไม่เพียง แต่มีผลผูกพันที่แข็งแกร่งและเฉพาะเจาะจง แต่ยังได้รับผลกระทบน้อยที่สุดจากปัญหาการพัฒนาใด ๆ ความสำเร็จของแบบจำลองภาษาที่ใช้หม้อแปลงในพื้นที่ลำดับโปรตีนและความพร้อมใช้งานของลำดับแอนติบอดีจำนวนมหาศาลได้นำไปสู่การพัฒนาแบบจำลองภาษาเฉพาะแอนติบอดีจำนวนมากเพื่อช่วยแนะนำการค้นพบและออกแบบแอนติบอดี ความหลากหลายของแอนติบอดีส่วนใหญ่เกิดขึ้นจากการรวมตัวกันใหม่ของ V (d) J การกลายพันธุ์ภายใน CDRs และ/หรือจากการกลายพันธุ์จำนวนน้อยห่างจาก germline นอก CDRs ดังนั้นส่วนสำคัญของโดเมนตัวแปรของลำดับแอนติบอดีตามธรรมชาติทั้งหมดยังคงเป็นเชื้อโรค สิ่งนี้มีผลต่อการฝึกอบรมก่อนการฝึกอบรมแบบจำลองภาษาเฉพาะแอนติบอดีซึ่งแง่มุมของข้อมูลลำดับนี้จะแนะนำอคติที่มีต่อเชื้อโรคตกค้าง สิ่งนี้ทำให้เกิดความท้าทายเนื่องจากการกลายพันธุ์ห่างจากเชื้อโรคมักจะมีความสำคัญต่อการสร้างเป้าหมายที่เฉพาะเจาะจงและมีศักยภาพซึ่งหมายความว่าแบบจำลองภาษาจำเป็นต้องแนะนำการกลายพันธุ์ที่สำคัญออกไปจากเชื้อโรค
ผลลัพธ์: ในการศึกษานี้เราสำรวจความหมายของอคติ Germline ตรวจสอบผลกระทบต่อทั้งแบบจำลองภาษาทั่วไปและแอนติบอดี้เฉพาะ เราพัฒนาและฝึกอบรมชุดของแบบจำลองภาษาเฉพาะแอนติบอดีใหม่ที่ได้รับการปรับให้เหมาะสมสำหรับการทำนายการตกค้างที่ไม่ใช่เส้นเลือด จากนั้นเราเปรียบเทียบโมเดลสุดท้ายของเรา Ablang-2 กับโมเดลปัจจุบันและแสดงให้เห็นว่ามันแนะนำชุดการกลายพันธุ์ที่ถูกต้องที่หลากหลายด้วยความน่าจะเป็นสะสมสูงได้อย่างไร Ablang-2 ได้รับการฝึกฝนเกี่ยวกับข้อมูลทั้งที่ไม่ได้จับคู่และจับคู่และพร้อมใช้งานได้อย่างอิสระ (https://github.com/oxpig/ablang2.git)
ความพร้อมใช้งานและการใช้งาน: Ablang2 เป็นแพ็คเกจ Python ที่มีอยู่ที่ https://github.com/oxpig/ablang2.git
TCRLANG-PAIRED: สถาปัตยกรรม ABLANG2 สามารถเริ่มต้นด้วยน้ำหนักรุ่นที่ผ่านการฝึกอบรมเกี่ยวกับลำดับ TCR ที่จับคู่ รุ่นนี้สามารถใช้ในวิธีที่เหมือนกันกับ Ablang2 ในลำดับ TCR ฟังก์ชั่นที่ขาดหายไปเพียงอย่างเดียวคือการขาดคำสั่งจัดตำแหน่ง การสร้างลำดับและการเข้ารหัสที่ตกค้างเช่นเดียวกับการปิดบังนั้นเหมือนกันทั้งหมด ตัวอย่างเช่นโปรดดูสมุดบันทึก
Ablang มีให้บริการอย่างอิสระและสามารถติดตั้งด้วย PIP
pip install ablang2หรือโดยตรงจาก GitHub
pip install -U git+https://github.com/oxpig/AbLang2.gitNB: หากคุณต้องการจัดตำแหน่งเอาท์พุทที่ส่งคืน (เช่นใช้อาร์กิวเมนต์ "Align = TRUE") คุณต้องติดตั้ง PANDAS ด้วยตนเองและเวอร์ชันของ Anarci ในสภาพแวดล้อมเดียวกัน Anarci สามารถติดตั้งได้โดยใช้ bioconda; อย่างไรก็ตามรุ่นนี้ได้รับการดูแลโดยบุคคลที่สาม
conda install -c bioconda anarciAblang2 สามารถใช้ในรูปแบบที่แตกต่างกันและสำหรับ usecases ที่หลากหลาย หน่วยการสร้างกลางคือโทเคนิเซอร์, Abrep และ Ablang
import ablang2
# Download and initialise the model
ablang = ablang2.pretrained(model_to_use='ablang2-paired', random_init=False, ncpu=1, device='cpu')
seq = [
'EVQLLESGGEVKKPGASVKVSCRASGYTFRNYGLTWVRQAPGQGLEWMGWISAYNGNTNYAQKFQGRVTLTTDTSTSTAYMELRSLRSDDTAVYFCARDVPGHGAAFMDVWGTGTTVTVSS', # The heavy chain (VH) needs to be the first element
'DIQLTQSPLSLPVTLGQPASISCRSSQSLEASDTNIYLSWFQQRPGQSPRRLIYKISNRDSGVPDRFSGSGSGTHFTLRISRVEADDVAVYYCMQGTHWPPAFGQGTKVDIK' # The light chain (VL) needs to be the second element
]
# Tokenize input sequences
seqs = [f"{seq[0]}|{seq[1]}"] # Input needs to be a list, with | used to separated the VH and VL
tokenized_seq = ablang.tokenizer(seqs, pad=True, w_extra_tkns=False, device="cpu")
# Generate rescodings
with torch.no_grad():
rescoding = ablang.AbRep(tokenized_seq).last_hidden_states
# Generate logits/likelihoods
with torch.no_grad():
likelihoods = ablang.AbLang(tokenized_seq)
เราได้สร้างเสื้อคลุมสำหรับ Usecases เฉพาะซึ่งสามารถสำรวจได้ผ่านสมุดบันทึก Jupyter ต่อไปนี้
@article{Olsen2024,
title={Addressing the antibody germline bias and its effect on language models for improved antibody design},
author={Tobias H. Olsen, Iain H. Moal and Charlotte M. Deane},
journal={bioRxiv},
doi={https://doi.org/10.1101/2024.02.02.578678},
year={2024}
}