Motivasi: Sifat pengikatan serbaguna dari antibodi telah menjadikannya kelas bioterapi yang sangat penting. Namun, pengembangan antibodi terapeutik adalah tugas yang kompleks, mahal dan memakan waktu, dengan antibodi akhir yang perlu tidak hanya memiliki ikatan yang kuat dan spesifik, tetapi juga dipengaruhi secara minimal oleh masalah pengembangan apa pun. Keberhasilan model bahasa berbasis transformator dalam ruang urutan protein dan ketersediaan sejumlah besar urutan antibodi, telah mengarah pada pengembangan banyak model bahasa spesifik antibodi untuk membantu memandu penemuan dan desain antibodi. Keragaman antibodi terutama muncul dari rekombinasi V (d) J, mutasi dalam CDR, dan/atau dari sejumlah kecil mutasi yang jauh dari germline di luar CDR. Akibatnya, sebagian besar domain variabel dari semua urutan antibodi alami tetap menjadi germline. Ini mempengaruhi pra-pelatihan model bahasa spesifik antibodi, di mana segi ini dari data urutan ini memperkenalkan bias yang berlaku terhadap residu garis germ. Ini menimbulkan tantangan, karena mutasi jauh dari germline seringkali penting untuk menghasilkan ikatan spesifik dan kuat ke target, yang berarti bahwa model bahasa perlu menyarankan mutasi kunci dari germline.
Hasil: Dalam penelitian ini, kami mengeksplorasi implikasi dari bias germline, meneliti dampaknya pada model bahasa umum-protein dan antibodi-spesifik. Kami mengembangkan dan melatih serangkaian model bahasa spesifik antibodi baru yang dioptimalkan untuk memprediksi residu non-germline. Kami kemudian membandingkan model akhir kami, Ablang-2, dengan model saat ini dan menunjukkan bagaimana itu menyarankan beragam mutasi yang valid dengan probabilitas kumulatif yang tinggi. AloLang-2 dilatih pada data yang tidak berpasangan dan berpasangan, dan tersedia secara bebas (https://github.com/oxpig/ablang2.git).
Ketersediaan dan Implementasi: Ablang2 adalah paket Python yang tersedia di https://github.com/oxpig/ablang2.git.
TCRLANG-PAIP: Arsitektur ABLANG2 dapat diinisialisasi dengan bobot model yang dilatih pada urutan TCR berpasangan. Model ini dapat digunakan dengan cara yang identik untuk ABLANG2 pada urutan TCR. Satu -satunya fungsi yang hilang adalah kurangnya perintah Align. Generasi pengkodean urutan dan residu, serta masking semuanya sama. Sebagai contoh, silakan lihat notebook.
Ablang tersedia secara bebas dan dapat dipasang dengan PIP.
pip install ablang2atau langsung dari GitHub.
pip install -U git+https://github.com/oxpig/AbLang2.gitNB: Jika Anda ingin output yang dikembalikan diselaraskan (yaitu menggunakan argumen "Align = true"), Anda perlu menginstal panda secara manual dan versi Anarci di lingkungan yang sama. Anarci juga dapat diinstal menggunakan Bioconda; Namun, versi ini dikelola oleh pihak ketiga.
conda install -c bioconda anarciAblang2 dapat digunakan dengan cara yang berbeda dan untuk berbagai usecases. Blok bangunan pusat adalah tokenizer, abrep, dan ablang.
import ablang2
# Download and initialise the model
ablang = ablang2.pretrained(model_to_use='ablang2-paired', random_init=False, ncpu=1, device='cpu')
seq = [
'EVQLLESGGEVKKPGASVKVSCRASGYTFRNYGLTWVRQAPGQGLEWMGWISAYNGNTNYAQKFQGRVTLTTDTSTSTAYMELRSLRSDDTAVYFCARDVPGHGAAFMDVWGTGTTVTVSS', # The heavy chain (VH) needs to be the first element
'DIQLTQSPLSLPVTLGQPASISCRSSQSLEASDTNIYLSWFQQRPGQSPRRLIYKISNRDSGVPDRFSGSGSGTHFTLRISRVEADDVAVYYCMQGTHWPPAFGQGTKVDIK' # The light chain (VL) needs to be the second element
]
# Tokenize input sequences
seqs = [f"{seq[0]}|{seq[1]}"] # Input needs to be a list, with | used to separated the VH and VL
tokenized_seq = ablang.tokenizer(seqs, pad=True, w_extra_tkns=False, device="cpu")
# Generate rescodings
with torch.no_grad():
rescoding = ablang.AbRep(tokenized_seq).last_hidden_states
# Generate logits/likelihoods
with torch.no_grad():
likelihoods = ablang.AbLang(tokenized_seq)
Kami telah membangun pembungkus untuk usecases spesifik yang dapat dieksplorasi melalui buku catatan Jupyter berikut.
@article{Olsen2024,
title={Addressing the antibody germline bias and its effect on language models for improved antibody design},
author={Tobias H. Olsen, Iain H. Moal and Charlotte M. Deane},
journal={bioRxiv},
doi={https://doi.org/10.1101/2024.02.02.578678},
year={2024}
}