動機:抗體的多功能結合特性使它們成為了極為重要的生物治療學類別。但是,治療性抗體開發是一項複雜,昂貴且耗時的任務,最終的抗體不僅需要具有強大而特定的結合,而且還受到任何可發展性問題的影響。蛋白質序列空間中基於變壓器的語言模型的成功以及大量抗體序列的可用性,導致了許多特定於抗體的語言模型的發展,以幫助指導抗體發現和設計。抗體多樣性主要來自V(d)J重組,CDR中的突變和/或來自CDR以外種系的少數突變。因此,所有天然抗體序列的可變結構域的很大一部分仍然是種系。這會影響抗體特異性語言模型的預訓練,其中序列數據的這個方面引入了對種系殘基的主要偏見。這構成了一個挑戰,因為遠離種系的突變通常對於產生特定和有效的目標至關重要,這意味著語言模型需要能夠將關鍵突變提出遠離生殖線。
結果:在這項研究中,我們探討了種系偏差的含義,研究了其對通用蛋白和抗體特異性語言模型的影響。我們開發並培訓了一系列針對預測非伴侶殘基的新抗體特異性語言模型。然後,我們將最終模型Ablang-2與當前模型進行比較,並顯示其如何提出具有高累積概率的各種有效突變。 Ablang-2對未配對和配對的數據進行了培訓,並且可以自由使用(https://github.com/oxpig/abland2.git)。
可用性和實現: Ablang2是一個python軟件包,請訪問https://github.com/oxpig/ablang2.git。
TCRLANG對: ABLANG2體系結構可以使用在配對TCR序列上訓練的模型權重進行初始化。該模型可以與TCR序列上的Ablang2相同的方式使用。唯一缺少的功能是缺乏對齊命令。序列和殘基編碼的產生以及掩蓋都是相同的。有關示例,請參閱筆記本。
Ablang可以免費提供,可以與PIP一起安裝。
pip install ablang2或直接來自github。
pip install -U git+https://github.com/oxpig/AbLang2.gitNB:如果要對返回的輸出對齊(即使用參數“ Align = true”),則需要在同一環境中手動安裝Pandas和Anarci版本。也可以使用Bioconda安裝Anarci;但是,此版本由第三方維護。
conda install -c bioconda anarciAblang2可以以不同的方式和各種用途使用。中央構件是令牌,Abrep和Ablang。
import ablang2
# Download and initialise the model
ablang = ablang2.pretrained(model_to_use='ablang2-paired', random_init=False, ncpu=1, device='cpu')
seq = [
'EVQLLESGGEVKKPGASVKVSCRASGYTFRNYGLTWVRQAPGQGLEWMGWISAYNGNTNYAQKFQGRVTLTTDTSTSTAYMELRSLRSDDTAVYFCARDVPGHGAAFMDVWGTGTTVTVSS', # The heavy chain (VH) needs to be the first element
'DIQLTQSPLSLPVTLGQPASISCRSSQSLEASDTNIYLSWFQQRPGQSPRRLIYKISNRDSGVPDRFSGSGSGTHFTLRISRVEADDVAVYYCMQGTHWPPAFGQGTKVDIK' # The light chain (VL) needs to be the second element
]
# Tokenize input sequences
seqs = [f"{seq[0]}|{seq[1]}"] # Input needs to be a list, with | used to separated the VH and VL
tokenized_seq = ablang.tokenizer(seqs, pad=True, w_extra_tkns=False, device="cpu")
# Generate rescodings
with torch.no_grad():
rescoding = ablang.AbRep(tokenized_seq).last_hidden_states
# Generate logits/likelihoods
with torch.no_grad():
likelihoods = ablang.AbLang(tokenized_seq)
我們已經為特定的用戶群構建了一個包裝器,可以通過以下jupyter筆記本探索。
@article{Olsen2024,
title={Addressing the antibody germline bias and its effect on language models for improved antibody design},
author={Tobias H. Olsen, Iain H. Moal and Charlotte M. Deane},
journal={bioRxiv},
doi={https://doi.org/10.1101/2024.02.02.578678},
year={2024}
}