动机:抗体的多功能结合特性使它们成为了极为重要的生物治疗学类别。但是,治疗性抗体开发是一项复杂,昂贵且耗时的任务,最终的抗体不仅需要具有强大而特定的结合,而且还受到任何可发展性问题的影响。蛋白质序列空间中基于变压器的语言模型的成功以及大量抗体序列的可用性,导致了许多特定于抗体的语言模型的发展,以帮助指导抗体发现和设计。抗体多样性主要来自V(d)J重组,CDR中的突变和/或来自CDR以外种系的少数突变。因此,所有天然抗体序列的可变结构域的很大一部分仍然是种系。这会影响抗体特异性语言模型的预训练,其中序列数据的这个方面引入了对种系残基的主要偏见。这构成了一个挑战,因为远离种系的突变通常对于产生特定和有效的目标至关重要,这意味着语言模型需要能够将关键突变提出远离生殖线。
结果:在这项研究中,我们探讨了种系偏差的含义,研究了其对通用蛋白和抗体特异性语言模型的影响。我们开发并培训了一系列针对预测非伴侣残基的新抗体特异性语言模型。然后,我们将最终模型Ablang-2与当前模型进行比较,并显示其如何提出具有高累积概率的各种有效突变。 Ablang-2对未配对和配对的数据进行了培训,并且可以自由使用(https://github.com/oxpig/abland2.git)。
可用性和实现: Ablang2是一个python软件包,请访问https://github.com/oxpig/ablang2.git。
TCRLANG对: ABLANG2体系结构可以使用在配对TCR序列上训练的模型权重进行初始化。该模型可以与TCR序列上的Ablang2相同的方式使用。唯一缺少的功能是缺乏对齐命令。序列和残基编码的产生以及掩盖都是相同的。有关示例,请参阅笔记本。
Ablang可以免费提供,可以与PIP一起安装。
pip install ablang2或直接来自github。
pip install -U git+https://github.com/oxpig/AbLang2.gitNB:如果要对返回的输出对齐(即使用参数“ Align = true”),则需要在同一环境中手动安装Pandas和Anarci版本。也可以使用Bioconda安装Anarci;但是,此版本由第三方维护。
conda install -c bioconda anarciAblang2可以以不同的方式和各种用途使用。中央构件是令牌,Abrep和Ablang。
import ablang2
# Download and initialise the model
ablang = ablang2.pretrained(model_to_use='ablang2-paired', random_init=False, ncpu=1, device='cpu')
seq = [
'EVQLLESGGEVKKPGASVKVSCRASGYTFRNYGLTWVRQAPGQGLEWMGWISAYNGNTNYAQKFQGRVTLTTDTSTSTAYMELRSLRSDDTAVYFCARDVPGHGAAFMDVWGTGTTVTVSS', # The heavy chain (VH) needs to be the first element
'DIQLTQSPLSLPVTLGQPASISCRSSQSLEASDTNIYLSWFQQRPGQSPRRLIYKISNRDSGVPDRFSGSGSGTHFTLRISRVEADDVAVYYCMQGTHWPPAFGQGTKVDIK' # The light chain (VL) needs to be the second element
]
# Tokenize input sequences
seqs = [f"{seq[0]}|{seq[1]}"] # Input needs to be a list, with | used to separated the VH and VL
tokenized_seq = ablang.tokenizer(seqs, pad=True, w_extra_tkns=False, device="cpu")
# Generate rescodings
with torch.no_grad():
rescoding = ablang.AbRep(tokenized_seq).last_hidden_states
# Generate logits/likelihoods
with torch.no_grad():
likelihoods = ablang.AbLang(tokenized_seq)
我们已经为特定的用户群构建了一个包装器,可以通过以下jupyter笔记本探索。
@article{Olsen2024,
title={Addressing the antibody germline bias and its effect on language models for improved antibody design},
author={Tobias H. Olsen, Iain H. Moal and Charlotte M. Deane},
journal={bioRxiv},
doi={https://doi.org/10.1101/2024.02.02.578678},
year={2024}
}