动机:一般的蛋白质语言模型已被证明可以将蛋白质序列的语义汇总到对最先进的预测方法有用的表示中。但是,对于抗体特定问题,例如恢复由于测序错误而丢失的残基,仅在抗体上训练的模型可能会更强大。抗体是可获得此类语言模型所需的序列数据体积的少数蛋白质类型之一,例如在观察到的抗体空间(OAS)数据库中。
结果:在这里,我们介绍了Ablang,这是一种对OAS数据库中抗体序列进行训练的语言模型。我们通过使用它来恢复抗体序列数据中缺失的残基来证明ABLANG的功能,B-cell受体库库测序的关键问题,例如,超过40%的OAS序列缺少前15个氨基酸。 ABLANG比使用IMGT种系或通用蛋白质语言ESM-1B更好地恢复抗体序列的缺失残基。此外,Ablang不需要了解抗体的种系,并且比ESM-1B快七倍。
可用性和实现: Ablang是https://github.com/oxpig/ablang的Python软件包。
Ablang可以免费提供,可以与PIP一起安装。
pip install ablang或直接来自github。
pip install -U git+https://github.com/oxpig/AbLang.gitNB:如果您使用参数“ Align = true”,则需要在同一环境中手动安装Anarci版本。也可以使用Bioconda安装Anarci;但是,此版本由第三方维护。
conda install -c bioconda anarci可以在此处找到一个显示Ablang及其构建块不同用例的Jupyter笔记本。
当前,Ablang可用于生成抗体序列的三种不同表示/编码。
重新编码:这些编码为每个残基的768个值,可用于残基特定预测。
SEQ编码:这些编码为每个序列的768个值,可用于序列特定的预测。每个序列的编码长度相同,意味着这些编码还消除了对齐抗体序列的需求。
样品类似:这些编码是给定抗体序列中每个位置每个氨基酸的可能性,可用于探索可能的突变。氨基酸的顺序遵循Ablang词汇。
这些表示可用于大量抗体设计应用。例如,我们已经使用了来自Ablang的RES类样品来恢复由于测序误差(例如模棱两可碱)或使用的测序技术的局限性,因此在抗体序列中恢复了缺失的残基。
可以使用“恢复”模式进行抗体序列的恢复,如下所示。
import ablang
heavy_ablang = ablang.pretrained("heavy") # Use "light" if you are working with light chains
heavy_ablang.freeze()
seqs = [
'EV*LVESGPGLVQPGKSLRLSCVASGFTFSGYGMHWVRQAPGKGLEWIALIIYDESNKYYADSVKGRFTISRDNSKNTLYLQMSSLRAEDTAVFYCAKVKFYDPTAPNDYWGQGTLVTVSS',
'*************PGKSLRLSCVASGFTFSGYGMHWVRQAPGKGLEWIALIIYDESNK*YADSVKGRFTISRDNSKNTLYLQMSSLRAEDTAVFYCAKVKFYDPTAPNDYWGQGTL*****',
]
heavy_ablang(seqs, mode='restore')
下面可以看到上述输出。
array(['EVQLVESGPGLVQPGKSLRLSCVASGFTFSGYGMHWVRQAPGKGLEWIALIIYDESNKYYADSVKGRFTISRDNSKNTLYLQMSSLRAEDTAVFYCAKVKFYDPTAPNDYWGQGTLVTVSS',
'QVQLVESGGGVVQPGKSLRLSCVASGFTFSGYGMHWVRQAPGKGLEWIALIIYDESNKYYADSVKGRFTISRDNSKNTLYLQMSSLRAEDTAVFYCAKVKFYDPTAPNDYWGQGTLVTVSS'],
dtype='<U121')为了恢复抗体序列末端的未知数丢失残基,可以将“对齐”参数设置为true。
seqs = [
'EV*LVESGPGLVQPGKSLRLSCVASGFTFSGYGMHWVRQAPGKGLEWIALIIYDESNKYYADSVKGRFTISRDNSKNTLYLQMSSLRAEDTAVFYCAKVKFYDPTAPNDYWGQGTLVTVSS',
'PGKSLRLSCVASGFTFSGYGMHWVRQAPGKGLEWIALIIYDESNK*YADSVKGRFTISRDNSKNTLYLQMSSLRAEDTAVFYCAKVKFYDPTAPNDYWGQGTL',
]
heavy_ablang(seqs, mode='restore', align=True)
下面可以看到上述输出。
array(['EVQLVESGPGLVQPGKSLRLSCVASGFTFSGYGMHWVRQAPGKGLEWIALIIYDESNKYYADSVKGRFTISRDNSKNTLYLQMSSLRAEDTAVFYCAKVKFYDPTAPNDYWGQGTLVTVSS',
'QVQLVESGGGVVQPGKSLRLSCVASGFTFSGYGMHWVRQAPGKGLEWIALIIYDESNKYYADSVKGRFTISRDNSKNTLYLQMSSLRAEDTAVFYCAKVKFYDPTAPNDYWGQGTLVTVSS'],
dtype='<U121') @article{Olsen2022,
title={AbLang: An antibody language model for completing antibody sequences},
author={Tobias H. Olsen, Iain H. Moal and Charlotte M. Deane},
journal={bioRxiv},
doi={https://doi.org/10.1101/2022.01.20.477061},
year={2022}
}