動機:一般的蛋白質語言模型已被證明可以將蛋白質序列的語義匯總到對最先進的預測方法有用的表示中。但是,對於抗體特定問題,例如恢復由於測序錯誤而丟失的殘基,僅在抗體上訓練的模型可能會更強大。抗體是可獲得此類語言模型所需的序列數據體積的少數蛋白質類型之一,例如在觀察到的抗體空間(OAS)數據庫中。
結果:在這裡,我們介紹了Ablang,這是一種對OAS數據庫中抗體序列進行訓練的語言模型。我們通過使用它來恢復抗體序列數據中缺失的殘基來證明ABLANG的功能,B-cell受體庫庫測序的關鍵問題,例如,超過40%的OAS序列缺少前15個氨基酸。 ABLANG比使用IMGT種系或通用蛋白質語言ESM-1B更好地恢復抗體序列的缺失殘基。此外,Ablang不需要了解抗體的種系,並且比ESM-1B快七倍。
可用性和實現: Ablang是https://github.com/oxpig/ablang的Python軟件包。
Ablang可以免費提供,可以與PIP一起安裝。
pip install ablang或直接來自github。
pip install -U git+https://github.com/oxpig/AbLang.gitNB:如果您使用參數“ Align = true”,則需要在同一環境中手動安裝Anarci版本。也可以使用Bioconda安裝Anarci;但是,此版本由第三方維護。
conda install -c bioconda anarci可以在此處找到一個顯示Ablang及其構建塊不同用例的Jupyter筆記本。
當前,Ablang可用於生成抗體序列的三種不同表示/編碼。
重新編碼:這些編碼為每個殘基的768個值,可用於殘基特定預測。
SEQ編碼:這些編碼為每個序列的768個值,可用於序列特定的預測。每個序列的編碼長度相同,意味著這些編碼還消除了對齊抗體序列的需求。
樣品類似:這些編碼是給定抗體序列中每個位置每個氨基酸的可能性,可用於探索可能的突變。氨基酸的順序遵循Ablang詞彙。
這些表示可用於大量抗體設計應用。例如,我們已經使用了來自Ablang的RES類樣品來恢復由於測序誤差(例如模棱兩可鹼)或使用的測序技術的局限性,因此在抗體序列中恢復了缺失的殘基。
可以使用“恢復”模式進行抗體序列的恢復,如下所示。
import ablang
heavy_ablang = ablang.pretrained("heavy") # Use "light" if you are working with light chains
heavy_ablang.freeze()
seqs = [
'EV*LVESGPGLVQPGKSLRLSCVASGFTFSGYGMHWVRQAPGKGLEWIALIIYDESNKYYADSVKGRFTISRDNSKNTLYLQMSSLRAEDTAVFYCAKVKFYDPTAPNDYWGQGTLVTVSS',
'*************PGKSLRLSCVASGFTFSGYGMHWVRQAPGKGLEWIALIIYDESNK*YADSVKGRFTISRDNSKNTLYLQMSSLRAEDTAVFYCAKVKFYDPTAPNDYWGQGTL*****',
]
heavy_ablang(seqs, mode='restore')
下面可以看到上述輸出。
array(['EVQLVESGPGLVQPGKSLRLSCVASGFTFSGYGMHWVRQAPGKGLEWIALIIYDESNKYYADSVKGRFTISRDNSKNTLYLQMSSLRAEDTAVFYCAKVKFYDPTAPNDYWGQGTLVTVSS',
'QVQLVESGGGVVQPGKSLRLSCVASGFTFSGYGMHWVRQAPGKGLEWIALIIYDESNKYYADSVKGRFTISRDNSKNTLYLQMSSLRAEDTAVFYCAKVKFYDPTAPNDYWGQGTLVTVSS'],
dtype='<U121')為了恢復抗體序列末端的未知數丟失殘基,可以將“對齊”參數設置為true。
seqs = [
'EV*LVESGPGLVQPGKSLRLSCVASGFTFSGYGMHWVRQAPGKGLEWIALIIYDESNKYYADSVKGRFTISRDNSKNTLYLQMSSLRAEDTAVFYCAKVKFYDPTAPNDYWGQGTLVTVSS',
'PGKSLRLSCVASGFTFSGYGMHWVRQAPGKGLEWIALIIYDESNK*YADSVKGRFTISRDNSKNTLYLQMSSLRAEDTAVFYCAKVKFYDPTAPNDYWGQGTL',
]
heavy_ablang(seqs, mode='restore', align=True)
下面可以看到上述輸出。
array(['EVQLVESGPGLVQPGKSLRLSCVASGFTFSGYGMHWVRQAPGKGLEWIALIIYDESNKYYADSVKGRFTISRDNSKNTLYLQMSSLRAEDTAVFYCAKVKFYDPTAPNDYWGQGTLVTVSS',
'QVQLVESGGGVVQPGKSLRLSCVASGFTFSGYGMHWVRQAPGKGLEWIALIIYDESNKYYADSVKGRFTISRDNSKNTLYLQMSSLRAEDTAVFYCAKVKFYDPTAPNDYWGQGTLVTVSS'],
dtype='<U121') @article{Olsen2022,
title={AbLang: An antibody language model for completing antibody sequences},
author={Tobias H. Olsen, Iain H. Moal and Charlotte M. Deane},
journal={bioRxiv},
doi={https://doi.org/10.1101/2022.01.20.477061},
year={2022}
}