Мотивация: универсальные свойства связывания антител сделали их чрезвычайно важным классом биотерапевтических средств. Тем не менее, развитие терапевтических антител является сложной, дорогой и трудоемкой задачей, причем конечное антитело необходимо не только иметь сильное и специфическое связывание, но также не оказывают минимального влияния любыми проблемами развития. Успех языковых моделей на основе трансформаторов в пространстве последовательности белков и доступность огромных количества антител последовательностей привело к разработке многих специфичных для антител языковых моделей, чтобы помочь определить обнаружение и дизайн антител. Разнообразие антител в первую очередь возникает в результате рекомбинации V (D) J, мутаций в CDR и/или от небольшого числа мутаций от зародышевой линии за пределами CDR. Следовательно, значительная часть переменного домена всех природных антител последовательностей остается зародышевой линии. Это влияет на предварительное обучение специфичных для антител языковых моделей, где этот аспект данных последовательности вводит преобладающий смещение в сторону остатков зародышевой линии. Это создает проблему, поскольку мутации от зародышевой линии часто жизненно важны для создания специфического и мощного связывания с мишенью, что означает, что языковые модели должны быть способны предлагать ключевые мутации вдали от зародышевой линии.
Результаты: В этом исследовании мы исследуем последствия смещения зародышевой линии, исследуя его влияние как на общие, так и на антитело, специфичные для моделей языка. Мы разрабатываем и обучаем серию новых специфичных для антител языковых моделей, оптимизированных для прогнозирования негермерных остатков. Затем мы сравниваем нашу окончательную модель, ABLANG-2, с современными моделями и показываем, как она предлагает разнообразный набор достоверных мутаций с высокой кумулятивной вероятностью. ABLANG-2 обучается как на непарных, так и на парных данных и свободно доступен (https://github.com/oxpig/ablang2.git).
Доступность и реализация: ABLANG2 - это пакет Python, доступный по адресу https://github.com/oxpig/ablang2.git.
Tcrlang Paired: архитектура ABLANG2 может быть инициализирована с весами модели, обученными парным последовательностям TCR. Эта модель может быть использована одинаковым способом в ABLANG2 на последовательностях TCR. Единственная отсутствующая функциональность - это отсутствие команды Align. Генерация последовательности и кодировки остатков, а также маскировка - все одно и то же. Для примера, пожалуйста, смотрите записную книжку.
Ablang свободно доступен и может быть установлен с помощью PIP.
pip install ablang2или прямо из GitHub.
pip install -U git+https://github.com/oxpig/AbLang2.gitNB: Если вы хотите выровнять возвращаемый вывод (то есть используйте аргумент «align = true»), вам нужно вручную установить панды и версию Anarci в той же среде. Anarci также может быть установлен с использованием BioConda; Однако эта версия поддерживается третьей стороной.
conda install -c bioconda anarciABLANG2 может использоваться по -разному и для множества USECASES. Центральные строительные блоки - это токенизатор, абреп и Ablang.
import ablang2
# Download and initialise the model
ablang = ablang2.pretrained(model_to_use='ablang2-paired', random_init=False, ncpu=1, device='cpu')
seq = [
'EVQLLESGGEVKKPGASVKVSCRASGYTFRNYGLTWVRQAPGQGLEWMGWISAYNGNTNYAQKFQGRVTLTTDTSTSTAYMELRSLRSDDTAVYFCARDVPGHGAAFMDVWGTGTTVTVSS', # The heavy chain (VH) needs to be the first element
'DIQLTQSPLSLPVTLGQPASISCRSSQSLEASDTNIYLSWFQQRPGQSPRRLIYKISNRDSGVPDRFSGSGSGTHFTLRISRVEADDVAVYYCMQGTHWPPAFGQGTKVDIK' # The light chain (VL) needs to be the second element
]
# Tokenize input sequences
seqs = [f"{seq[0]}|{seq[1]}"] # Input needs to be a list, with | used to separated the VH and VL
tokenized_seq = ablang.tokenizer(seqs, pad=True, w_extra_tkns=False, device="cpu")
# Generate rescodings
with torch.no_grad():
rescoding = ablang.AbRep(tokenized_seq).last_hidden_states
# Generate logits/likelihoods
with torch.no_grad():
likelihoods = ablang.AbLang(tokenized_seq)
У нас есть обертка для конкретных использований, которые можно исследовать через следующую ноутбук Jupyter.
@article{Olsen2024,
title={Addressing the antibody germline bias and its effect on language models for improved antibody design},
author={Tobias H. Olsen, Iain H. Moal and Charlotte M. Deane},
journal={bioRxiv},
doi={https://doi.org/10.1101/2024.02.02.578678},
year={2024}
}