الدافع: خصائص الربط متعدد الاستخدامات للأجسام المضادة جعلتها فئة مهمة للغاية من العلاجات الحيوية. ومع ذلك ، فإن تطوير الأجسام المضادة العلاجية هو مهمة معقدة ومكلفة وتستغرق وقتًا طويلاً ، حيث يحتاج الجسم المضاد النهائي إلى عدم وجود ارتباط قوي ومحدد فحسب ، بل يتأثر أيضًا بأي مشاكل قابلية للتطوير. لقد أدى نجاح نماذج اللغة القائمة على المحولات في مساحة تسلسل البروتين وتوافر كميات هائلة من تسلسل الأجسام المضادة ، إلى تطوير العديد من نماذج اللغة الخاصة بالأجسام المضادة للمساعدة في توجيه اكتشاف الأجسام المضادة والتصميم. ينشأ تنوع الأجسام المضادة في المقام الأول من إعادة التركيب V (D) J ، والطفرات داخل CDRS ، و/أو من عدد صغير من الطفرات بعيدًا عن خط الجرثومة خارج CDRS. وبالتالي ، يبقى جزء كبير من المجال المتغير لجميع تسلسل الأجسام المضادة الطبيعية جرثومية. هذا يؤثر على التدريب المسبق لنماذج اللغة المضادة الخاصة بالأجسام المضادة ، حيث يقدم هذا الوجه من بيانات التسلسل تحيزًا سائد تجاه بقايا الخط الجرثومي. هذا يمثل تحديًا ، حيث أن الطفرات بعيدة عن الخط الجرثومي غالباً ما تكون حيوية لتوليد الربط المحدد والقوي للهدف ، مما يعني أن نماذج اللغة تحتاج إلى أن تكون قادرة على اقتراح طفرات رئيسية بعيدًا عن الجراثيم.
النتائج: في هذه الدراسة ، نستكشف الآثار المترتبة على تحيز الجراثيم ، ودراسة تأثيره على كل من النماذج اللغوية ذات البروتين العام والأجسام المضادة. نقوم بتطوير وتدريب سلسلة من نماذج اللغة المضادة الجديدة الخاصة بالأجسام المضادة المحسنة للتنبؤ بقايا غير أخلاقية. ثم نقوم بمقارنة نموذجنا النهائي ، Ablang-2 ، مع النماذج الحالية ونوضح كيف يقترح مجموعة متنوعة من الطفرات الصالحة ذات الاحتمال التراكمي العالي. يتم تدريب Ablang-2 على كل من البيانات غير المقترنة والمقترنة ، وهي متوفرة بحرية (https://github.com/oxpig/ablang2.git).
التوفر والتنفيذ: Ablang2 عبارة عن حزمة Python متوفرة على https://github.com/oxpig/ablang2.git.
tcrlang-paired: يمكن تهيئة بنية Ablang2 مع أوزان النماذج المدربة على تسلسل TCR المقترن. يمكن استخدام هذا النموذج بطريقة مماثلة لـ Ablang2 على تسلسل TCR. الوظيفة المفقودة الوحيدة هي عدم وجود أمر محاذاة. إن توليد ترميزات التسلسل والبقايا ، وكذلك التقنيع كلها متماثلة. على سبيل المثال ، يرجى الاطلاع على دفتر الملاحظات.
Ablang متاح بحرية ويمكن تثبيته مع PIP.
pip install ablang2أو مباشرة من جيثب.
pip install -U git+https://github.com/oxpig/AbLang2.gitNB: إذا كنت ترغب في محاذاة إخراجك المرتجع (أي استخدم الوسيطة "ALIGN = TRUE") ، فأنت بحاجة إلى تثبيت الباندا يدويًا ونسخة من Anarci في نفس البيئة. يمكن أيضًا تثبيت Anarci باستخدام Bioconda ؛ ومع ذلك ، يتم الحفاظ على هذا الإصدار من قبل طرف ثالث.
conda install -c bioconda anarciيمكن استخدام Ablang2 بطرق مختلفة وللأفراد المتنوعة. لبنات البناء المركزية هي Tokenizer و ABREP و Ablang.
import ablang2
# Download and initialise the model
ablang = ablang2.pretrained(model_to_use='ablang2-paired', random_init=False, ncpu=1, device='cpu')
seq = [
'EVQLLESGGEVKKPGASVKVSCRASGYTFRNYGLTWVRQAPGQGLEWMGWISAYNGNTNYAQKFQGRVTLTTDTSTSTAYMELRSLRSDDTAVYFCARDVPGHGAAFMDVWGTGTTVTVSS', # The heavy chain (VH) needs to be the first element
'DIQLTQSPLSLPVTLGQPASISCRSSQSLEASDTNIYLSWFQQRPGQSPRRLIYKISNRDSGVPDRFSGSGSGTHFTLRISRVEADDVAVYYCMQGTHWPPAFGQGTKVDIK' # The light chain (VL) needs to be the second element
]
# Tokenize input sequences
seqs = [f"{seq[0]}|{seq[1]}"] # Input needs to be a list, with | used to separated the VH and VL
tokenized_seq = ablang.tokenizer(seqs, pad=True, w_extra_tkns=False, device="cpu")
# Generate rescodings
with torch.no_grad():
rescoding = ablang.AbRep(tokenized_seq).last_hidden_states
# Generate logits/likelihoods
with torch.no_grad():
likelihoods = ablang.AbLang(tokenized_seq)
قمنا ببناء غلاف لاستخدامات محددة يمكن استكشافها عبر دفتر Noteber Jupyter التالي.
@article{Olsen2024,
title={Addressing the antibody germline bias and its effect on language models for improved antibody design},
author={Tobias H. Olsen, Iain H. Moal and Charlotte M. Deane},
journal={bioRxiv},
doi={https://doi.org/10.1101/2024.02.02.578678},
year={2024}
}