AVIDa SARS CoV 2
1.0.0
该存储库包含伴随论文的补充材料,“抗体语言模型的SARS-COV-2相互作用数据集和VHH序列语料库”。在本文中,我们介绍了Avida-Sars-Cov-2,这是一个标有SARS-COV-2-VHH相互作用的标签数据集和包含超过200万VHH序列的VHHCORPUS-2M,为抗体语言模型的评估和预培训提供了新的数据集。该数据集可在cc by-nc 4.0许可下的https://datasets.cognanous.com上找到。

首先,请克隆此存储库并运行以下命令以创建虚拟环境。
python -m venv ./venv
source ./venv/bin/activate
pip install -r requirements.txt| 数据集 | 链接 |
|---|---|
| VHHCORPU-2M | 拥抱面线集线器项目页面 |
| avida-sars-cov-2 | 拥抱面线集线器项目页面 |
可以在./dataset下找到用于转换从下一代测序(NGS)获得的原始数据(FASTQ文件)到标签数据集的代码。我们在此处发布了抗原类型“ OC43”的FASTQ文件,以便可以复制数据处理。
首先,您需要创建一个Docker映像。
docker build -t vhh_constructor:latest ./dataset/vhh_constructor将FASTQ文件放在dataset/raw/fastq下方之后,执行以下命令以输出标记的CSV文件。
bash ./dataset/preprocess.shVHHBERT是基于罗伯塔(Roberta)的模型,该模型对VHHCORPUS-2M的200万VHH序列进行了预训练。 Vhhbert可以通过以下命令进行预训练。
python benchmarks/pretrain.py --vocab-file " benchmarks/data/vocab_vhhbert.txt "
--epochs 20
--batch-size 128
--save-dir " outputs "参数:
| 争论 | 必需的 | 默认 | 描述 |
|---|---|---|---|
| - vocab-file | 是的 | 词汇文件的路径 | |
| - epochs | 不 | 20 | 时代数量 |
| - 批处理大小 | 不 | 128 | 小批量的大小 |
| - 种子 | 不 | 123 | 随机种子 |
| - 节奏dir | 不 | ./saved | 保存目录的路径 |
预先培训的Vhhbert根据MIT许可发布,可在Hugging Face Hub上获得。
为了评估用于抗体发现的各种预训练的语言模型的性能,我们定义了二进制分类任务,以使用Avida-SARS-SARS-COV-2预测13种抗原的未知抗体的结合或非结合。有关基准测试任务的更多信息,请参阅论文。
可以使用以下命令对语言模型进行微调。
python benchmarks/finetune.py --palm-type " VHHBERT "
--epochs 30
--batch-size 32
--save-dir " outputs " palm-type必须是以下之一:
VHHBERTVHHBERT-w/o-PTAbLangAntiBERTa2AntiBERTa2-CSSPIgBertProtBertESM-2-150MESM-2-650M参数:
| 争论 | 必需的 | 默认 | 描述 |
|---|---|---|---|
| - palm型 | 不 | Vhhbert | 模型名称 |
| - 安排文件 | 不 | ./benchmarks/data/antigen_embeddings.pkl | 抗原嵌入式档案的路径 |
| - epochs | 不 | 20 | 时代数量 |
| - 批处理大小 | 不 | 128 | 小批量的大小 |
| - 种子 | 不 | 123 | 随机种子 |
| - 节奏dir | 不 | ./saved | 保存目录的路径 |
如果您在研究中使用Avida-Sars-Cov-2,Vhhcorpus-2M或Vhhbert,请使用以下引用。
@inproceedings { tsuruta2024sars ,
title = { A {SARS}-{C}o{V}-2 Interaction Dataset and {VHH} Sequence Corpus for Antibody Language Models } ,
author = { Hirofumi Tsuruta and Hiroyuki Yamazaki and Ryota Maeda and Ryotaro Tamura and Akihiro Imura } ,
booktitle = { Advances in Neural Information Processing Systems 37 } ,
year = { 2024 }
}