AVIDa SARS CoV 2
1.0.0
該存儲庫包含伴隨論文的補充材料,“抗體語言模型的SARS-COV-2相互作用數據集和VHH序列語料庫”。在本文中,我們介紹了Avida-Sars-Cov-2,這是一個標有SARS-COV-2-VHH相互作用的標籤數據集和包含超過200萬VHH序列的VHHCORPUS-2M,為抗體語言模型的評估和預培訓提供了新的數據集。該數據集可在cc by-nc 4.0許可下的https://datasets.cognanous.com上找到。

首先,請克隆此存儲庫並運行以下命令以創建虛擬環境。
python -m venv ./venv
source ./venv/bin/activate
pip install -r requirements.txt| 數據集 | 鏈接 |
|---|---|
| VHHCORPU-2M | 擁抱麵線集線器項目頁面 |
| avida-sars-cov-2 | 擁抱麵線集線器項目頁面 |
可以在./dataset下找到用於轉換從下一代測序(NGS)獲得的原始數據(FASTQ文件)到標籤數據集的代碼。我們在此處發布了抗原類型“ OC43”的FASTQ文件,以便可以復制數據處理。
首先,您需要創建一個Docker映像。
docker build -t vhh_constructor:latest ./dataset/vhh_constructor將FASTQ文件放在dataset/raw/fastq下方之後,執行以下命令以輸出標記的CSV文件。
bash ./dataset/preprocess.shVHHBERT是基於羅伯塔(Roberta)的模型,該模型對VHHCORPUS-2M的200萬VHH序列進行了預訓練。 Vhhbert可以通過以下命令進行預訓練。
python benchmarks/pretrain.py --vocab-file " benchmarks/data/vocab_vhhbert.txt "
--epochs 20
--batch-size 128
--save-dir " outputs "參數:
| 爭論 | 必需的 | 預設 | 描述 |
|---|---|---|---|
| - vocab-file | 是的 | 詞彙文件的路徑 | |
| - epochs | 不 | 20 | 時代數量 |
| - 批處理大小 | 不 | 128 | 小批量的大小 |
| - 種子 | 不 | 123 | 隨機種子 |
| - 節奏dir | 不 | ./saved | 保存目錄的路徑 |
預先培訓的Vhhbert根據MIT許可發布,可在Hugging Face Hub上獲得。
為了評估用於抗體發現的各種預訓練的語言模型的性能,我們定義了二進制分類任務,以使用Avida-SARS-SARS-COV-2預測13種抗原的未知抗體的結合或非結合。有關基準測試任務的更多信息,請參閱論文。
可以使用以下命令對語言模型進行微調。
python benchmarks/finetune.py --palm-type " VHHBERT "
--epochs 30
--batch-size 32
--save-dir " outputs " palm-type必須是以下之一:
VHHBERTVHHBERT-w/o-PTAbLangAntiBERTa2AntiBERTa2-CSSPIgBertProtBertESM-2-150MESM-2-650M參數:
| 爭論 | 必需的 | 預設 | 描述 |
|---|---|---|---|
| - palm型 | 不 | Vhhbert | 模型名稱 |
| - 安排文件 | 不 | ./benchmarks/data/antigen_embeddings.pkl | 抗原嵌入式檔案的路徑 |
| - epochs | 不 | 20 | 時代數量 |
| - 批處理大小 | 不 | 128 | 小批量的大小 |
| - 種子 | 不 | 123 | 隨機種子 |
| - 節奏dir | 不 | ./saved | 保存目錄的路徑 |
如果您在研究中使用Avida-Sars-Cov-2,Vhhcorpus-2M或Vhhbert,請使用以下引用。
@inproceedings { tsuruta2024sars ,
title = { A {SARS}-{C}o{V}-2 Interaction Dataset and {VHH} Sequence Corpus for Antibody Language Models } ,
author = { Hirofumi Tsuruta and Hiroyuki Yamazaki and Ryota Maeda and Ryotaro Tamura and Akihiro Imura } ,
booktitle = { Advances in Neural Information Processing Systems 37 } ,
year = { 2024 }
}