AVIDa SARS CoV 2 Download - AVIDa SARS CoV 2 Quellcode -Download

AVIDa SARS CoV 2

AI-Quellcode

1.0.0

Herunterladen

Ein SARS-CoV-2-Interaktionsdatensatz und ein VHH-Sequenzkorpus für Antikörpersprachmodelle

Dieses Repository enthält das ergänzende Material, das das Papier "A SARS-CoV-2-Interaktionsdatensatz und VHH-Sequenzkorpus für Antikörpersprachenmodelle" begleitet. In diesem Artikel haben wir Avida-SARS-CoV-2, einen gekennzeichneten Datensatz von SARS-CoV-2-VHH-Interaktionen, und VHHCorpus-2M eingeführt, das über zwei Millionen VHH-Sequenzen enthält, die neuartige Datensätze für die Bewertung und Vorabbildung von Antikörpersprachmodellen bereitstellen. Die Datensätze sind unter https://datasets.cognanous.com unter einer CC BY-NC 4.0-Lizenz verfügbar.

Datensatz-Generation-Übersicht

Überblick über den Datengenerierungsprozess für Avida-SARS-CoV-2.

Inhaltsverzeichnis

Umfeld
Datensätze
- Links
- Datenverarbeitung
Benchmarks
- Vorausbildung
- Feinabstimmung
Zitat

Umfeld

Klonen Sie dieses Repository, um zu beginnen, und führen Sie den folgenden Befehl aus, um eine virtuelle Umgebung zu erstellen.

python -m venv ./venv
source ./venv/bin/activate
pip install -r requirements.txt

Datensätze

Links

Datensatz	Links
Vhhcorpus-2m	Umarmung der Gesichts -Hub -Projektseite
Avida-SARS-COV-2	Umarmung der Gesichts -Hub -Projektseite

Datenverarbeitung

Der Code zum Konvertieren der Rohdaten (FASTQ-Datei), die aus der Sequenzierung der nächsten Generation (NGS) in den gekennzeichneten Datensatz Avida-SARS-CoV-2 erhalten wurde, finden Sie unter ./dataset . Wir haben die Fastq -Dateien für den Antigentyp "OC43" hier veröffentlicht, damit die Datenverarbeitung reproduziert werden kann.

Zuerst müssen Sie ein Docker -Bild erstellen.

docker build -t vhh_constructor:latest ./dataset/vhh_constructor

Führen Sie nach dem Platzieren der Fastq -Dateien unter dataset/raw/fastq den folgenden Befehl aus, um eine gekennzeichnete CSV -Datei auszugeben.

bash ./dataset/preprocess.sh

Benchmarks

Vorausbildung

VHHBERT ist ein in Roberta ansässiges Modell, das auf zwei Millionen VHH-Sequenzen in VHHCorpus-2M vorgebracht ist. Vhhbert kann mit den folgenden Befehlen vorgeblendet werden.

python benchmarks/pretrain.py --vocab-file " benchmarks/data/vocab_vhhbert.txt " 
  --epochs 20 
  --batch-size 128 
  --save-dir " outputs "

Argumente:

Argument	Erforderlich	Standard	Beschreibung
-Vocab-Datei	Ja		Pfad der Wortschatzdatei
--epochs	NEIN	20	Anzahl der Epochen
-Batchgröße	NEIN	128	Größe des Mini-Batch
--Samen	NEIN	123	Zufälliger Samen
-Save-Dir	NEIN	./Save	Pfad des Save -Verzeichnisses

Der vorgeborene Vhhbert, der unter der MIT-Lizenz veröffentlicht wurde, ist im Umarmungs-Face-Hub erhältlich.

Feinabstimmung

Um die Leistung verschiedener vorgebildeter Sprachmodelle für die Entdeckung von Antikörpern zu bewerten, haben wir eine binäre Klassifizierungsaufgabe definiert, um die Bindung oder Nichtbindung unbekannter Antikörper gegen 13 Antigene mit Avida-SARS-CoV-2 vorherzusagen. Weitere Informationen zur Benchmarking -Aufgabe finden Sie in der Zeitung.

Die Feinabstimmung der Sprachmodelle kann mit dem folgenden Befehl durchgeführt werden.

python benchmarks/finetune.py --palm-type " VHHBERT " 
  --epochs 30 
  --batch-size 32 
  --save-dir " outputs "

palm-type muss einer der folgenden sein:

VHHBERT
VHHBERT-w/o-PT
AbLang
AntiBERTa2
AntiBERTa2-CSSP
IgBert
ProtBert
ESM-2-150M
ESM-2-650M

Argumente:

Argument	Erforderlich	Standard	Beschreibung
-Palm-Typ	NEIN	Vhhbert	Modellname
-Embeddings-Datei	NEIN	./benchmarks/data/anigen_embeddings.pkl	Pfad der Einbettungsdatei für Antigene
--epochs	NEIN	20	Anzahl der Epochen
-Batchgröße	NEIN	128	Größe des Mini-Batch
--Samen	NEIN	123	Zufälliger Samen
-Save-Dir	NEIN	./Save	Pfad des Save -Verzeichnisses

Zitat

Wenn Sie Avida-SARS-COV-2, VHHCORPUS-2M oder VHHBERT in Ihrer Forschung verwenden, verwenden Sie bitte das folgende Zitat.

 @inproceedings { tsuruta2024sars ,
  title = { A {SARS}-{C}o{V}-2 Interaction Dataset and {VHH} Sequence Corpus for Antibody Language Models } ,
  author = { Hirofumi Tsuruta and Hiroyuki Yamazaki and Ryota Maeda and Ryotaro Tamura and Akihiro Imura } ,
  booktitle = { Advances in Neural Information Processing Systems 37 } ,
  year = { 2024 }
}