Descargar AVIDa SARS CoV 2 - AVIDa SARS CoV 2 Source Code Download

AVIDa SARS CoV 2

Código Fuente de IA

1.0.0

Descargar

Un conjunto de datos de interacción SARS-Cov-2 y un corpus de secuencia VHH para modelos de lenguaje de anticuerpos

Este repositorio contiene el material complementario que acompaña al documento "un conjunto de datos de interacción SARS-CoV-2 y Corpus de secuencia VHH para modelos de lenguaje de anticuerpos". En este documento, introdujimos AVIDA-SARS-COV-2, un conjunto de datos etiquetado de interacciones SARS-CoV-2-VHH, y VHHCorpus-2M, que contiene más de dos millones de secuencias VHH, proporcionando conjuntos de datos novedosos para la evaluación y la capacitación previa de modelos de lenguaje de anticuerpos. Los conjuntos de datos están disponibles en https://datasets.cognanous.com bajo una licencia CC BY-NC 4.0.

DataSet-Generation-Overview

Descripción general del proceso de generación de datos para AVIDA-SARS-CoV-2.

Tabla de contenido

Ambiente
Conjuntos de datos
- Campo de golf
- Proceso de datos
Puntos de referencia
- Pre-entrenamiento
- Sintonia FINA
Citación

Ambiente

Para comenzar, clone este repositorio y ejecute el siguiente comando para crear un entorno virtual.

python -m venv ./venv
source ./venv/bin/activate
pip install -r requirements.txt

Conjuntos de datos

Campo de golf

Conjunto de datos	Campo de golf
Vhhcorpus-2m	Página del proyecto de abrazo de cara de Face
Avida-sars-cov-2	Página del proyecto de abrazo de cara de Face

Proceso de datos

El código para convertir los datos sin procesar (archivo FASTQ) obtenido de la secuenciación de próxima generación (NGS) en el conjunto de datos etiquetado, AVIDA-SARS-CoV-2, se puede encontrar en ./dataset . Lanzamos los archivos FASTQ para el tipo de antígeno "OC43" aquí para que se pueda reproducir el procesamiento de datos.

Primero, debe crear una imagen Docker.

docker build -t vhh_constructor:latest ./dataset/vhh_constructor

Después de colocar los archivos FASTQ en dataset/raw/fastq , ejecute el siguiente comando para emitir un archivo CSV etiquetado.

bash ./dataset/preprocess.sh

Puntos de referencia

Pre-entrenamiento

Vhhbert es un modelo con sede en Roberta previamente entrenado en dos millones de secuencias VHH en VHHCorpus-2M. Vhhbert se puede capacitar previamente con los siguientes comandos.

python benchmarks/pretrain.py --vocab-file " benchmarks/data/vocab_vhhbert.txt " 
  --epochs 20 
  --batch-size 128 
  --save-dir " outputs "

Argumentos:

Argumento	Requerido	Por defecto	Descripción
-vocab-archivo	Sí		Ruta del archivo de vocabulario
-epochs	No	20	Número de épocas
--m.datess	No	128	Tamaño de mini lote
--semilla	No	123	Semilla aleatoria
--save-dirir	No	./	Ruta del directorio de guardado

El Vhhbert previamente entrenado, lanzado bajo la licencia MIT, está disponible en el Hub de la cara abrazada.

Sintonia FINA

Para evaluar el rendimiento de varios modelos de lenguaje previamente capacitados para el descubrimiento de anticuerpos, definimos una tarea de clasificación binaria para predecir la unión o no vinculante de anticuerpos desconocidos a 13 antígenos utilizando AVIDA-SARS-CoV-2. Para obtener más información sobre la tarea de evaluación comparativa, consulte el documento.

El ajuste de los modelos de lenguaje se puede realizar utilizando el siguiente comando.

python benchmarks/finetune.py --palm-type " VHHBERT " 
  --epochs 30 
  --batch-size 32 
  --save-dir " outputs "

palm-type debe ser uno de los siguientes:

VHHBERT
VHHBERT-w/o-PT
AbLang
AntiBERTa2
AntiBERTa2-CSSP
IgBert
ProtBert
ESM-2-150M
ESM-2-650M

Argumentos:

Argumento	Requerido	Por defecto	Descripción
--lipal	No	Vhhbert	Nombre del modelo
--Imbeddings-File	No	./benchmarks/data/antigen_embeddings.pkl	Ruta del archivo de incrustaciones para antígenos
-epochs	No	20	Número de épocas
--m.datess	No	128	Tamaño de mini lote
--semilla	No	123	Semilla aleatoria
--save-dirir	No	./	Ruta del directorio de guardado

Citación

Si usa Avida-Sars-Cov-2, Vhhcorpus-2m o Vhhbert en su investigación, utilice la siguiente cita.

 @inproceedings { tsuruta2024sars ,
  title = { A {SARS}-{C}o{V}-2 Interaction Dataset and {VHH} Sequence Corpus for Antibody Language Models } ,
  author = { Hirofumi Tsuruta and Hiroyuki Yamazaki and Ryota Maeda and Ryotaro Tamura and Akihiro Imura } ,
  booktitle = { Advances in Neural Information Processing Systems 37 } ,
  year = { 2024 }
}

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-10
tamaño 9.04MB
Proviene de Github

Aplicaciones relacionadas

Matar piso 2

2023-08-07
Cómo escapar 2

2023-06-28
Caballito de la vida 2

2023-06-27
Cruzado de la Fortaleza 2

2022-09-04
Yakuza Kiwami 2

2022-09-03
Castillo Woodwarf 2

2022-08-30

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo