AVIDa SARS CoV 2 Download - AVIDa SARS CoV 2

AVIDa SARS CoV 2

Código-Fonte de IA

1.0.0

Baixar

Um conjunto de dados de interação SARS-COV-2 e corpus de sequência VHH para modelos de linguagem anticorpo

Este repositório contém o material suplementar que acompanha o artigo "Um conjunto de dados de interação SARS-CoV-2 e corpus de sequência VHH para modelos de linguagem de anticorpos". Neste artigo, introduzimos o AVIDA-SARS-COV-2, um conjunto de dados rotulado de interações SARS-CoV-2-VHH, e VHHCorpus-2M, que contém mais de dois milhões de sequências VHH, fornecendo novos conjuntos de dados para a avaliação e pré-treinamento de modelos de linguagem de anticorpos. Os conjuntos de dados estão disponíveis em https://datasets.cognansous.com sob uma licença CC BY-NC 4.0.

DataSet-Geração-Overview

Visão geral do processo de geração de dados para AVIDA-SARS-COV-2.

Índice

Ambiente
Conjuntos de dados
- Links
- Processamento de dados
Benchmarks
- Pré-treinamento
- Afinação
Citação

Ambiente

Para começar, clone este repositório e execute o comando a seguir para criar um ambiente virtual.

python -m venv ./venv
source ./venv/bin/activate
pip install -r requirements.txt

Conjuntos de dados

Links

Conjunto de dados	Links
Vhhcorpus-2m	Hub de abraçar a página do projeto do hub
AVIDA-SARS-COV-2	Hub de abraçar a página do projeto do hub

Processamento de dados

O código para converter os dados brutos (arquivo FastQ) obtido do sequenciamento de próxima geração (NGS) no conjunto de dados rotulado, Avida-SARS-Cov-2, pode ser encontrado em ./dataset . Lançamos os arquivos FastQ para o tipo de antígeno "OC43" aqui para que o processamento de dados possa ser reproduzido.

Primeiro, você precisa criar uma imagem do Docker.

docker build -t vhh_constructor:latest ./dataset/vhh_constructor

Depois de colocar os arquivos FastQ em dataset/raw/fastq , execute o comando a seguir para produzir um arquivo CSV rotulado.

bash ./dataset/preprocess.sh

Benchmarks

Pré-treinamento

Vhhbert é um modelo baseado em Roberta pré-treinado em dois milhões de sequências VHH em VHHCorpus-2M. Vhhbert pode ser pré-treinado com os seguintes comandos.

python benchmarks/pretrain.py --vocab-file " benchmarks/data/vocab_vhhbert.txt " 
  --epochs 20 
  --batch-size 128 
  --save-dir " outputs "

Argumentos:

Argumento	Obrigatório	Padrão	Descrição
-File-vocab	Sim		Caminho do arquivo de vocabulário
--epochs	Não	20	Número de épocas
-tamanho do lote	Não	128	Tamanho do mini-lote
--semente	Não	123	Semente aleatória
--save-Dir	Não	./Saved	Caminho do diretório salvo

O Vhhbert pré-treinado, divulgado sob a licença do MIT, está disponível no Hugging Face Hub.

Afinação

Para avaliar o desempenho de vários modelos de idiomas pré-treinados para a descoberta de anticorpos, definimos uma tarefa de classificação binária para prever a ligação ou a não ligação de anticorpos desconhecidos a 13 antígenos usando AVIDA-SARS-COV-2. Para obter mais informações sobre a tarefa de benchmarking, consulte o artigo.

O ajuste fino dos modelos de idiomas pode ser executado usando o seguinte comando.

python benchmarks/finetune.py --palm-type " VHHBERT " 
  --epochs 30 
  --batch-size 32 
  --save-dir " outputs "

palm-type deve ser um dos seguintes:

VHHBERT
VHHBERT-w/o-PT
AbLang
AntiBERTa2
AntiBERTa2-CSSP
IgBert
ProtBert
ESM-2-150M
ESM-2-650M

Argumentos:

Argumento	Obrigatório	Padrão	Descrição
--Palm-tipo	Não	Vhhbert	Nome do modelo
-Eembeddings-File	Não	./benchmarks/data/antigen_embeddings.pkl	Caminho do arquivo de incorporação para antígenos
--epochs	Não	20	Número de épocas
-tamanho do lote	Não	128	Tamanho do mini-lote
--semente	Não	123	Semente aleatória
--save-Dir	Não	./Saved	Caminho do diretório salvo

Citação

Se você usar Avida-SARS-Cov-2, VHHCorpus-2M ou Vhhbert em sua pesquisa, use a seguinte citação.

 @inproceedings { tsuruta2024sars ,
  title = { A {SARS}-{C}o{V}-2 Interaction Dataset and {VHH} Sequence Corpus for Antibody Language Models } ,
  author = { Hirofumi Tsuruta and Hiroyuki Yamazaki and Ryota Maeda and Ryotaro Tamura and Akihiro Imura } ,
  booktitle = { Advances in Neural Information Processing Systems 37 } ,
  year = { 2024 }
}

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-10
tamanho 9.04MB
Vindo de Github

Aplicativos Relacionados

Matar Andar 2

2023-08-07
Como 2 escapam

2023-06-28
Vida de cavalinho 2

2023-06-27
Cruzado da Fortaleza 2

2022-09-04
Yakuza Kiwami 2

2022-09-03
Castelo Woodwarf 2

2022-08-30

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos