Téléchargement Progen - Téléchargement du code source Progen

Progen

Autre code source

1.0.0

Télécharger

Multi-modalité

Anéminer

Mise en œuvre de progenes dans Pytorch, à partir de l'article "Progen: Modélisation du langage pour la génération de protéines"

GPT pour les séquences de protéines

Lien papier

Appréciation

Lucidrains
Agoriens

Installer

pip install progen-torch

Usage

 import torch
from progen . model import ProGen

x = torch . randint ( 0 , 100 , ( 1 , 1024 ))

# Initialize the model with specific parameters
model = ProGen (
    num_tokens = 100 ,  # The size of the vocabulary
    dim = 512 ,  # The dimension of the embeddings
    seq_len = 1024 ,  # The length of the sequences
    depth = 6 ,  # The number of layers in the model
    window_size = 256 ,  # The size of the window for local attention
    global_mlp_depth = 2 ,  # The depth of the MLP in the global attention mechanism
    heads = 8 ,  # The number of attention heads
    dim_head = 512 ,  # The dimension of each attention head
    ff_mult = 4 ,  # The multiplier for the feed-forward network's hidden layer size
    ff_glu = True ,  # Whether to use a GLU activation in the feed-forward network
    attn_dim = None ,  # The dimension of the attention mechanism (None means it defaults to `dim`)
    clamp_gate = True ,  # Whether to clamp the gate values in the GLU activation
    shift_tokens = True ,  # Whether to shift the tokens for the causal attention mechanism
    dropout = 0.1 ,  # The dropout rate
)

# Forward pass through the model
logits = model ( x )

# The output is the logits for each token in the vocabulary, for each position in the input sequences
# Shape: (batch_size, sequence_length, num_tokens)
print ( logits . shape )  # Should print: torch.Size([1, 1024, 100])

Stratégie d'ensemble de données

Voici un tableau des ensembles de données utilisés dans le document avec des métadonnées et des liens source:

Ensemble de données	Description	Source
Uniparc	Contient des séquences protéiques de diverses sources	https://www.uniprot.org/uniparc/
Uniprotkb	Contient des séquences de protéines et des annotations	https://www.uniprot.org/uniprot/
Suisse	Base de données de séquence protéique organisée	https://www.uniprot.org/swiss-prot/
Trembler	Séquences protéiques annotées par ordinateur	https://www.uniprot.org/trembl/
Pfam	Base de données des familles de protéines	https://pfam.xfam.org/
Taxonomie NCBI	Classification taxonomique des organismes	https://www.ncbi.nlm.nih.gov/taxonomy

Voici un diagramme montrant le flux de prétraitement des données:

 graphique TD
    A [UniParc] -> B [filtre et fusion]
    C [Uniprotkb] -> b
    D [Swiss-Prot] -> être [Trembl] -> B
    F [pfam] -> b
    G [taxonomie NCBI] -> b
    B -> h [Train / Test Split]
    H -> i [Train Set]
    H -> J [Test ID Set] 
    H -> k [ensemble de tests OOD]

Les ensembles de données UNICARC, UniprotKB, Swiss-Prot, Trembl, PFAM et NCBI sont filtrés et fusionnés à l'étape B. L'ensemble de données agrégé est ensuite divisé en formation, test en distribution et tests de test de distribution à l'étape H.

Licence

Mit

Citations

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-03-08
taille 212.98KB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout