Téléchargement ProREM - Téléchargement du code source ProREM

ProREM

Code Source AI

1.0.0

Télécharger

Maîtrise des mutations améliorées à la récupération: augmentation de la prédiction de la langue des protéines du modèle

Introduction (Promem)

cadre

? Résultats

Nouvelles

[2024.10.21]

Téléchargements

Séquences d'homologie de Proteingym A2M (évacles): https://huggingface.co/datasets/tyang816/prorem/blob/main/aa_seq_aln_a2m.tar.gz. Les fichiers A2M originaux sont téléchargés sur Proteingym.
Séquences d'homologie de Proteingym A3M (Colabfold): https://huggingface.co/datasets/tyang816/prorem/blob/main/aa_seq_aln_a3m.tar.gz
Base de données UNIREF 100: https://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref100/uniref100.fasta.gz

Résultats du papier

tab1

? Exigence

Environnement conda

Veuillez vous assurer que vous avez installé ANACONDA3 ou MINICONDA3 .

 conda env create -f environment.yml
conda activate prorem

# We need HMMER and EVCouplings for MSA
# pip install hmmer
# pip install https://github.com/debbiemarkslab/EVcouplings/archive/develop.zip

Autre exigence

Installez PLMC et modifiez le chemin dans src/single_config_monomer.txt

git clone https://github.com/debbiemarkslab/plmc.git
cd plmc
make all-openmp

Matériel

Pour une utilisation directe de l'inférence, nous recommandons au moins 10 g de mémoire graphique, comme RTX 3080
Pour la recherche de séquences d'homologie, 8 cœurs CPU.

? Prédiction zéro-shot pour les mutants

Évaluation sur Proteingym

Préparez-vous aux données traitées

 cd data/proteingym_v1
wget https://huggingface.co/datasets/tyang816/ProREM/blob/main/aa_seq_aln_a2m.tar.gz
# unzip homology files
tar -xzf aa_seq_aln_a2m.tar.gz
# unzip fasta sequence files
tar -xzf aa_seq.tar.gz
# unzip pdb structure files
tar -xzf pdbs.tar.gz
# unzip structure sequence files
tar -xzf struc_seq.tar.gz
# unzip DMS substitution csv files
tar -xzf substitutions.tar.gz

Démarrer l'inférence

protein_dir=proteingym_v1
python compute_fitness.py 
    --base_dir data/ $protein_dir 
    --out_scores_dir result/ $protein_dir

Votre propre ensemble de données

Ce dont vous avez besoin au moins

data/ < your_protein_dir_name >
| ——aa_seq # amino acid sequences
| —— | ——protein1.fasta
| —— | ——protein2.fasta
| ——aa_seq_aln_a2m # homology sequences of EVCouplings
| —— | ——protein1.a2m
| —— | ——protein2.a2m
| ——pdbs # structures
| —— | ——protein1.pdb
| —— | ——protein2.pdb
| ——struc_seq # structure sequences
| —— | ——protein1.fasta
| —— | ——protein2.fasta
| ——substitutions # mutant files
| —— | ——protein1.csv
| —— | ——protein2.csv

Rechercher des séquences d'homologie de Jackhmmer

 # step 1: search homology sequences
# your protein name, eg. fluorescent_protein
protein_dir= < your_protein_dir_name >
# your protein path, eg. data/fluorescent_protein/aa_seq/GFP.fasta
query_protein_name= < your_protein_name >
protein_path=data/ $protein_dir /aa_seq/ $query_protein_name .fasta
# your uniprot dataset path
database= < your_path > /uniref100.fasta
evcouplings 
    -P output/ $protein_dir / $query_protein_name 
    -p $query_protein_name 
    -s $protein_path 
    -d $database 
    -b " 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 " 
    -n 5 src/single_config_monomer.txt
#  ? Repeat the searching process until all your proteins are done

# step 2: select a2m file
protein_dir= < your_protein_dir_name >
python src/data/select_msa.py 
    --input_dir output/ $protein_dir 
    --output_dir data/ $protein_dir

Obtenez des fichiers PDB pour votre protéine

Vous pouvez utiliser Alphafold3 Server, AlphaFold Database, ESMfold et d'autres outils pour obtenir des structures.

Pour les expériences de laboratoire humide, essayez d'obtenir des structures de haute qualité que possible que possible.

Obtenez des séquences de structure pour PLM

protein_dir= < your_protein_dir_name >
python src/data/get_struc_seq.py 
    --pdb_dir data/ $protein_dir /pdbs 
    --out_dir data/ $protein_dir /struc_seq

Démarrer l'inférence

protein_dir= < your_protein_dir_name >
python compute_fitness.py 
    --base_dir data/ $protein_dir 
    --out_scores_dir result/ $protein_dir

Autres outils d'évolution dirigés

Vous pouvez utiliser ProtSSSN (Elife 2024) ou PROSST (INIPS 2024).

Questions

Q: Comment convertir rapidement le format d'entrée du prorème en protsss ou prosst?

R: Pour la conversion entre le prorém et les formats d'entrée ProtSSSN, vous pouvez vous référer à script/data_format_convert.sh . Pour le prosst, JSUT change l'alpha en 0.

protein_dir= < your_protein_dir_name >
python compute_fitness.py 
    --base_dir data/ $protein_dir 
    --out_scores_dir result/ $protein_dir 
    --alpha 0 
    --model_out_name ProSST-2048

Q: Quelle est la différence entre les protsss, le prosst et le progée?

R: ProtSSSN utilise la modélisation au niveau des coordonnées des acides aminés, les modèles PROSST sur la structure locale et le prorème introduit explicitement les informations MSA. Ils ont chacun leurs propres avantages et inconvénients dans une évaluation expérimentale réelle.

? Citation

Veuillez citer notre travail si vous avez utilisé notre code ou nos données.

 @article{tan2024prorem,
  title={Retrieval-Enhanced Mutation Mastery: Augmenting Zero-Shot Prediction of Protein Language Model},
  author={Tan, Yang and Wang, Ruilin and Wu, Banghao and Hong, Liang and Zhou, Bingxin},
  journal={arXiv:2410.21127},
  year={2024}
}

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-10
taille 220.76MB
Provenant de Github

Applications connexes

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout