Bio -Einbettungen
Ressourcen zum Erlernen von Bio_embedings:
- Die Proteinstruktur und -funktion schnell aus der Sequenz über Einbettungen vorhersagen: embo.protein.properties.
- Lesen Sie die aktuelle Dokumentation: docs.bioembeddings.com.
- Chat mit uns: chat.bioembeddings.com.
- Wir haben die Pipeline bio_embeddings als Vortrag bei ISMB 2020 & LMRL 2020 präsentiert. Sie können das Vortrag auf YouTube, das Poster auf F1000 und unser aktuelles Protokollmanuskript finden.
- Schauen Sie sich die
examples für Pipeline -Konfigurationen A und notebooks an.
Projektziele:
- Erleichterung der Verwendung von Sprachmodellbasis biologische Sequenzdarstellungen zum Übertragungslernen durch Bereitstellung einer einzelnen konsistenten Schnittstelle und Null-Null
- Reproduzierbare Workflows
- Repräsentationstiefe (verschiedene Modelle aus verschiedenen Labors, die für verschiedene Zwecke auf verschiedenen Datensatz geschult wurden)
- Umfangreiche Beispiele, die Komplexität für Benutzer (z. B. CUDA OOM -Abstraktion) und gut dokumentierte Warnungen und Fehlermeldungen.
Das Projekt enthält:
- Allzwecke Python -Einbettungen basierend auf offenen Modellen, die auf biologischen Sequenzdarstellungen ausgebildet sind (Seqvec, Prottrans, Unirep, ...)
- Eine Pipeline, die:
- Einbettet Sequenzen in Matrixrepräsentationen (Per-Amino-Säure) oder Vektorrepräsentationen (pro Sequenz), mit denen Lernmodelle oder für analytische Zwecke trainiert werden können
- Projekte pro-sequenzembedidngs in niedrigere dimensionale Darstellungen unter Verwendung von UMAP oder T-SNE (für Lightwireght-Datenhandhabung und Visualisierungen)
- Visualisiert niedrige dimensionale Sätze von Pro-Sequenz-Einbettungen auf 2D- und 3D-interaktive Diagramme (mit und ohne Anmerkungen)
- Auszüge Annotationen aus Per-Sequenz- und Per-Aminosäure-Einbettungen unter Verwendung von beaufsichtigten (sofern verfügbar) und unbeaufsichtigten Ansätzen (z. B. durch Netzwerkanalyse)
- Ein Webserver, der die Pipeline in eine verteilte API für skalierbare und konsistente Workfolws einbringt
Installation
Sie können bio_embeddings über PIP installieren oder sie über Docker verwenden. Beachten Sie die zusätzlichen Abhängigkeiten für align .
Pip
Installieren Sie die Pipeline und alle Extras wie SO:
pip install bio-embeddings[all]
Um die instabile Version zu installieren, installieren Sie bitte die Pipeline wie SO:
pip install -U " bio-embeddings[all] @ git+https://github.com/sacdallago/bio_embeddings.git "
Wenn Sie nur ein bestimmtes Modell (z. B. ein ESM- oder Prottransmodell) ausführen müssen, können Sie Bio-Embeddings ohne Abhängigkeiten installieren und dann die modellspezifische Abhängigkeit installieren, z. B.:
pip install bio-embeddings
pip install bio-embeddings[prottrans]
Die Extras sind:
- seqvec
- Prottrans
- prottrans_albert_bfd
- prottrans_bert_bfd
- prottrans_t5_bfd
- prottrans_t5_uniref50
- prottrans_t5_xl_u50
- prottrans_xlnet_uniref100
- ESM
- Unirep
- CPCPROT
- Plus
- brüge
- Deepblast
Docker
Wir bieten ein Docker -Bild unter ghcr.io/bioembeddings/bio_embeddings . Einfaches Nutzungsbeispiel:
docker run --rm --gpus all
-v "$(pwd)/examples/docker":/mnt
-v bio_embeddings_weights_cache:/root/.cache/bio_embeddings
-u $(id -u ${USER}):$(id -g ${USER})
ghcr.io/bioembeddings/bio_embeddings:v0.1.6 /mnt/config.yml
Anweisungen finden Sie im Beispiel docker im examples -Ordner. Sie können auch ghcr.io/bioembeddings/bio_embeddings:latest verwenden, das aus dem neuesten Commit basiert.
Abhängigkeiten
Um das Protokoll mmseqs_search oder die mmsesq2 -Funktionen in align zu verwenden, müssen Sie zusätzlich MMSEQS2 auf Ihrem Pfad haben.
Installationsnotizen
bio_embeddings wurde für Unix -Maschinen mit GPU -Funktionen entwickelt und CUDA installiert. Wenn Ihr Setup davon abweist, können Sie auf einige Inkonsistenzen stoßen (z. B. die Geschwindigkeit wird durch das Fehlen einer GPU und CUDA erheblich beeinflusst). Für Windows -Benutzer empfehlen wir dringend die Verwendung von Windows Subsystem für Linux.
Welches Modell ist richtig für Sie?
Jedes Models hat seine Stärken und Schwächen (Geschwindigkeit, Spezifität, Memory Footprint ...). Es gibt keine "Eins-Fits-All" und wir ermutigen Sie, beim Versuch eines neuen Erkundungsprojekts zumindest zwei verschiedene Modelle auszuprobieren.
Die Modelle prottrans_t5_xl_u50 , esm1b , esm , prottrans_bert_bfd , prottrans_albert_bfd , seqvec und prottrans_xlnet_uniref100 wurden alle mit dem Ziel systematischer Vorhersagen geschult. Aus diesem Pool glauben wir, dass das optimale Modell für prottrans_t5_xl_u50 , gefolgt von esm1b ist.
Verwendung und Beispiele
Wir empfehlen Ihnen dringend, den examples Ordner für Pipeline-Beispiele und den notebooks -Ordner für die Nachbearbeitungspipeline und die Verwendung der Einscheiben für die Verarbeitung von Pipeline zu überprüfen.
Nachdem Sie das Paket installiert haben, können Sie:
Verwenden Sie die Pipeline wie:
bio_embeddings config.yml
Eine Blaupause der Konfigurationsdatei und ein Beispiel -Setup finden Sie im examples dieses Repositorys.
Verwenden Sie die allgemeinen Einbettungsobjekte über Python, z. B.:
from bio_embeddings . embed import SeqVecEmbedder
embedder = SeqVecEmbedder ()
embedding = embedder . embed ( "SEQVENCE" )
Weitere Beispiele finden Sie im notebooks -Ordner dieses Repositorys.
Zitieren
Wenn Sie bio_embeddings für Ihre Recherche verwenden, würden wir es uns freuen, wenn Sie das folgende Papier zitieren könnten:
Dallago, C., Schütze, K., Heinzinger, M., Olenyi, T., Littmann, M., Lu, Ax, Yang, KK, Min, S., Yoon, S., Morton, JT & Rost, B. (2021). Erfahrene Einbettungen aus dem tiefen Lernen, um Proteinsätze zu visualisieren und vorherzusagen. Stromprotokolle, 1, E113. doi: 10.1002/cpz1.113
Das entsprechende Bibtex:
@article{https://doi.org/10.1002/cpz1.113,
author = {Dallago, Christian and Schütze, Konstantin and Heinzinger, Michael and Olenyi, Tobias and Littmann, Maria and Lu, Amy X. and Yang, Kevin K. and Min, Seonwoo and Yoon, Sungroh and Morton, James T. and Rost, Burkhard},
title = {Learned Embeddings from Deep Learning to Visualize and Predict Protein Sets},
journal = {Current Protocols},
volume = {1},
number = {5},
pages = {e113},
keywords = {deep learning embeddings, machine learning, protein annotation pipeline, protein representations, protein visualization},
doi = {https://doi.org/10.1002/cpz1.113},
url = {https://currentprotocols.onlinelibrary.wiley.com/doi/abs/10.1002/cpz1.113},
eprint = {https://currentprotocols.onlinelibrary.wiley.com/doi/pdf/10.1002/cpz1.113},
year = {2021}
}
Additionally, we invite you to cite the work from others that was collected in `bio_embeddings` (see section _"Tools by category"_ below). We are working on an enhanced user guide which will include proper references to all citable work collected in `bio_embeddings`.
Mitwirkende
- Christian Dallago (Lead)
- Konstantin Schütze
- Tobias Olenyi
- Michael Heinzinger
Möchten Sie Ihr eigenes Modell hinzufügen? Siehe Anweisungen für Anweisungen.
Nicht-exponierende Liste der verfügbaren Tools (finden Sie im folgenden Abschnitt für weitere Einzelheiten):
- Fastext
- Handschuh
- Word2Vec
- SEQVEC (https://bmcbioinformatics.biomedcentral.com/articles/10.1186/S12859-019-3220-8)
- Seqvecsec und seqvecloc für sekundäre Struktur und subzelluläreLokalisation Vorhersage
- Prottrans (Protbert, Protalbert, Prott5) (https://doi.org/10.1101/2020.07.12.199554)
- Protbertsec und Protbertloc für Sekundärstruktur und subzelluläre Lokalisierungsvorhersage
- Unirep (https://www.nature.com/articles/s41592-019-0598-1)
- ESM/ESM1B (https://www.biorxiv.org/content/10.1101/622803v3)
- Plus (https://github.com/mswzeus/plus/)
- CPCPROT (https://www.biorxiv.org/content/10.1101/2020.09.04.283929v1.full.pdf)
- Pb-tucker (https://www.biorxiv.org/content/10.1101/2021.01.21.427551v1)
- Gopredsim (https://www.nature.com/articles/s41598-020-80786-0)
- Deepblast (https://www.biorxiv.org/content/10.1101/2020.11.03.365932v1)
Datensätze
-
prottrans_t5_xl_u50 Rest- und Sequenz-Einbettungen des menschlichen Proteoms bei voller Genauigkeit + Sekundärstruktur Vorhersagen + subzelluläre Lokalisierungsvorhersagen: -
prottrans_t5_xl_u50 Reste und Sequenzeinbettungen des Fliegenproteoms bei voller Genauigkeit + Sekundärstruktur Vorhersagen + subzelluläre Lokalisierungsvorhersagen + Erhaltung Vorhersage + Variationsvorhersage:
Tools nach Kategorie
Pipeline
- ausrichten:
- Deepblast (https://www.biorxiv.org/content/10.1101/2020.11.03.365932v1)
- einbetten:
- Prottrans Bert trainiert auf BFD (https://doi.org/10.1101/2020.07.12.199554)
- SEQVEC (https://bmcbioinformatics.biomedcentral.com/articles/10.1186/S12859-019-3220-8)
- Prottrans Albert trainiert auf BFD (https://doi.org/10.1101/2020.07.12.199554)
- Prottrans xlnet trainiert am UNIREF100 (https://doi.org/10.1101/2020.07.12.199554)
- Prottrans T5 ausgebildet auf BFD (https://doi.org/10.1101/2020.07.12.199554)
- Prottrans T5 trainiert auf BFD und fein abgestimmt auf UNIREF50 (intern)
- Unirep (https://www.nature.com/articles/s41592-019-0598-1)
- ESM/ESM1B (https://www.biorxiv.org/content/10.1101/622803v3)
- Plus (https://github.com/mswzeus/plus/)
- CPCPROT (https://www.biorxiv.org/content/10.1101/2020.09.04.283929v1.full.pdf)
- Projekt:
- T-Sne
- Umap
- Pb-tucker (https://www.biorxiv.org/content/10.1101/2021.01.21.427551v1)
- visualisieren:
- 2D/3D -Sequenz -Einbettungsraum
- Extrakt:
- beaufsichtigt:
- SEQVEC: DSSP3, DSSP8, Disorder, subzelluläre Standort und Membrangrenze wie in https://bmcbioinformatics.biomedcentral.com/articles/10.1186/S12859-019-3220-8
- Protbertsec und Protbertloc, wie in https://doi.org/10.1101/2020.07.12.199554 berichtet
- unbeaufsichtigt:
- über Sequenz-Level (record_embeding), paarweise Abstand (euklidisch wie gopredsim, mehr verfügbare Optionen, z. B. Cosinus)
Allzweck -Einbettungen
- Prottrans Bert trainiert auf BFD (https://doi.org/10.1101/2020.07.12.199554)
- SEQVEC (https://bmcbioinformatics.biomedcentral.com/articles/10.1186/S12859-019-3220-8)
- Prottrans Albert trainiert auf BFD (https://doi.org/10.1101/2020.07.12.199554)
- Prottrans xlnet trainiert am UNIREF100 (https://doi.org/10.1101/2020.07.12.199554)
- Prottrans T5 ausgebildet auf BFD (https://doi.org/10.1101/2020.07.12.199554)
- Prottrans T5, das auf BFD + gut ausgebildet ist, auf UNIREF50 (https://doi.org/10.1101/2020.07.12.199554)
- Fastext
- Handschuh
- Word2Vec
- Unirep (https://www.nature.com/articles/s41592-019-0598-1)
- ESM/ESM1B (https://www.biorxiv.org/content/10.1101/622803v3)
- Plus (https://github.com/mswzeus/plus/)
- CPCPROT (https://www.biorxiv.org/content/10.1101/2020.09.04.283929v1.full.pdf)