bio_embeddings Download - bio_embeddings Quellcode Download

bio_embeddings

AI-Quellcode

v0.2.2

Herunterladen

Bio -Einbettungen

Ressourcen zum Erlernen von Bio_embedings:

Die Proteinstruktur und -funktion schnell aus der Sequenz über Einbettungen vorhersagen: embo.protein.properties.
Lesen Sie die aktuelle Dokumentation: docs.bioembeddings.com.
Chat mit uns: chat.bioembeddings.com.
Wir haben die Pipeline bio_embeddings als Vortrag bei ISMB 2020 & LMRL 2020 präsentiert. Sie können das Vortrag auf YouTube, das Poster auf F1000 und unser aktuelles Protokollmanuskript finden.
Schauen Sie sich die examples für Pipeline -Konfigurationen A und notebooks an.

Projektziele:

Erleichterung der Verwendung von Sprachmodellbasis biologische Sequenzdarstellungen zum Übertragungslernen durch Bereitstellung einer einzelnen konsistenten Schnittstelle und Null-Null
Reproduzierbare Workflows
Repräsentationstiefe (verschiedene Modelle aus verschiedenen Labors, die für verschiedene Zwecke auf verschiedenen Datensatz geschult wurden)
Umfangreiche Beispiele, die Komplexität für Benutzer (z. B. CUDA OOM -Abstraktion) und gut dokumentierte Warnungen und Fehlermeldungen.

Das Projekt enthält:

Allzwecke Python -Einbettungen basierend auf offenen Modellen, die auf biologischen Sequenzdarstellungen ausgebildet sind (Seqvec, Prottrans, Unirep, ...)
Eine Pipeline, die:
- Einbettet Sequenzen in Matrixrepräsentationen (Per-Amino-Säure) oder Vektorrepräsentationen (pro Sequenz), mit denen Lernmodelle oder für analytische Zwecke trainiert werden können
- Projekte pro-sequenzembedidngs in niedrigere dimensionale Darstellungen unter Verwendung von UMAP oder T-SNE (für Lightwireght-Datenhandhabung und Visualisierungen)
- Visualisiert niedrige dimensionale Sätze von Pro-Sequenz-Einbettungen auf 2D- und 3D-interaktive Diagramme (mit und ohne Anmerkungen)
- Auszüge Annotationen aus Per-Sequenz- und Per-Aminosäure-Einbettungen unter Verwendung von beaufsichtigten (sofern verfügbar) und unbeaufsichtigten Ansätzen (z. B. durch Netzwerkanalyse)
Ein Webserver, der die Pipeline in eine verteilte API für skalierbare und konsistente Workfolws einbringt

Installation

Sie können bio_embeddings über PIP installieren oder sie über Docker verwenden. Beachten Sie die zusätzlichen Abhängigkeiten für align .

Pip

Installieren Sie die Pipeline und alle Extras wie SO:

pip install bio-embeddings[all]

Um die instabile Version zu installieren, installieren Sie bitte die Pipeline wie SO:

pip install -U " bio-embeddings[all] @ git+https://github.com/sacdallago/bio_embeddings.git "

Wenn Sie nur ein bestimmtes Modell (z. B. ein ESM- oder Prottransmodell) ausführen müssen, können Sie Bio-Embeddings ohne Abhängigkeiten installieren und dann die modellspezifische Abhängigkeit installieren, z. B.:

pip install bio-embeddings
pip install bio-embeddings[prottrans]

Die Extras sind:

seqvec
Prottrans
- prottrans_albert_bfd
- prottrans_bert_bfd
- prottrans_t5_bfd
- prottrans_t5_uniref50
- prottrans_t5_xl_u50
- prottrans_xlnet_uniref100
ESM
- ESM
- ESM1B
- ESM1V
Unirep
CPCPROT
Plus
brüge
Deepblast

Docker

Wir bieten ein Docker -Bild unter ghcr.io/bioembeddings/bio_embeddings . Einfaches Nutzungsbeispiel:

 docker run --rm --gpus all 
    -v "$(pwd)/examples/docker":/mnt 
    -v bio_embeddings_weights_cache:/root/.cache/bio_embeddings 
    -u $(id -u ${USER}):$(id -g ${USER}) 
    ghcr.io/bioembeddings/bio_embeddings:v0.1.6 /mnt/config.yml

Anweisungen finden Sie im Beispiel docker im examples -Ordner. Sie können auch ghcr.io/bioembeddings/bio_embeddings:latest verwenden, das aus dem neuesten Commit basiert.

Abhängigkeiten

Um das Protokoll mmseqs_search oder die mmsesq2 -Funktionen in align zu verwenden, müssen Sie zusätzlich MMSEQS2 auf Ihrem Pfad haben.

Installationsnotizen

bio_embeddings wurde für Unix -Maschinen mit GPU -Funktionen entwickelt und CUDA installiert. Wenn Ihr Setup davon abweist, können Sie auf einige Inkonsistenzen stoßen (z. B. die Geschwindigkeit wird durch das Fehlen einer GPU und CUDA erheblich beeinflusst). Für Windows -Benutzer empfehlen wir dringend die Verwendung von Windows Subsystem für Linux.

Welches Modell ist richtig für Sie?

Jedes Models hat seine Stärken und Schwächen (Geschwindigkeit, Spezifität, Memory Footprint ...). Es gibt keine "Eins-Fits-All" und wir ermutigen Sie, beim Versuch eines neuen Erkundungsprojekts zumindest zwei verschiedene Modelle auszuprobieren.

Die Modelle prottrans_t5_xl_u50 , esm1b , esm , prottrans_bert_bfd , prottrans_albert_bfd , seqvec und prottrans_xlnet_uniref100 wurden alle mit dem Ziel systematischer Vorhersagen geschult. Aus diesem Pool glauben wir, dass das optimale Modell für prottrans_t5_xl_u50 , gefolgt von esm1b ist.

Verwendung und Beispiele

Wir empfehlen Ihnen dringend, den examples Ordner für Pipeline-Beispiele und den notebooks -Ordner für die Nachbearbeitungspipeline und die Verwendung der Einscheiben für die Verarbeitung von Pipeline zu überprüfen.

Nachdem Sie das Paket installiert haben, können Sie:

Verwenden Sie die Pipeline wie:
```
bio_embeddings config.yml
```
Eine Blaupause der Konfigurationsdatei und ein Beispiel -Setup finden Sie im examples dieses Repositorys.

Verwenden Sie die allgemeinen Einbettungsobjekte über Python, z. B.:

 from bio_embeddings . embed import SeqVecEmbedder

embedder = SeqVecEmbedder ()

embedding = embedder . embed ( "SEQVENCE" )

Weitere Beispiele finden Sie im notebooks -Ordner dieses Repositorys.

Zitieren

Wenn Sie bio_embeddings für Ihre Recherche verwenden, würden wir es uns freuen, wenn Sie das folgende Papier zitieren könnten:

Dallago, C., Schütze, K., Heinzinger, M., Olenyi, T., Littmann, M., Lu, Ax, Yang, KK, Min, S., Yoon, S., Morton, JT & Rost, B. (2021). Erfahrene Einbettungen aus dem tiefen Lernen, um Proteinsätze zu visualisieren und vorherzusagen. Stromprotokolle, 1, E113. doi: 10.1002/cpz1.113

Das entsprechende Bibtex:

 @article{https://doi.org/10.1002/cpz1.113,
author = {Dallago, Christian and Schütze, Konstantin and Heinzinger, Michael and Olenyi, Tobias and Littmann, Maria and Lu, Amy X. and Yang, Kevin K. and Min, Seonwoo and Yoon, Sungroh and Morton, James T. and Rost, Burkhard},
title = {Learned Embeddings from Deep Learning to Visualize and Predict Protein Sets},
journal = {Current Protocols},
volume = {1},
number = {5},
pages = {e113},
keywords = {deep learning embeddings, machine learning, protein annotation pipeline, protein representations, protein visualization},
doi = {https://doi.org/10.1002/cpz1.113},
url = {https://currentprotocols.onlinelibrary.wiley.com/doi/abs/10.1002/cpz1.113},
eprint = {https://currentprotocols.onlinelibrary.wiley.com/doi/pdf/10.1002/cpz1.113},
year = {2021}
}

Additionally, we invite you to cite the work from others that was collected in `bio_embeddings` (see section _"Tools by category"_ below). We are working on an enhanced user guide which will include proper references to all citable work collected in `bio_embeddings`.

Mitwirkende

Christian Dallago (Lead)
Konstantin Schütze
Tobias Olenyi
Michael Heinzinger

Möchten Sie Ihr eigenes Modell hinzufügen? Siehe Anweisungen für Anweisungen.

Nicht-exponierende Liste der verfügbaren Tools (finden Sie im folgenden Abschnitt für weitere Einzelheiten):

Fastext
Handschuh
Word2Vec
SEQVEC (https://bmcbioinformatics.biomedcentral.com/articles/10.1186/S12859-019-3220-8)
- Seqvecsec und seqvecloc für sekundäre Struktur und subzelluläreLokalisation Vorhersage
Prottrans (Protbert, Protalbert, Prott5) (https://doi.org/10.1101/2020.07.12.199554)
- Protbertsec und Protbertloc für Sekundärstruktur und subzelluläre Lokalisierungsvorhersage
Unirep (https://www.nature.com/articles/s41592-019-0598-1)
ESM/ESM1B (https://www.biorxiv.org/content/10.1101/622803v3)
Plus (https://github.com/mswzeus/plus/)
CPCPROT (https://www.biorxiv.org/content/10.1101/2020.09.04.283929v1.full.pdf)
Pb-tucker (https://www.biorxiv.org/content/10.1101/2021.01.21.427551v1)
Gopredsim (https://www.nature.com/articles/s41598-020-80786-0)
Deepblast (https://www.biorxiv.org/content/10.1101/2020.11.03.365932v1)

Datensätze

prottrans_t5_xl_u50 Rest- und Sequenz-Einbettungen des menschlichen Proteoms bei voller Genauigkeit + Sekundärstruktur Vorhersagen + subzelluläre Lokalisierungsvorhersagen:
prottrans_t5_xl_u50 Reste und Sequenzeinbettungen des Fliegenproteoms bei voller Genauigkeit + Sekundärstruktur Vorhersagen + subzelluläre Lokalisierungsvorhersagen + Erhaltung Vorhersage + Variationsvorhersage:

Tools nach Kategorie

Pipeline

ausrichten:
- Deepblast (https://www.biorxiv.org/content/10.1101/2020.11.03.365932v1)
einbetten:
- Prottrans Bert trainiert auf BFD (https://doi.org/10.1101/2020.07.12.199554)
- SEQVEC (https://bmcbioinformatics.biomedcentral.com/articles/10.1186/S12859-019-3220-8)
- Prottrans Albert trainiert auf BFD (https://doi.org/10.1101/2020.07.12.199554)
- Prottrans xlnet trainiert am UNIREF100 (https://doi.org/10.1101/2020.07.12.199554)
- Prottrans T5 ausgebildet auf BFD (https://doi.org/10.1101/2020.07.12.199554)
- Prottrans T5 trainiert auf BFD und fein abgestimmt auf UNIREF50 (intern)
- Unirep (https://www.nature.com/articles/s41592-019-0598-1)
- ESM/ESM1B (https://www.biorxiv.org/content/10.1101/622803v3)
- Plus (https://github.com/mswzeus/plus/)
- CPCPROT (https://www.biorxiv.org/content/10.1101/2020.09.04.283929v1.full.pdf)
Projekt:
- T-Sne
- Umap
- Pb-tucker (https://www.biorxiv.org/content/10.1101/2021.01.21.427551v1)
visualisieren:
- 2D/3D -Sequenz -Einbettungsraum
Extrakt:
- beaufsichtigt:
  - SEQVEC: DSSP3, DSSP8, Disorder, subzelluläre Standort und Membrangrenze wie in https://bmcbioinformatics.biomedcentral.com/articles/10.1186/S12859-019-3220-8
  - Protbertsec und Protbertloc, wie in https://doi.org/10.1101/2020.07.12.199554 berichtet
- unbeaufsichtigt:
  - über Sequenz-Level (record_embeding), paarweise Abstand (euklidisch wie gopredsim, mehr verfügbare Optionen, z. B. Cosinus)

Allzweck -Einbettungen

Prottrans Bert trainiert auf BFD (https://doi.org/10.1101/2020.07.12.199554)
SEQVEC (https://bmcbioinformatics.biomedcentral.com/articles/10.1186/S12859-019-3220-8)
Prottrans Albert trainiert auf BFD (https://doi.org/10.1101/2020.07.12.199554)
Prottrans xlnet trainiert am UNIREF100 (https://doi.org/10.1101/2020.07.12.199554)
Prottrans T5 ausgebildet auf BFD (https://doi.org/10.1101/2020.07.12.199554)
Prottrans T5, das auf BFD + gut ausgebildet ist, auf UNIREF50 (https://doi.org/10.1101/2020.07.12.199554)
Fastext
Handschuh
Word2Vec
Unirep (https://www.nature.com/articles/s41592-019-0598-1)
ESM/ESM1B (https://www.biorxiv.org/content/10.1101/622803v3)
Plus (https://github.com/mswzeus/plus/)
CPCPROT (https://www.biorxiv.org/content/10.1101/2020.09.04.283929v1.full.pdf)

Expandieren

Zusätzliche Informationen