生物嵌入
了解bio_embeddings的資源:
- 快速通過嵌入從序列中預測蛋白質的結構和功能:嵌入蛋白。
- 閱讀當前文檔:docs.bioembeddings.com。
- 與我們聊天:chat.bioembeddings.com。
- 我們在ISMB 2020&lmrl 2020上向Bio_embeddings管道展示了一個談話。您可以在YouTube上找到談話,F1000上的海報以及我們當前的協議手稿。
- 查看管道配置A和
notebooks的examples 。
項目目的:
- 通過提供單個,一致的界面和接近零摩擦的方式來促進基於語言模型的生物學序列表示進行轉移學習
- 可再現的工作流程
- 表示深度(出於不同目的,在不同數據集上訓練的不同實驗室的不同模型)
- 廣泛的示例,處理用戶的複雜性(例如CUDA OOM抽象)以及有記錄的警告和錯誤消息。
該項目包括:
- 通用Python嵌入基於對生物序列表示訓練的開放模型(SeqVec,Prottrans,Unirep,...)
- 管道:
- 將序列嵌入矩陣呈現(每氨基酸)或矢量代理(每個序列)中,可用於訓練學習模型或用於分析目的
- 使用UMAP或T-SNE(用於LightWieght數據處理和可視化),將每個序列的項目嵌入較低的維表示中
- 可視化低維的每個序列嵌入到2D和3D互動圖上的集合(帶有和沒有註釋)
- 使用監督(可用)和無監督方法(例如,通過網絡分析)中的每序列和氨基酸嵌入中提取註釋
- 將管道包裹到分佈式API中的網絡服務器,以進行可擴展和一致的工作組合
安裝
您可以通過PIP安裝bio_embeddings或通過Docker使用它。介意align其他依賴關係。
pip
安裝管道和所有額外功能:
pip install bio-embeddings[all]
要安裝不穩定版本,請這樣安裝管道:
pip install -U " bio-embeddings[all] @ git+https://github.com/sacdallago/bio_embeddings.git "
如果您只需要運行特定的模型(例如ESM或Prottrans模型),則可以安裝無依賴性的生物件,然後安裝特定於模型的依賴項,例如:
pip install bio-embeddings
pip install bio-embeddings[prottrans]
附加功能是:
- seqvec
- pert射線
- prottrans_albert_bfd
- prottrans_bert_bfd
- prottrans_t5_bfd
- prottrans_t5_uniref50
- prottrans_t5_xl_u50
- prottrans_xlnet_uniref100
- ESM
- Unirep
- CPCPROT
- 加
- 貝普勒
- 深色
Docker
我們在ghcr.io/bioembeddings/bio_embeddings上提供Docker圖像。簡單用法示例:
docker run --rm --gpus all
-v "$(pwd)/examples/docker":/mnt
-v bio_embeddings_weights_cache:/root/.cache/bio_embeddings
-u $(id -u ${USER}):$(id -g ${USER})
ghcr.io/bioembeddings/bio_embeddings:v0.1.6 /mnt/config.yml
有關說明,請參見examples文件夾中的docker示例。您還可以使用ghcr.io/bioembeddings/bio_embeddings:latest ,它是根據最新提交而構建的。
依賴性
要使用mmseqs_search協議或align中的mmsesq2函數,您還需要在路徑中具有MMSEQS2。
安裝筆記
bio_embeddings是針對具有GPU功能和CUDA的UNIX機器開發的。如果您的設置與此分歧,則可能會遇到一些不一致之處(例如,速度受到GPU和CUDA的不存在的顯著影響)。對於Windows用戶,我們強烈建議將Windows子系統用於Linux。
哪種型號適合您?
每個模型都有其優點和劣勢(速度,特異性,內存足跡...)。沒有一個“一個合適的東西”,我們鼓勵您在嘗試新的探索項目時至少嘗試兩種不同的模型。
模型prottrans_t5_xl_u50 , esm1b , esm , prottrans_bert_bfd , prottrans_albert_bfd , seqvec和prottrans_xlnet_uniref100均經過培訓,均受了系統預測的目標。從這個池中,我們認為最佳模型為prottrans_t5_xl_u50 ,其次是esm1b 。
用法和示例
我們強烈建議您查看examples文件夾中的管道示例,以及用於後處理管道運行和嵌入式通用使用的notebooks文件夾。
安裝包裝後,您可以:
使用類似的管道:
bio_embeddings config.yml
配置文件的藍圖以及在此存儲庫的examples目錄中找到一個示例設置。
通過Python使用通用嵌入式對象,例如:
from bio_embeddings . embed import SeqVecEmbedder
embedder = SeqVecEmbedder ()
embedding = embedder . embed ( "SEQVENCE" )
可以在此存儲庫的notebooks文件夾中找到更多示例。
引用
如果您使用bio_embeddings進行研究,如果您可以引用以下論文,我們將不勝感激:
Dallago,C.,Schütze,K.,Heinzinger,M.,Olenyi,T.,Littmann,M.,Lu,ax,ax,yang,kk,Min,S.,Yoon,S.,Yoon,S.,Morton,JT,JT,&Rost,B。 (2021)。從深度學習到可視化和預測蛋白質集的學習嵌入。當前協議,1,E113。 doi:10.1002/cpz1.113
相應的bibtex:
@article{https://doi.org/10.1002/cpz1.113,
author = {Dallago, Christian and Schütze, Konstantin and Heinzinger, Michael and Olenyi, Tobias and Littmann, Maria and Lu, Amy X. and Yang, Kevin K. and Min, Seonwoo and Yoon, Sungroh and Morton, James T. and Rost, Burkhard},
title = {Learned Embeddings from Deep Learning to Visualize and Predict Protein Sets},
journal = {Current Protocols},
volume = {1},
number = {5},
pages = {e113},
keywords = {deep learning embeddings, machine learning, protein annotation pipeline, protein representations, protein visualization},
doi = {https://doi.org/10.1002/cpz1.113},
url = {https://currentprotocols.onlinelibrary.wiley.com/doi/abs/10.1002/cpz1.113},
eprint = {https://currentprotocols.onlinelibrary.wiley.com/doi/pdf/10.1002/cpz1.113},
year = {2021}
}
Additionally, we invite you to cite the work from others that was collected in `bio_embeddings` (see section _"Tools by category"_ below). We are working on an enhanced user guide which will include proper references to all citable work collected in `bio_embeddings`.
貢獻者
- 克里斯蒂安·達拉戈(Lead)
- KonstantinSchütze
- Tobias Olenyi
- 邁克爾·海因辛格(Michael Heinzinger)
想添加自己的模型嗎?請參閱有關說明的貢獻。
可用工具的非排量清單(有關更多詳細信息,請參見以下部分):
- FastExt
- 手套
- Word2Vec
- seqvec(https://bmcbioinformatics.biomedcentral.com/articles/10.1186/S12859-019-019-3220-8)
- seqvecsec和seqvecloc用於二級結構和亞細胞置換預測
- pertrans(Protbert,Protalbert,Prott5)(https://doi.org/10.1101/2020.07.12.12.199554)
- Protbertsec和Protbertloc用於二級結構和亞細胞定位預測
- Unirep(https://www.nature.com/articles/s41592-019-0598-1)
- ESM/ESM1B(https://www.biorxiv.org/content/10.1101/622803v3)
- 加(https://github.com/mswzeus/plus/)
- cpcprot(https://www.biorxiv.org/content/10.1101/2020.09.09.04.283929v1.full.pdf)
- pb-tucker(https://www.biorxiv.org/content/10.1101/2021.01.21.427551v1)
- gopredsim(https://www.nature.com/articles/s41598-020-80786-0)
- DeepBlast(https://www.biorxiv.org/content/10.1101/2020.11.11.03.365932v1)
數據集
prottrans_t5_xl_u50在完全精確 +二級結構預測 +亞細胞定位預測的人蛋白質組的殘基和序列嵌入:-
prottrans_t5_xl_u50在完全精確 +二級結構預測 +亞細胞定位預測預測 +保護預測 +變化預測的情況下,蠅蛋白組的殘基和序列嵌入:
按類別進行工具
管道
- 對齊:
- DeepBlast(https://www.biorxiv.org/content/10.1101/2020.11.11.03.365932v1)
- 嵌入:
- BFD培訓的pertrans Bert(https://doi.org/10.1101/2020.07.12.199554)
- seqvec(https://bmcbioinformatics.biomedcentral.com/articles/10.1186/S12859-019-019-3220-8)
- pertrans Albert接受了BFD培訓(https://doi.org/10.1101/2020.07.12.199554)
- 在UNIREF100培訓的prottrans XLNET(https://doi.org/10.1101/2020.07.12.199554)
- Prottrans T5接受了BFD培訓(https://doi.org/10.1101/2020.07.12.199554)
- Prottrans T5在BFD上訓練,並在UNIREF50(內部)進行了微調
- Unirep(https://www.nature.com/articles/s41592-019-0598-1)
- ESM/ESM1B(https://www.biorxiv.org/content/10.1101/622803v3)
- 加(https://github.com/mswzeus/plus/)
- cpcprot(https://www.biorxiv.org/content/10.1101/2020.09.09.04.283929v1.full.pdf)
- 專案:
- T-SNE
- UMAP
- pb-tucker(https://www.biorxiv.org/content/10.1101/2021.01.21.427551v1)
- 可視化:
- 提煉:
- 監督:
- SEQVEC:DSSP3,DSSP8,混亂,亞細胞位置和膜界限如https://bmcbioinformatics.biomedcentral.com/articles/articles/10.1186/s12859-019-019-3220-8
- https://doi.org/10.1101/2020.07.12.199554中報導
- 無監督:
- 通過序列級別(reduced_embeddings),成對距離(歐幾里得,像gopredsim,更多的選項,例如餘弦)
通用嵌入者
- BFD培訓的pertrans Bert(https://doi.org/10.1101/2020.07.12.199554)
- seqvec(https://bmcbioinformatics.biomedcentral.com/articles/10.1186/S12859-019-019-3220-8)
- pertrans Albert接受了BFD培訓(https://doi.org/10.1101/2020.07.12.199554)
- 在UNIREF100培訓的prottrans XLNET(https://doi.org/10.1101/2020.07.12.199554)
- Prottrans T5接受了BFD培訓(https://doi.org/10.1101/2020.07.12.199554)
- Prottrans T5在UNIREF50上接受了BFD +微調培訓(https://doi.org/10.1101/2020.07.12.199554)
- FastExt
- 手套
- Word2Vec
- Unirep(https://www.nature.com/articles/s41592-019-0598-1)
- ESM/ESM1B(https://www.biorxiv.org/content/10.1101/622803v3)
- 加(https://github.com/mswzeus/plus/)
- cpcprot(https://www.biorxiv.org/content/10.1101/2020.09.09.04.283929v1.full.pdf)