生物嵌入
了解bio_embeddings的资源:
- 快速通过嵌入从序列中预测蛋白质的结构和功能:嵌入蛋白。
- 阅读当前文档:docs.bioembeddings.com。
- 与我们聊天:chat.bioembeddings.com。
- 我们在ISMB 2020&lmrl 2020上向Bio_embeddings管道展示了一个谈话。您可以在YouTube上找到谈话,F1000上的海报以及我们当前的协议手稿。
- 查看管道配置A和
notebooks的examples 。
项目目的:
- 通过提供单个,一致的界面和接近零摩擦的方式来促进基于语言模型的生物学序列表示进行转移学习
- 可再现的工作流程
- 表示深度(出于不同目的,在不同数据集上训练的不同实验室的不同模型)
- 广泛的示例,处理用户的复杂性(例如CUDA OOM抽象)以及有记录的警告和错误消息。
该项目包括:
- 通用Python嵌入基于对生物序列表示训练的开放模型(SeqVec,Prottrans,Unirep,...)
- 管道:
- 将序列嵌入矩阵呈现(每氨基酸)或矢量代理(每个序列)中,可用于训练学习模型或用于分析目的
- 使用UMAP或T-SNE(用于LightWieght数据处理和可视化),将每个序列的项目嵌入较低的维表示中
- 可视化低维的每个序列嵌入到2D和3D互动图上的集合(带有和没有注释)
- 使用监督(可用)和无监督方法(例如,通过网络分析)中的每序列和氨基酸嵌入中提取注释
- 将管道包裹到分布式API中的网络服务器,以进行可扩展和一致的工作组合
安装
您可以通过PIP安装bio_embeddings或通过Docker使用它。介意align其他依赖关系。
pip
安装管道和所有额外功能:
pip install bio-embeddings[all]
要安装不稳定版本,请这样安装管道:
pip install -U " bio-embeddings[all] @ git+https://github.com/sacdallago/bio_embeddings.git "
如果您只需要运行特定的模型(例如ESM或Prottrans模型),则可以安装无依赖性的生物件,然后安装特定于模型的依赖项,例如:
pip install bio-embeddings
pip install bio-embeddings[prottrans]
附加功能是:
- seqvec
- pert射线
- prottrans_albert_bfd
- prottrans_bert_bfd
- prottrans_t5_bfd
- prottrans_t5_uniref50
- prottrans_t5_xl_u50
- prottrans_xlnet_uniref100
- ESM
- Unirep
- CPCPROT
- 加
- 贝普勒
- 深色
Docker
我们在ghcr.io/bioembeddings/bio_embeddings上提供Docker图像。简单用法示例:
docker run --rm --gpus all
-v "$(pwd)/examples/docker":/mnt
-v bio_embeddings_weights_cache:/root/.cache/bio_embeddings
-u $(id -u ${USER}):$(id -g ${USER})
ghcr.io/bioembeddings/bio_embeddings:v0.1.6 /mnt/config.yml
有关说明,请参见examples文件夹中的docker示例。您还可以使用ghcr.io/bioembeddings/bio_embeddings:latest ,它是根据最新提交而构建的。
依赖性
要使用mmseqs_search协议或align中的mmsesq2函数,您还需要在路径中具有MMSEQS2。
安装笔记
bio_embeddings是针对具有GPU功能和CUDA的UNIX机器开发的。如果您的设置与此分歧,则可能会遇到一些不一致之处(例如,速度受到GPU和CUDA的不存在的显着影响)。对于Windows用户,我们强烈建议将Windows子系统用于Linux。
哪种型号适合您?
每个模型都有其优点和劣势(速度,特异性,内存足迹...)。没有一个“一个合适的东西”,我们鼓励您在尝试新的探索项目时至少尝试两种不同的模型。
模型prottrans_t5_xl_u50 , esm1b , esm , prottrans_bert_bfd , prottrans_albert_bfd , seqvec和prottrans_xlnet_uniref100均经过培训,均受了系统预测的目标。从这个池中,我们认为最佳模型为prottrans_t5_xl_u50 ,其次是esm1b 。
用法和示例
我们强烈建议您查看examples文件夹中的管道示例,以及用于后处理管道运行和嵌入式通用使用的notebooks文件夹。
安装包装后,您可以:
使用类似的管道:
bio_embeddings config.yml
配置文件的蓝图以及在此存储库的examples目录中找到一个示例设置。
通过Python使用通用嵌入式对象,例如:
from bio_embeddings . embed import SeqVecEmbedder
embedder = SeqVecEmbedder ()
embedding = embedder . embed ( "SEQVENCE" )
可以在此存储库的notebooks文件夹中找到更多示例。
引用
如果您使用bio_embeddings进行研究,如果您可以引用以下论文,我们将不胜感激:
Dallago,C.,Schütze,K.,Heinzinger,M.,Olenyi,T.,Littmann,M.,Lu,ax,ax,yang,kk,Min,S.,Yoon,S.,Yoon,S.,Morton,JT,JT,&Rost,B。(2021)。从深度学习到可视化和预测蛋白质集的学习嵌入。当前协议,1,E113。 doi:10.1002/cpz1.113
相应的bibtex:
@article{https://doi.org/10.1002/cpz1.113,
author = {Dallago, Christian and Schütze, Konstantin and Heinzinger, Michael and Olenyi, Tobias and Littmann, Maria and Lu, Amy X. and Yang, Kevin K. and Min, Seonwoo and Yoon, Sungroh and Morton, James T. and Rost, Burkhard},
title = {Learned Embeddings from Deep Learning to Visualize and Predict Protein Sets},
journal = {Current Protocols},
volume = {1},
number = {5},
pages = {e113},
keywords = {deep learning embeddings, machine learning, protein annotation pipeline, protein representations, protein visualization},
doi = {https://doi.org/10.1002/cpz1.113},
url = {https://currentprotocols.onlinelibrary.wiley.com/doi/abs/10.1002/cpz1.113},
eprint = {https://currentprotocols.onlinelibrary.wiley.com/doi/pdf/10.1002/cpz1.113},
year = {2021}
}
Additionally, we invite you to cite the work from others that was collected in `bio_embeddings` (see section _"Tools by category"_ below). We are working on an enhanced user guide which will include proper references to all citable work collected in `bio_embeddings`.
贡献者
- 克里斯蒂安·达拉戈(Lead)
- KonstantinSchütze
- Tobias Olenyi
- 迈克尔·海因辛格(Michael Heinzinger)
想添加自己的模型吗?请参阅有关说明的贡献。
可用工具的非排量清单(有关更多详细信息,请参见以下部分):
- FastExt
- 手套
- Word2Vec
- seqvec(https://bmcbioinformatics.biomedcentral.com/articles/10.1186/S12859-019-019-3220-8)
- seqvecsec和seqvecloc用于二级结构和亚细胞置换预测
- pertrans(Protbert,Protalbert,Prott5)(https://doi.org/10.1101/2020.07.12.12.199554)
- Protbertsec和Protbertloc用于二级结构和亚细胞定位预测
- Unirep(https://www.nature.com/articles/s41592-019-0598-1)
- ESM/ESM1B(https://www.biorxiv.org/content/10.1101/622803v3)
- 加(https://github.com/mswzeus/plus/)
- cpcprot(https://www.biorxiv.org/content/10.1101/2020.09.09.04.283929v1.full.pdf)
- pb-tucker(https://www.biorxiv.org/content/10.1101/2021.01.21.427551v1)
- gopredsim(https://www.nature.com/articles/s41598-020-80786-0)
- DeepBlast(https://www.biorxiv.org/content/10.1101/2020.11.11.03.365932v1)
数据集
prottrans_t5_xl_u50在完全精确 +二级结构预测 +亚细胞定位预测的人蛋白质组的残基和序列嵌入:-
prottrans_t5_xl_u50在完全精确 +二级结构预测 +亚细胞定位预测预测 +保护预测 +变化预测的情况下,蝇蛋白组的残基和序列嵌入:
按类别进行工具
管道
- 对齐:
- DeepBlast(https://www.biorxiv.org/content/10.1101/2020.11.11.03.365932v1)
- 嵌入:
- BFD培训的pertrans Bert(https://doi.org/10.1101/2020.07.12.199554)
- seqvec(https://bmcbioinformatics.biomedcentral.com/articles/10.1186/S12859-019-019-3220-8)
- pertrans Albert接受了BFD培训(https://doi.org/10.1101/2020.07.12.199554)
- 在UNIREF100培训的prottrans XLNET(https://doi.org/10.1101/2020.07.12.199554)
- Prottrans T5接受了BFD培训(https://doi.org/10.1101/2020.07.12.199554)
- Prottrans T5在BFD上训练,并在UNIREF50(内部)进行了微调
- Unirep(https://www.nature.com/articles/s41592-019-0598-1)
- ESM/ESM1B(https://www.biorxiv.org/content/10.1101/622803v3)
- 加(https://github.com/mswzeus/plus/)
- cpcprot(https://www.biorxiv.org/content/10.1101/2020.09.09.04.283929v1.full.pdf)
- 项目:
- T-SNE
- UMAP
- pb-tucker(https://www.biorxiv.org/content/10.1101/2021.01.21.427551v1)
- 可视化:
- 提炼:
- 监督:
- SEQVEC:DSSP3,DSSP8,混乱,亚细胞位置和膜界限如https://bmcbioinformatics.biomedcentral.com/articles/articles/10.1186/s12859-019-019-3220-8
- https://doi.org/10.1101/2020.07.12.199554中报道
- 无监督:
- 通过序列级别(reduced_embeddings),成对距离(欧几里得,像gopredsim,更多的选项,例如余弦)
通用嵌入者
- BFD培训的pertrans Bert(https://doi.org/10.1101/2020.07.12.199554)
- seqvec(https://bmcbioinformatics.biomedcentral.com/articles/10.1186/S12859-019-019-3220-8)
- pertrans Albert接受了BFD培训(https://doi.org/10.1101/2020.07.12.199554)
- 在UNIREF100培训的prottrans XLNET(https://doi.org/10.1101/2020.07.12.199554)
- Prottrans T5接受了BFD培训(https://doi.org/10.1101/2020.07.12.199554)
- Prottrans T5在UNIREF50上接受了BFD +微调培训(https://doi.org/10.1101/2020.07.12.199554)
- FastExt
- 手套
- Word2Vec
- Unirep(https://www.nature.com/articles/s41592-019-0598-1)
- ESM/ESM1B(https://www.biorxiv.org/content/10.1101/622803v3)
- 加(https://github.com/mswzeus/plus/)
- cpcprot(https://www.biorxiv.org/content/10.1101/2020.09.09.04.283929v1.full.pdf)