바이오 임베딩
bio_embeddings에 대해 배우는 리소스 :
- 임베딩을 통해 서열에서 단백질 구조와 기능을 신속하게 예측합니다.
- 현재 문서를 읽으십시오 : docs.bioembeddings.com.
- 우리와 채팅 : chat.bioembeddings.com.
- 우리는 Bio_embeddings 파이프 라인을 ISMB 2020 & LMRL 2020에서 대화로 발표했습니다. YouTube, F1000의 포스터 및 현재 프로토콜 원고에서 대화를 찾을 수 있습니다.
- 파이프 라인 구성 A 및
notebooks 의 examples 확인하십시오.
프로젝트 목표 :
- 단일의 일관된 인터페이스와 가깝게 발전하여 전송 학습에 대한 언어 모델 기반 생물학적 서열 표현의 사용을 용이하게합니다.
- 재현 가능한 워크 플로
- 표현 깊이 (다른 목적을 위해 다른 데이터 세트에서 훈련 된 다른 실험실의 다른 모델)
- 광범위한 예, 사용자의 복잡성 (예 : Cuda OOM 추상화) 및 잘 문서화 된 경고 및 오류 메시지를 처리합니다.
프로젝트에는 다음이 포함됩니다.
- 생물학적 서열 표현에 대한 교육을받은 개방형 모델을 기반으로하는 범용 파이썬 임베더 (SEQVEC, Prottrans, Unirep, ...)
- 파이프 라인 :
- 학습 모델을 훈련시키는 데 사용하거나 분석 목적으로 사용될 수있는 매트릭스-발표 (아미노-세동) 또는 벡터-표현 (시퀀스)에 서열을 포함시킨다.
- UMAP 또는 T-SNE (Lightwieght 데이터 처리 및 시각화의 경우)을 사용하여 낮은 차원 표현으로의 시퀀스 당 형사 프로젝트
- 2D 및 3D 대화식 플롯으로 저 차원 적 순간 내장 세트를 시각화합니다 (주석이 있거나없는)
- 감독 된 (사용 가능한 경우) 및 감독되지 않은 접근 방식 (예 : 네트워크 분석에 의한)을 사용하여 시퀀스 및 아미노 별산 임베딩에서 주석을 추출합니다.
- 확장 가능하고 일관된 Workfolws를 위해 파이프 라인을 분산 API로 감싸는 웹 서버
설치
PIP를 통해 bio_embeddings 설치하거나 Docker를 통해 사용할 수 있습니다. align 에 대한 추가 의존성을 염두에 두십시오.
씨
파이프 라인 및와 같은 모든 추가 기능을 설치하십시오.
pip install bio-embeddings[all]
불안정한 버전을 설치하려면 다음과 같은 파이프 라인을 설치하십시오.
pip install -U " bio-embeddings[all] @ git+https://github.com/sacdallago/bio_embeddings.git "
특정 모델 (예 : ESM 또는 Prottrans 모델) 만 실행 해야하는 경우 종속성없이 바이오 엠 베드 딩을 설치 한 다음 모델 별 종속성을 설치할 수 있습니다.
pip install bio-embeddings
pip install bio-embeddings[prottrans]
엑스트라는 다음과 같습니다.
- Seqvec
- Prottrans
- prottrans_albert_bfd
- prottrans_bert_bfd
- prottrans_T5_BFD
- prottrans_t5_uniref50
- prottrans_T5_XL_U50
- prottrans_xlnet_uniref100
- ESM
- 단단한
- CPCPROT
- ...을 더한
- BEPLER
- 심해
도커
우리는 ghcr.io/bioembeddings/bio_embeddings 에서 docker 이미지를 제공합니다. 간단한 사용 예 :
docker run --rm --gpus all
-v "$(pwd)/examples/docker":/mnt
-v bio_embeddings_weights_cache:/root/.cache/bio_embeddings
-u $(id -u ${USER}):$(id -g ${USER})
ghcr.io/bioembeddings/bio_embeddings:v0.1.6 /mnt/config.yml
지침은 examples 폴더의 docker 예제를 참조하십시오. 최신 커밋에서 구축 된 ghcr.io/bioembeddings/bio_embeddings:latest 사용할 수도 있습니다.
의존성
mmseqs_search 프로토콜 또는 align 의 mmsesq2 기능을 사용하려면 경로에 MMSEQS2가 추가로 있어야합니다.
설치 노트
bio_embeddings GPU 기능과 CUDA가 설치된 UNIX 머신 용으로 개발되었습니다. 설정이 이로부터 발산되면 일부 불일치가 발생할 수 있습니다 (예 : 속도는 GPU 및 CUDA가 없으면 크게 영향을받습니다). Windows 사용자의 경우 Linux에 Windows 서브 시스템 사용을 강력히 권장합니다.
어떤 모델이 당신에게 적합합니까?
각 모델에는 강점과 약점 (속도, 특이성, 메모리 발자국 ...)이 있습니다. "일대일"은 없으며 새로운 탐색 프로젝트를 시도 할 때 최소한 두 가지 모델을 시도하도록 권장합니다.
모델 prottrans_t5_xl_u50 , esm1b , esm , prottrans_bert_bfd , prottrans_albert_bfd , seqvec 및 prottrans_xlnet_uniref100 은 모두 체계적인 예측의 목표로 훈련되었습니다. 이 풀에서 우리는 최적의 모델이 prottrans_t5_xl_u50 이고 esm1b 가 될 것이라고 생각합니다.
사용 및 예제
파이프 라인 예제의 examples 폴더와 사후 처리 파이프 라인 실행을위한 노트북 폴더 및 임베더의 범용 사용을위한 notebooks 폴더를 확인하는 것이 좋습니다.
패키지를 설치 한 후에는 다음을 수행 할 수 있습니다.
다음과 같은 파이프 라인을 사용하십시오.
bio_embeddings config.yml
구성 파일의 청사진 및 예제 설정은이 저장소의 examples 디렉토리에서 찾을 수 있습니다.
Python을 통해 범용 임베더 객체를 사용하십시오.
from bio_embeddings . embed import SeqVecEmbedder
embedder = SeqVecEmbedder ()
embedding = embedder . embed ( "SEQVENCE" )
더 많은 예제는이 저장소의 notebooks 폴더에서 찾을 수 있습니다.
인용문
연구에 bio_embeddings 사용하는 경우 다음 논문을 인용 할 수 있다면 감사하겠습니다.
Dallago, C., Schütze, K., Heinzinger, M., Olenyi, T., Littmann, M., Lu, Ax, Yang, KK, Min, S., Yoon, S., Morton, JT, & Rost, B. (2021). 딥 러닝에서 단백질 세트를 시각화하고 예측하기 위해 배웠습니다. 현재 프로토콜, 1, E113. doi : 10.1002/cpz1.113
해당 Bibtex :
@article{https://doi.org/10.1002/cpz1.113,
author = {Dallago, Christian and Schütze, Konstantin and Heinzinger, Michael and Olenyi, Tobias and Littmann, Maria and Lu, Amy X. and Yang, Kevin K. and Min, Seonwoo and Yoon, Sungroh and Morton, James T. and Rost, Burkhard},
title = {Learned Embeddings from Deep Learning to Visualize and Predict Protein Sets},
journal = {Current Protocols},
volume = {1},
number = {5},
pages = {e113},
keywords = {deep learning embeddings, machine learning, protein annotation pipeline, protein representations, protein visualization},
doi = {https://doi.org/10.1002/cpz1.113},
url = {https://currentprotocols.onlinelibrary.wiley.com/doi/abs/10.1002/cpz1.113},
eprint = {https://currentprotocols.onlinelibrary.wiley.com/doi/pdf/10.1002/cpz1.113},
year = {2021}
}
Additionally, we invite you to cite the work from others that was collected in `bio_embeddings` (see section _"Tools by category"_ below). We are working on an enhanced user guide which will include proper references to all citable work collected in `bio_embeddings`.
기고자
- Christian Dallago (리드)
- Konstantin Schütze
- 토비아스 올레니
- 마이클 하인 징거
자신의 모델을 추가하고 싶습니까? 지침에 대한 기고를 참조하십시오.
이용 가능한 도구 목록 (자세한 내용은 다음 섹션 참조) :
- Fastext
- 장갑
- Word2vec
- seqvec (https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-3220-8)
- 2 차 구조 및 하위 세포 국소화 예측에 대한 SEQVECSEC 및 SEQVECLOC
- Prottrans (Prolbert, Protalbert, Prott5) (https://doi.org/10.1101/2020.07.12.199554)
- 2 차 구조 및 하위 세포 지역화 예측을위한 횡단 량 및 횡단
- Unirep (https://www.nature.com/articles/s41592-019-0598-1)
- esm/esm1b (https://www.biorxiv.org/content/10.1101/622803v3)
- Plus (https://github.com/mswzeus/plus/)
- cpcprot (https://www.biorxiv.org/content/10.1101/2020.09.04.283929v1.full.pdf)
- pb-tucker (https://www.biorxiv.org/content/10.1101/2021.01.21.427551V1)
- Gopredsim (https://www.nature.com/articles/s41598-020-80786-0)
- DeepBlast (https://www.biorxiv.org/content/10.1101/2020.11.03.365932v1)
데이터 세트
-
prottrans_t5_xl_u50 전체 정밀도 + 2 차 구조 예측에서 인간 프로테옴 의 서열 임베딩 + 하위 세포 위치 예측 : -
prottrans_t5_xl_u50 전체 정밀도 + 2 차 구조 예측에서 플라이 프로테옴 의 잔류 물질 및 서열 내장 + 하위 세포 위치 예측 + 보존 예측 + 변동 예측 :
카테고리 별 도구
관로
- 맞추다:
- DeepBlast (https://www.biorxiv.org/content/10.1101/2020.11.03.365932v1)
- 포함시키다:
- Prottrans Bert는 BFD에서 교육을 받았습니다 (https://doi.org/10.1101/2020.07.12.199554)
- seqvec (https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-3220-8)
- Prottrans Albert는 BFD에서 교육을 받았습니다 (https://doi.org/10.1101/2020.07.12.199554)
- PROTTRANS XLNET UNIREF100에서 교육을 받았습니다 (https://doi.org/10.1101/2020.07.12.199554)
- Prottrans T5 BFD에 대한 교육 (https://doi.org/10.1101/2020.07.12.199554)
- Prottrans T5 BFD에 대한 교육 및 Uniref50 (사내)에서 미세 조정
- Unirep (https://www.nature.com/articles/s41592-019-0598-1)
- esm/esm1b (https://www.biorxiv.org/content/10.1101/622803v3)
- Plus (https://github.com/mswzeus/plus/)
- cpcprot (https://www.biorxiv.org/content/10.1101/2020.09.04.283929v1.full.pdf)
- 프로젝트:
- t-sne
- UMAP
- pb-tucker (https://www.biorxiv.org/content/10.1101/2021.01.21.427551V1)
- 시각화 :
- 발췌:
- 감독 :
- SEQVEC : DSSP3, DSSP8, DSSP8, 장애, https://bmcbioinformatics.biomedcentral.com/articles/10.1186/S12859-019-3220-8에서와 같이 세포 내 위치 및 막 경계
- https://doi.org/10.1101/2020.07.12.199554 에보 고 된 rbbertsec 및 rbbertloc
- 감독되지 않은 :
- 시퀀스 수준 (reted_embeddings), 쌍별 거리 (gopredsim과 같은 유클리드, 더 많은 옵션, 예 : 코사인)
범용 임베더
- Prottrans Bert는 BFD에서 교육을 받았습니다 (https://doi.org/10.1101/2020.07.12.199554)
- seqvec (https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-3220-8)
- Prottrans Albert는 BFD에서 교육을 받았습니다 (https://doi.org/10.1101/2020.07.12.199554)
- PROTTRANS XLNET UNIREF100에서 교육을 받았습니다 (https://doi.org/10.1101/2020.07.12.199554)
- Prottrans T5 BFD에 대한 교육 (https://doi.org/10.1101/2020.07.12.199554)
- Prottrans T5 Uniref50에서 BFD + 미세 조정 된 교육 (https://doi.org/10.1101/2020.07.12.199554)
- Fastext
- 장갑
- Word2vec
- Unirep (https://www.nature.com/articles/s41592-019-0598-1)
- esm/esm1b (https://www.biorxiv.org/content/10.1101/622803v3)
- Plus (https://github.com/mswzeus/plus/)
- cpcprot (https://www.biorxiv.org/content/10.1101/2020.09.04.283929v1.full.pdf)