การฝังชีวภาพ
ทรัพยากรที่จะเรียนรู้เกี่ยวกับ bio_embeddings:
- ทำนายโครงสร้างโปรตีนและฟังก์ชั่นจากลำดับผ่าน Embeddings ได้อย่างรวดเร็ว: EMBED.PROTEIN.PROPERTIES
- อ่านเอกสารปัจจุบัน: docs.bioembeddings.com
- แชทกับเรา: chat.bioembeddings.com
- เรานำเสนอไปป์ไลน์ BIO_EMBEDDINGS เป็นการพูดคุยที่ ISMB 2020 & LMRL 2020 คุณสามารถค้นหาการพูดคุยบน YouTube, โปสเตอร์บน F1000 และต้นฉบับโปรโตคอลปัจจุบันของเรา
- ตรวจสอบ
examples ของการกำหนดค่าไปป์ไลน์ A และ notebooks
โครงการจุดมุ่งหมาย:
- อำนวยความสะดวกในการใช้การแสดงลำดับทางชีวภาพแบบจำลองภาษาสำหรับการถ่ายโอนการเรียนรู้โดยการจัดหาอินเทอร์เฟซที่สอดคล้องกันและใกล้เคียงกับศูนย์
- เวิร์กโฟลว์ที่ทำซ้ำได้
- ความลึกของการเป็นตัวแทน (โมเดลที่แตกต่างจากห้องปฏิบัติการต่าง ๆ ที่ได้รับการฝึกฝนในชุดข้อมูลที่แตกต่างกันเพื่อวัตถุประสงค์ที่แตกต่างกัน)
- ตัวอย่างที่กว้างขวางจัดการความซับซ้อนสำหรับผู้ใช้ (เช่น Cuda oom abstraction) และคำเตือนที่ได้รับการบันทึกไว้เป็นอย่างดีและข้อความแสดงข้อผิดพลาด
โครงการรวมถึง:
- จุดประสงค์ทั่วไป Python Embedders ขึ้นอยู่กับแบบจำลองแบบเปิดที่ได้รับการฝึกฝนเกี่ยวกับการเป็นตัวแทนลำดับทางชีวภาพ (Seqvec, Prottrans, Unirep, ... )
- ท่อซึ่ง:
- ฝังลำดับลงในการเป็นตัวแทนของเมทริกซ์ (ต่อ-อะมิโนกรด) หรือการเป็นตัวแทนของเวกเตอร์ (ต่อลำดับ) ที่สามารถใช้ในการฝึกอบรมแบบจำลองการเรียนรู้หรือเพื่อวัตถุประสงค์ในการวิเคราะห์
- โครงการต่อลำดับ EMBEDIDNGS ลงในการแสดงมิติที่ต่ำกว่าโดยใช้ UMAP หรือ T-SNE (สำหรับการจัดการข้อมูลและการสร้างภาพข้อมูล LIGHTWIEGHT)
- มองเห็นชุดมิติต่ำของการฝังต่อลำดับบนพล็อตแบบอินเทอร์แอคทีฟ 2D และ 3D (มีและไม่มีคำอธิบายประกอบ)
- สารสกัดคำอธิบายประกอบจากการฝังตัวต่อตามลำดับและต่อ-อะมิโน-กรด-โดยใช้วิธีการภายใต้การดูแล (เมื่อมี) และวิธีการที่ไม่ได้รับการดูแล (เช่นการวิเคราะห์เครือข่าย)
- เว็บเซิร์ฟเวอร์ที่ห่อท่อลงใน API แบบกระจายสำหรับ Workfolws ที่ปรับขนาดได้และสม่ำเสมอ
การติดตั้ง
คุณสามารถติดตั้ง bio_embeddings ผ่าน PIP หรือใช้งานผ่าน Docker โปรดทราบถึงการพึ่งพาเพิ่มเติมสำหรับ align
ปิ๊ก
ติดตั้งท่อ และความพิเศษทั้งหมด เช่น SO:
pip install bio-embeddings[all]
หากต้องการติดตั้งเวอร์ชันที่ไม่เสถียรโปรดติดตั้งท่อเช่น SO:
pip install -U " bio-embeddings[all] @ git+https://github.com/sacdallago/bio_embeddings.git "
หากคุณต้องการเรียกใช้โมเดลเฉพาะ (เช่นรุ่น ESM หรือ Prottrans) คุณสามารถติดตั้ง bio-embedings ได้โดยไม่ต้องพึ่งพาแล้วติดตั้งการพึ่งพาแบบจำลองเฉพาะเช่น::
pip install bio-embeddings
pip install bio-embeddings[prottrans]
ความพิเศษคือ:
- seqvec
- การปราบปราม
- prottrans_albert_bfd
- prottrans_bert_bfd
- prottrans_t5_bfd
- prottrans_t5_uniref50
- prottrans_t5_xl_u50
- prottrans_xlnet_uniref100
- ESM
- ไม่ได้
- CPCPROT
- บวก
- เนงกู้
- deepblast
นักเทียบท่า
เราให้ภาพนักเทียบท่าที่ ghcr.io/bioembeddings/bio_embeddings ตัวอย่างการใช้งานง่าย ๆ :
docker run --rm --gpus all
-v "$(pwd)/examples/docker":/mnt
-v bio_embeddings_weights_cache:/root/.cache/bio_embeddings
-u $(id -u ${USER}):$(id -g ${USER})
ghcr.io/bioembeddings/bio_embeddings:v0.1.6 /mnt/config.yml
ดูตัวอย่าง docker ในโฟลเดอร์ examples สำหรับคำแนะนำ นอกจากนี้คุณยังสามารถใช้ ghcr.io/bioembeddings/bio_embeddings:latest ซึ่งสร้างขึ้นจากการกระทำล่าสุด
การพึ่งพาอาศัยกัน
ในการใช้โปรโตคอล mmseqs_search หรือฟังก์ชั่น mmsesq2 ใน align คุณต้องมี MMSEQS2 ในเส้นทางของคุณ
บันทึกการติดตั้ง
bio_embeddings ได้รับการพัฒนาสำหรับเครื่อง UNIX ที่มีความสามารถ GPU และ CUDA ติดตั้ง หากการตั้งค่าของคุณแตกต่างจากสิ่งนี้คุณอาจพบกับความไม่สอดคล้องกันบางอย่าง (เช่นความเร็วได้รับผลกระทบอย่างมีนัยสำคัญจากการขาด GPU และ CUDA) สำหรับผู้ใช้ Windows เราขอแนะนำอย่างยิ่งให้ใช้ระบบย่อย Windows สำหรับ Linux
รุ่นใดที่เหมาะกับคุณ?
แต่ละรุ่นมีจุดแข็งและจุดอ่อน (ความเร็วความจำเพาะรอยเท้าหน่วยความจำ ... ) ไม่มี "หนึ่งพอดีกับทุกคน" และเราขอแนะนำให้คุณลองอย่างน้อยสองรุ่นที่แตกต่างกันเมื่อพยายามทำโครงการสำรวจใหม่
โมเดล prottrans_t5_xl_u50 , esm1b , esm , prottrans_bert_bfd , prottrans_albert_bfd , seqvec และ prottrans_xlnet_uniref100 ล้วนได้รับการฝึกฝนโดยมีเป้าหมายในการคาดการณ์อย่างเป็นระบบ จากพูลนี้เราเชื่อว่าโมเดลที่ดีที่สุดจะเป็น prottrans_t5_xl_u50 ตามด้วย esm1b
การใช้งานและตัวอย่าง
เราขอแนะนำให้คุณตรวจสอบโฟลเดอร์ examples สำหรับตัวอย่างไปป์ไลน์และโฟลเดอร์ notebooks สำหรับการทำงานของท่อส่งโพสต์และการใช้งานทั่วไปของ embedders
หลังจากติดตั้งแพ็คเกจแล้วคุณสามารถ:
ใช้ท่อเช่น:
bio_embeddings config.yml
พิมพ์เขียวของไฟล์การกำหนดค่าและการตั้งค่าตัวอย่างสามารถพบได้ในไดเรกทอรี examples ของที่เก็บนี้
ใช้วัตถุประสงค์ทั่วไปของวัตถุ Embedder ผ่าน Python เช่น:
from bio_embeddings . embed import SeqVecEmbedder
embedder = SeqVecEmbedder ()
embedding = embedder . embed ( "SEQVENCE" )
ตัวอย่างเพิ่มเติมสามารถพบได้ในโฟลเดอร์ notebooks ของที่เก็บนี้
อ้างถึง
หากคุณใช้ bio_embeddings สำหรับการวิจัยของคุณเราจะขอบคุณถ้าคุณสามารถอ้างอิงบทความต่อไปนี้:
Dallago, C. , Schütze, K. , Heinzinger, M. , Olenyi, T. , Littmann, M. , Lu, Axe, Yang, KK, Min, S. , Yoon, S. , Morton, JT, & Rost, B. (2021) เรียนรู้การฝังตัวจากการเรียนรู้อย่างลึกซึ้งเพื่อให้เห็นภาพและทำนายชุดโปรตีน โปรโตคอลปัจจุบัน, 1, E113 ดอย: 10.1002/cpz1.113
bibtex ที่เกี่ยวข้อง:
@article{https://doi.org/10.1002/cpz1.113,
author = {Dallago, Christian and Schütze, Konstantin and Heinzinger, Michael and Olenyi, Tobias and Littmann, Maria and Lu, Amy X. and Yang, Kevin K. and Min, Seonwoo and Yoon, Sungroh and Morton, James T. and Rost, Burkhard},
title = {Learned Embeddings from Deep Learning to Visualize and Predict Protein Sets},
journal = {Current Protocols},
volume = {1},
number = {5},
pages = {e113},
keywords = {deep learning embeddings, machine learning, protein annotation pipeline, protein representations, protein visualization},
doi = {https://doi.org/10.1002/cpz1.113},
url = {https://currentprotocols.onlinelibrary.wiley.com/doi/abs/10.1002/cpz1.113},
eprint = {https://currentprotocols.onlinelibrary.wiley.com/doi/pdf/10.1002/cpz1.113},
year = {2021}
}
Additionally, we invite you to cite the work from others that was collected in `bio_embeddings` (see section _"Tools by category"_ below). We are working on an enhanced user guide which will include proper references to all citable work collected in `bio_embeddings`.
ผู้มีส่วนร่วม
- Christian Dallago (ตะกั่ว)
- Konstantin Schütze
- Tobias Olenyi
- Michael Heinzinger
ต้องการเพิ่มโมเดลของคุณเองหรือไม่? ดูการมีส่วนร่วมสำหรับคำแนะนำ
รายการเครื่องมือที่ไม่ครบถ้วนสมบูรณ์ (ดูส่วนต่อไปนี้สำหรับรายละเอียดเพิ่มเติม):
- Fastext
- ถุงมือ
- Word2Vec
- seqvec (https://bmcbioinformatics.biomedcentral.com/articles/10.1186/S12859-019-3220-8)
- SEQVECSEC และ SEQVECLOC สำหรับโครงสร้างทุติยภูมิและการทำนาย subcellularlocalization
- Prottrans (Protbert, Protalbert, Prott5) (https://doi.org/10.1101/2020.07.12.199554)
- Protbertsec และ ProtbertLoc สำหรับโครงสร้างทุติยภูมิและการทำนายการโลคัลเซลล์ย่อย
- Unirep (https://www.nature.com/articles/S41592-019-0598-1)
- ESM/ESM1B (https://www.biorxiv.org/content/10.1101/622803V3)
- บวก (https://github.com/mswzeus/plus/)
- CPCPROT (https://www.biorxiv.org/content/10.1101/2020.09.04.283929V1.full.pdf)
- pb-tucker (https://www.biorxiv.org/content/10.1101/2021.01.21.427551V1)
- gopredsim (https://www.nature.com/articles/S41598-020-80786-0)
- DeepBlast (https://www.biorxiv.org/content/10.1101/2020.11.03.365932V1)
ชุดข้อมูล
-
prottrans_t5_xl_u50 ตกค้างและการฝังลำดับของ โปรตีโอของมนุษย์ ที่ความแม่นยำเต็มรูปแบบ + การทำนายโครงสร้างรอง + การทำนายการแปลเซลล์ย่อยย่อย: -
prottrans_t5_xl_u50 ตกค้างและการฝังลำดับของ การบิน proteome ที่ความแม่นยำเต็มรูปแบบ + การทำนายโครงสร้างรอง + การทำนายการวางโลคัลเซลล์ย่อย + การทำนายการอนุรักษ์ + การทำนายการเปลี่ยนแปลง:
เครื่องมือตามหมวดหมู่
ท่อส่ง
- Align:
- DeepBlast (https://www.biorxiv.org/content/10.1101/2020.11.03.365932V1)
- ฝัง:
- Prottrans Bert ได้รับการฝึกฝนเกี่ยวกับ BFD (https://doi.org/10.1101/2020.07.12.199554)
- seqvec (https://bmcbioinformatics.biomedcentral.com/articles/10.1186/S12859-019-3220-8)
- Prottrans Albert ได้รับการฝึกฝนเกี่ยวกับ BFD (https://doi.org/10.1101/2020.07.12.199554)
- Prottrans XLNET ได้รับการฝึกฝนเกี่ยวกับ Uniref100 (https://doi.org/10.1101/2020.07.12.199554)
- Prottrans T5 ได้รับการฝึกฝนเกี่ยวกับ BFD (https://doi.org/10.1101/2020.07.12.199554)
- Prottrans T5 ได้รับการฝึกฝนเกี่ยวกับ BFD และปรับแต่งบน Uniref50 (ในบ้าน)
- Unirep (https://www.nature.com/articles/S41592-019-0598-1)
- ESM/ESM1B (https://www.biorxiv.org/content/10.1101/622803V3)
- บวก (https://github.com/mswzeus/plus/)
- CPCPROT (https://www.biorxiv.org/content/10.1101/2020.09.04.283929V1.full.pdf)
- โครงการ:
- T-Sne
- umap
- pb-tucker (https://www.biorxiv.org/content/10.1101/2021.01.21.427551V1)
- ภาพ:
- สารสกัด:
- ดูแล:
- SEQVEC: DSSP3, DSSP8, ความผิดปกติ, ตำแหน่ง subcellular และขอบเขตของเมมเบรนเช่นเดียวกับใน https://bmcbioinformatics.biomedcentral.com/articles/10.1186/S12859-019-3220-8
- Protbertsec และ ProtbertLoc ตามที่รายงานใน https://doi.org/10.1101/2020.07.12.199554
- ไม่ได้รับการดูแล:
- ผ่านระดับลำดับ (ลดลง _Embeddings) ระยะทางคู่ (แบบยุคลิดเช่น Gopredsim ตัวเลือกเพิ่มเติมเช่นโคไซน์)
จุดประสงค์ทั่วไป
- Prottrans Bert ได้รับการฝึกฝนเกี่ยวกับ BFD (https://doi.org/10.1101/2020.07.12.199554)
- seqvec (https://bmcbioinformatics.biomedcentral.com/articles/10.1186/S12859-019-3220-8)
- Prottrans Albert ได้รับการฝึกฝนเกี่ยวกับ BFD (https://doi.org/10.1101/2020.07.12.199554)
- Prottrans XLNET ได้รับการฝึกฝนเกี่ยวกับ Uniref100 (https://doi.org/10.1101/2020.07.12.199554)
- Prottrans T5 ได้รับการฝึกฝนเกี่ยวกับ BFD (https://doi.org/10.1101/2020.07.12.199554)
- Prottrans T5 ได้รับการฝึกฝนเกี่ยวกับ BFD + ปรับแต่งบน Uniref50 (https://doi.org/10.1101/2020.07.12.199554)
- Fastext
- ถุงมือ
- Word2Vec
- Unirep (https://www.nature.com/articles/S41592-019-0598-1)
- ESM/ESM1B (https://www.biorxiv.org/content/10.1101/622803V3)
- บวก (https://github.com/mswzeus/plus/)
- CPCPROT (https://www.biorxiv.org/content/10.1101/2020.09.04.283929V1.full.pdf)