Био -встраивание
Ресурсы, чтобы узнать о bio_embeddings:
- Быстро предсказать структуру и функцию белка из последовательности через встраивание: inter.protein.properties.
- Прочитайте текущую документацию: docs.bioembeddings.com.
- Общайтесь с нами: чат.bioembeddings.com.
- Мы представили конвейер Bio_embeddings в качестве разговора на ISMB 2020 & LMRL 2020. Вы можете найти разговор на YouTube, плакат на F1000 и нашу текущую рукопись протокола.
- Проверьте
examples конфигураций трубопроводов A и notebooks .
Цели проекта:
- Облегчить использование представлений биологической последовательности на основе языковых моделей для обучения переноса, предоставляя единый, последовательный интерфейс и близкий к нулевой форме
- Воспроизводимые рабочие процессы
- Глубина представления (разные модели от разных лабораторий, обученных в разных наборах данных для разных целей)
- Обширные примеры, обрабатывают сложность для пользователей (например, Cuda OOM Abstraction) и хорошо документированные предупреждения и сообщения об ошибках.
Проект включает в себя:
- Embedders Python общего назначения на основе открытых моделей, обученных представлениям биологической последовательности (SeqVec, Prottrans, Unirep, ...)
- Трубопровод, который:
- встроены последовательности в матричные репрессии (на аминокислоту) или векторные репрезентации (для последовательности), которые можно использовать для обучения моделей обучения или для аналитических целей
- Проекты по последовательности внедряют в более низкие представления с использованием UMAP или T-SNE (для обработки и визуализаций LightWieght)
- Визуализируют низкоразмерные наборы встроенных в последовательность на 2D и 3D интерактивные участки (с аннотациями и без них).
- Извлекает аннотации из встроенных в последовательности и аминокислотных с использованием подходов к контролируемым (когда доступно) и неконтролируемых подходов (например, сетевой анализ)
- Вебсервер, который завершает трубопровод в распределенный API для масштабируемых и последовательных рабочих
Установка
Вы можете установить bio_embeddings через PIP или использовать его через Docker. Помните о дополнительных зависимостях для align .
Пип
Установите трубопровод и все дополнения как SO:
pip install bio-embeddings[all]
Чтобы установить нестабильную версию, пожалуйста, установите трубопровод так:
pip install -U " bio-embeddings[all] @ git+https://github.com/sacdallago/bio_embeddings.git "
Если вам нужно только запустить конкретную модель (например, модель ESM или Prottrans), вы можете установить био-эмбединг без зависимостей, а затем установить зависимость специфичной для модели, например:
pip install bio-embeddings
pip install bio-embeddings[prottrans]
Дополнительные дополнения:
- Секвек
- протранс
- prottrans_albert_bfd
- prottrans_bert_bfd
- prottrans_t5_bfd
- prottrans_t5_uniref50
- prottrans_t5_xl_u50
- prottrans_xlnet_uniref100
- эсм
- Unirep
- CPCPROT
- плюс
- Bepler
- глубокий
Докер
Мы предоставляем изображение Docker по адресу ghcr.io/bioembeddings/bio_embeddings . Простой пример использования:
docker run --rm --gpus all
-v "$(pwd)/examples/docker":/mnt
-v bio_embeddings_weights_cache:/root/.cache/bio_embeddings
-u $(id -u ${USER}):$(id -g ${USER})
ghcr.io/bioembeddings/bio_embeddings:v0.1.6 /mnt/config.yml
См. Пример docker в папке examples для инструкций. Вы также можете использовать ghcr.io/bioembeddings/bio_embeddings:latest , который построен из последнего коммита.
Зависимости
Чтобы использовать протокол mmseqs_search или функции mmsesq2 в соответствии с align , вам также необходимо иметь MMSEQS2 на вашем пути.
Установка примечания
bio_embeddings был разработан для машин UNIX с возможностями GPU и установленной CUDA. Если ваша установка расходится из этого, вы можете столкнуться с некоторыми несоответствиями (например, на скорость значительно влияет на отсутствие графического процессора и CUDA). Для пользователей Windows мы настоятельно рекомендуем использовать подсистему Windows для Linux.
Какая модель подходит вам?
Каждая модели имеют свои сильные и слабые стороны (скорость, специфичность, след памяти ...). Там нет «единого целого», и мы призываем вас хотя бы попробовать две разные модели при попытке нового исследовательского проекта.
Модели prottrans_t5_xl_u50 , esm1b , esm , prottrans_bert_bfd , prottrans_albert_bfd , seqvec и prottrans_xlnet_uniref100 были обучены с целью систематических прогнозов. Из этого пула мы считаем, что оптимальной моделью является prottrans_t5_xl_u50 , за которой следует esm1b .
Использование и примеры
Мы настоятельно рекомендуем вам проверить папку examples для примеров трубопровода» и папку notebooks для прогонов пост-обработки трубопровода и использования общего назначения Embedders.
После установки пакета вы можете:
Используйте трубопровод, как:
bio_embeddings config.yml
План файла конфигурации и пример настройки можно найти в каталоге examples этого репозитория.
Используйте объекты Embedder общего назначения через Python, например:
from bio_embeddings . embed import SeqVecEmbedder
embedder = SeqVecEmbedder ()
embedding = embedder . embed ( "SEQVENCE" )
Больше примеров можно найти в папке notebooks этого репозитория.
Цитировать
Если вы используете bio_embeddings для своего исследования, мы бы оценили это, если бы вы могли сослаться на следующую статью:
Dallago, C., Schütze, K., Heinzinger, M., Olenyi, T., Littmann, M., Lu, Axe, Yang, KK, Min, S., Yoon, S., Morton, JT & Rost, B. (2021). Изучил встраивание из глубокого обучения для визуализации и прогнозирования наборов белков. Текущие протоколы, 1, E113. doi: 10.1002/cpz1.113
Соответствующий бибтек:
@article{https://doi.org/10.1002/cpz1.113,
author = {Dallago, Christian and Schütze, Konstantin and Heinzinger, Michael and Olenyi, Tobias and Littmann, Maria and Lu, Amy X. and Yang, Kevin K. and Min, Seonwoo and Yoon, Sungroh and Morton, James T. and Rost, Burkhard},
title = {Learned Embeddings from Deep Learning to Visualize and Predict Protein Sets},
journal = {Current Protocols},
volume = {1},
number = {5},
pages = {e113},
keywords = {deep learning embeddings, machine learning, protein annotation pipeline, protein representations, protein visualization},
doi = {https://doi.org/10.1002/cpz1.113},
url = {https://currentprotocols.onlinelibrary.wiley.com/doi/abs/10.1002/cpz1.113},
eprint = {https://currentprotocols.onlinelibrary.wiley.com/doi/pdf/10.1002/cpz1.113},
year = {2021}
}
Additionally, we invite you to cite the work from others that was collected in `bio_embeddings` (see section _"Tools by category"_ below). We are working on an enhanced user guide which will include proper references to all citable work collected in `bio_embeddings`.
Участники
- Кристиан Даллаго (лидерство)
- Константин Шютце
- Тобиас Олени
- Майкл Хайнзингер
Хотите добавить свою собственную модель? См. Приспособление для инструкций.
Непроизвольный список доступных инструментов (для получения дополнительной информации см. В следующем разделе):
- Быстрый
- Перчатка
- Word2VEC
- SeqVec (https://bmcbioinformatics.biomedcentral.com/articles/10.1186/S12859-019-3220-8)
- SeqVecSec и seqVecloc для вторичной структуры и прогнозирования субклетолакализации
- Prottrans (Protbert, Protalbert, Prott5) (https://doi.org/10.1101/2020.07.12.199554)
- Protbertsec и Protbertloc для вторичной структуры и прогнозирования субклеточной локализации
- Unirep (https://www.nature.com/articles/s41592-019-0598-1)
- ESM/ESM1B (https://www.biorxiv.org/content/10.1101/622803v3)
- Плюс (https://github.com/mswzeus/plus/)
- Cpcprot (https://www.biorxiv.org/content/10.1101/2020.09.04.283929v1.full.pdf)
- PB-Tucker (https://www.biorxiv.org/content/10.1101/2021.01.21.427551v1)
- Gopredsim (https://www.nature.com/articles/s41598-020-80786-0)
- DeepBlast (https://www.biorxiv.org/content/10.1101/2020.11.03.365932v1)
Наборы данных
-
prottrans_t5_xl_u50 остаточных остатков и последовательности встраивания человеческого протеома при полной точке + предсказания вторичной структуры + прогнозы субклеточной локализации: -
prottrans_t5_xl_u50 остаточных остатков и последовательности встроения протеома муха при полной точке + предсказания вторичной структуры + прогнозы субклеточной локализации + Прогнозирование сохранения + Прогнозирование вариации:
Инструменты по категории
Трубопровод
- выровнять:
- DeepBlast (https://www.biorxiv.org/content/10.1101/2020.11.03.365932v1)
- встраивать:
- Prottrans Bert обучался BFD (https://doi.org/10.1101/2020.07.12.199554)
- SeqVec (https://bmcbioinformatics.biomedcentral.com/articles/10.1186/S12859-019-3220-8)
- Prottrans Albert тренировался на BFD (https://doi.org/10.1101/2020.07.12.199554)
- Prottrans Xlnet обучен UNIREF100 (https://doi.org/10.1101/2020.07.12.199554)
- Prottrans T5 обучен BFD (https://doi.org/10.1101/2020.07.12.199554)
- Prottrans T5 обучался на BFD и настраивается на UNIREF50 (внутренний)
- Unirep (https://www.nature.com/articles/s41592-019-0598-1)
- ESM/ESM1B (https://www.biorxiv.org/content/10.1101/622803v3)
- Плюс (https://github.com/mswzeus/plus/)
- Cpcprot (https://www.biorxiv.org/content/10.1101/2020.09.04.283929v1.full.pdf)
- проект:
- T-Sne
- Umap
- PB-Tucker (https://www.biorxiv.org/content/10.1101/2021.01.21.427551v1)
- Визуализировать:
- 2D/3D -последовательность.
- извлекать:
- контролируется:
- SeqVec: dssp3, dssp8, расстройство, субклеточное местоположение и мембранная граница, как в https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-3220-8
- Protbertsec и Protbertloc, как сообщается в https://doi.org/10.1101/2020.07.12.199554
- без присмотра:
- через уровни последовательности (REDUDED_EMBEDDINGS), парное расстояние (евклидова, как GopredSim, больше вариантов, например, косинус)
Общие замыкания
- Prottrans Bert обучался BFD (https://doi.org/10.1101/2020.07.12.199554)
- SeqVec (https://bmcbioinformatics.biomedcentral.com/articles/10.1186/S12859-019-3220-8)
- Prottrans Albert тренировался на BFD (https://doi.org/10.1101/2020.07.12.199554)
- Prottrans Xlnet обучен UNIREF100 (https://doi.org/10.1101/2020.07.12.199554)
- Prottrans T5 обучен BFD (https://doi.org/10.1101/2020.07.12.199554)
- Prottrans T5 обучен BFD + Fine-Tuned на UNIREF50 (https://doi.org/10.1101/2020.07.12.199554)
- Быстрый
- Перчатка
- Word2VEC
- Unirep (https://www.nature.com/articles/s41592-019-0598-1)
- ESM/ESM1B (https://www.biorxiv.org/content/10.1101/622803v3)
- Плюс (https://github.com/mswzeus/plus/)
- Cpcprot (https://www.biorxiv.org/content/10.1101/2020.09.04.283929v1.full.pdf)