SELFormer Download - SELFormer исходный код скачать

SELFormer

AI Исходный код

1.0.0

Скачать

Selformer: молекулярное представление обучение с помощью языковых моделей селфи

Автоматизированный вычислительный анализ обширного химического пространства имеет решающее значение для многочисленных областей исследований, таких как обнаружение лекарств и материальная наука. Методы обучения представительства недавно использовались с основной целью генерации компактных и информативных численных выражений сложных данных. Одним из подходов к эффективному изучению молекулярных представлений является обработка обозначений на основе строк химических веществ с помощью алгоритмов обработки естественного языка (NLP). Большинство методов, предложенных до сих пор, используют улыбки для этой цели; Тем не менее, улыбки связаны с многочисленными проблемами, связанными с достоверностью и надежностью, которые могут помешать модели эффективно раскрыть знания, скрытые в данных. В этом исследовании мы предлагаем Selformer, модель химического языка на основе архитектуры трансформатора, которая использует 100% достоверную, компактную и выразительную нотацию, селфи, в качестве входных данных, для изучения гибких и высококачественных молекулярных представлений. Selformer предварительно обучает двух миллионов лекарственных соединений и тонко настроен для различных задач прогнозирования молекулярного свойства. Наша оценка эффективности показала, что Selformer превосходит все конкурирующие методы, включая подходы, основанные на графиках и модели химического языка на основе улыбок, о прогнозировании растворимости водных молекул и побочных реакций лекарств. Мы также визуализировали молекулярные представления, изученные Selformer, посредством уменьшения размерности, что указывало на то, что даже предварительно обученная модель может различать молекулы с различными структурными свойствами. Мы поделились Selformer как программным инструментом вместе с его наборами данных и предварительно обученными моделями. В целом, наше исследование демонстрирует преимущество использования нотаций селфи в контексте моделирования химического языка и открывает новые возможности для проектирования и обнаружения новых кандидатов на наркотики с желаемыми особенностями.

Рисунок1_ShishOrmer_architecture

Фигура. Схематическое представление архитектуры самостоятельно и проведенных экспериментов. Слева: самоотверженное предварительное обучение использует модуль энкодера трансформатора посредством моделирования в масках для изучения кратких и информативных представлений о мелких молекулах, кодируемых их нотацией селфи. Справа: предварительно обученная модель была точно настроена на многочисленные задачи классификации и регрессии на основе молекулярных свойств.

Архитектура самостоятельного

Selformer построен на архитектуре Transformer Roberta, которая использует ту же архитектуру, что и BERT, но с определенными модификациями, которые, как было установлено, улучшают производительность модели или обеспечивают другие преимущества. Одной из таких модификаций является использование кодирования байтовых паев на уровне байтов (BPE) для токенизации вместо BPE уровня символов. Другим является то, что Роберта предварительно обучена исключительно по объективам маскированного языкового моделирования (MLM), игнорируя задачу предсказания следующего предложения (NSP). Selformer имеет (i) самоотверженные предварительно обученные модели, которые используют модуль энкодера трансформатора для обучения кратким и информативным представлениям мелких молекул, кодируемых их нотацией селфи, и (ii) контролируемые классификационные/регрессионные модели, которые используют предварительную модель в качестве базовой и тонкой настройки на многочисленные молекулярные свойства на основе классификации и регрессии.

Наши предварительно обученные модели энкодера реализованы как «Robertamaskedlm» и модели с тонкой настройкой как «robertaforsequenceclassication». Для процесса тонкой настройки архитектура Selformer включает в себя предварительно обученную модель Роберты в качестве своей базы, а также класс «robertaclassificationhead» в качестве следующих слоев (для классификации и регрессии). Класс "RobertaclassificationHead" состоит из выпадающего слоя, плотного слоя, функции активации TANH, выпадающего слоя и окончательного линейного слоя. Мы пересылаем выход последовательности предварительно обученной базовой модели Роберты в классификатор во время процесса тонкой настройки.

Начиная

Мы настоятельно рекомендуем платформу Conda для установки зависимостей. После установки Conda, пожалуйста, создайте и активируйте среду с зависимостями, как определено ниже:

 conda create -n SELFormer_env
conda activate SELFormer_env
conda env update --file data/requirements.yml

Генерирующие молекулярные вторжения с использованием предварительно обученных моделей

Предварительно обученные модели Selformer доступны для загрузки здесь. Внедрение всех молекул от Chembl30 и Chembl33, которые генерируются нашей лучшей моделью, доступны здесь.

Вы также можете генерировать Entgeddings для вашего собственного набора данных, используя предварительно обученные модели. Для этого вам понадобятся селфи обозначения ваших молекул. Вы можете использовать команду ниже, чтобы создать селфи обозначения для вашего набора данных Smiles.

Если вы хотите воспроизвести наш код для генерации встроенных набора данных ChemBL30, вы можете UNZIP MOLECULE_DATASET_SMILES.ZIP и/или MOLECULE_DATASET_SESWERES.ZIP в каталоге данных и используйте их в качестве входных наборов и наборов селени соответственно.

 python3 generate_selfies.py --smiles_dataset=data/molecule_dataset_smiles.txt --selfies_dataset=data/molecule_dataset_selfies.csv

-smiles_dataset : Путь набора данных Smiles Smiles.
-selfies_dataset : Путь выходного набора данных Selfies.

Чтобы сгенерировать вставки для набора данных молекул селфи с использованием предварительно обученной модели, пожалуйста, запустите следующую команду:

 python3 produce_embeddings.py --selfies_dataset=data/molecule_dataset_selfies.csv --model_file=data/pretrained_models/SELFormer --embed_file=data/embeddings.csv

-selfies_dataset : Путь набора данных входных селфи.
-model_file : Путь предварительной модели, которая будет использоваться.
-embed_file : Путь выходного файла Enceddings.

Создание встроений с использованием предварительно обученных моделей для молекул наборов данных молекульенета

Внедрения, сгенерированные нашей наиболее эффективной предварительно обученной моделью для данных Moleculenet, могут быть непосредственно загружены здесь.

Вы также можете переиграть эти встроения, используя команду ниже.

 python3 get_moleculenet_embeddings.py --dataset_path=data/finetuning_datasets --model_file=data/pretrained_models/SELFormer

-dataset_path : путь каталога, содержащего наборы данных Moleculenet.
-model_file : Путь предварительной модели, которая будет использоваться.

Обучение и оценка моделей

Предварительное обучение

Чтобы предварительно готовить модель, пожалуйста, запустите команду ниже. Если у вас есть набор данных селфи, вы можете использовать его непосредственно, предоставив путь набора данных -selfies_dataset . Если у вас есть набор данных Smiles, вы можете дать путь набора данных -SMILES_DATASET , и представления селфи будут созданы на пути, данном -SELFIES_DATASET .

 python3 train_pretraining_model.py --smiles_dataset=data/molecule_dataset_smiles.txt --selfies_dataset=data/molecule_dataset_selfies.csv --prepared_data_path=data/selfies_data.txt --bpe_path=data/BPETokenizer --roberta_fast_tokenizer_path=data/RobertaFastTokenizer --hyperparameters_path=data/pretraining_hyperparameters.yml --subset_size=100000

-smiles_dataset : Путь набора данных Smiles. Это требуется, если -selfies_dataset не существует (необязательно).
-selfies_dataset : Путь набора данных селфи. Если набор данных селфи не существует, он будет создан на данном пути, используя -smiles_dataset . Если он существует, набор данных селфи будет использоваться напрямую (необходимо).
-prepared_data_path : Путь промежуточного файла, который будет создан во время предварительного обучения. Он будет использоваться для токенизации. Если его не существует, он будет создан на данном пути (требуется).
-BPE_PATH : Путь токенизатора BPE. Если его не существует, он будет создан на данном пути (требуется).
-Roberta_fast_tokenizer_path : Путь токенизатора Robertatokenizer. Если его не существует, он будет создан на данном пути (требуется).
-hyperparameters_path : Путь файла YAML, который содержит проверенные наборы гиперпараметрических наборов. Обратите внимание, что эти наборы будут проверены один за другим, а не параллельно. Пример файла доступен по адресу /data/pretraining_hyperparameters.yml (требуется).
-subset_size : размер подмножества набора данных, который будет использоваться для предварительного обучения. По умолчанию будет использоваться весь набор данных (необязательно).

Тонкая настройка по прогнозу молекулярного свойства

Вы можете использовать команды ниже, чтобы точно настроить предварительно обученную модель для различных задач прогнозирования молекулярного свойства. Эти команды используются для обработки наборов данных, содержащих улыбки молекул. Представления улыбков должны храниться в столбце с заголовком под названием «Улыбки». Вы можете увидеть пример наборов данных в каталоге Data/Fenetuning_Datasets .

Бинарные классификационные задачи

Чтобы точно настроить предварительно обученную модель в бинарном наборе данных классификации, пожалуйста, запустите команду ниже.

 python3 train_classification_model.py --model=data/saved_models/SELFormer --tokenizer=data/RobertaFastTokenizer --dataset=data/finetuning_datasets/classification/bbbp/bbbp.csv --save_to=data/finetuned_models/SELFormer_bbbp_classification --target_column_id=1 --use_scaffold=1 --train_batch_size=16 --validation_batch_size=8 --num_epochs=25 --lr=5e-5 --wd=0

-Модель : каталог предварительно обученной модели (требуется).
-tokenizer : каталог Robertafasttokenizer (обязательно).
-ДАТАЗЕТ : Путь набора данных с тонкой настройкой (требуется).
-save_to : каталог, где будет сохранена тонкая настройка модель (требуется).
-target_column_id : по умолчанию: 1. идентификатор столбца столбца целевого столбца в наборе данных о тонкой настройке (необязательно).
-USE_SCAFFOLD : по умолчанию: 0. Определяет, использовать ли расщепление каркасов (1) или случайное расщепление (0) (необязательно).
-train_batch_size : по умолчанию: 8 (необязательно).
-validation_batch_size : по умолчанию: 8 (необязательно).
-Num_epochs : по умолчанию: 50. Количество эпох (необязательно).
--LR : по умолчанию: 1E-5: скорость обучения (необязательно).
--WD : по умолчанию: 0,1: распад веса (необязательно).

Задачи классификации с несколькими маршрутами

Чтобы точно настроить предварительно обученную модель в многопользовательском наборе данных классификации, пожалуйста, запустите команду ниже. Файлы RobertafastTokenizer должны храниться в том же каталоге, что и предварительно обученная модель.

 python3 train_classification_multilabel_model.py --model=data/saved_models/SELFormer --dataset=data/finetuning_datasets/classification/tox21/tox21.csv --save_to=data/finetuned_models/SELFormer_tox21_classification --use_scaffold=1 --batch_size=16 --num_epochs=25 --lr=5e-5 --wd=0

-Модель : каталог предварительно обученной модели (требуется).
-ДАТАЗЕТ : Путь набора данных с тонкой настройкой (требуется).
-save_to : каталог, где будет сохранена тонкая настройка модель (требуется).
-USE_SCAFFOLD : по умолчанию: 0. Определяет, использовать ли расщепление каркасов (1) или случайное расщепление (0) (необязательно).
-batch_size : по умолчанию: 8. Размер партии поезда (необязательно).
-Num_epochs : по умолчанию: 50. Количество эпох (необязательно).
--LR : по умолчанию: 1E-5: скорость обучения (необязательно).
--WD : по умолчанию: 0,1: распад веса (необязательно).

Регрессионные задачи

Чтобы точно настроить предварительно обученную модель в наборе данных регрессии, пожалуйста, запустите команду ниже.

 python3 train_regression_model.py --model=data/saved_models/SELFormer --tokenizer=data/RobertaFastTokenizer --dataset=data/finetuning_datasets/regression/esol/esol.csv --save_to=data/finetuned_models/SELFormer_esol_regression --target_column_id=-1 --scaler=2 --use_scaffold=1 --train_batch_size=16 --validation_batch_size=8 --num_epochs=25 --lr=5e-5 --wd=0

-Модель : каталог предварительно обученной модели (требуется).
-tokenizer : каталог Robertafasttokenizer (обязательно).
-ДАТАЗЕТ : Путь набора данных с тонкой настройкой (требуется).
-save_to : каталог, где будет сохранена тонкая настройка модель (требуется).
-target_column_id : по умолчанию: 1. идентификатор столбца столбца целевого столбца в наборе данных о тонкой настройке (необязательно).
-Scaler : по умолчанию: 0. Метод, который будет использоваться для масштабирования целевых значений. 0 без масштабирования, 1 для масштабирования MIN-MAX, 2 для стандартного масштабирования (необязательно).
-USE_SCAFFOLD : по умолчанию: 0. Определяет, использовать ли расщепление каркасов (1) или случайное расщепление (0) (необязательно).
-train_batch_size : по умолчанию: 8 (необязательно).
-validation_batch_size : по умолчанию: 8 (необязательно).
-Num_epochs : по умолчанию: 50. Количество эпох (необязательно).
--LR : по умолчанию: 1E-5: скорость обучения (необязательно).
--WD : по умолчанию: 0,1: распад веса (необязательно).

Производство предсказаний молекулярного свойства с помощью тонких моделей

Модели Selformer Suplemermer доступны для загрузки здесь. Чтобы сделать прогнозы с этими моделями, пожалуйста, следуйте инструкциям ниже.

Бинарная классификация

Чтобы сделать прогнозы для наборов данных BACE, BBBP и ВИЧ, запустите команду ниже. Измените указанные аргументы для различных задач. Параметры по умолчанию будут загружать тонкую модель на BBBP.

 python3 binary_class_pred.py --task=bbbp --model_name=data/finetuned_models/SELFormer_bbbp_scaffold_optimized --tokenizer=data/RobertaFastTokenizer --pred_set=data/finetuning_datasets/classification/bbbp/bbbp_mock.csv --training_args=data/finetuned_models/SELFormer_bbbp_scaffold_optimized/training_args.bin

--задача : задача бинарной классификации на выбор. (BACE, BBBP, ВИЧ) (требуется).
-model_name : путь тонкой модели (требуется).
-Tokenizer : выбор токенизатора (требуется).
--pred_set : молекулы для прогнозирования. Должен быть файл CSV с одним столбцом. Заголовок должен быть улыбками (требуется).
-training_args : инициализировать аргументы модели (требуется).

Классификация с несколькими маршрутами

Чтобы сделать прогнозы для наборов данных TOX21 и Sider, запустите команду ниже. Измените указанные аргументы для различных задач. Параметры по умолчанию загружат тонкую модель на Sider.

 python3 multilabel_class_pred.py --task=sider --model_name=data/finetuned_models/SELFormer_sider_scaffold_optimized --pred_set=data/finetuning_datasets/classification/sider/sider_mock.csv --training_args=data/finetuned_models/SELFormer_sider_scaffold_optimized/training_args.bin --num_labels=27

--задача : задача классификации с несколькими маркировкой для выбора. (Tox21, Sider) (требуется).
-model_name : путь тонкой модели (требуется).
--pred_set : молекулы для прогнозирования. Должен быть файл CSV с одним столбцом, содержащим улыбки. Заголовок должен быть «улыбками» (требуется).
-training_args : инициализировать аргументы модели (требуется).
-Num_labels : количество метков (требуется).

Регрессия

Чтобы сделать прогнозы для наборов данных ESOL, Freesolv, липофильности и PDBBind, запустите команду ниже. Измените указанные аргументы для различных задач. Параметры по умолчанию будут загружать тонкую модель на ESOL.

 python3 regression_pred.py --task=esol --model_name=data/finetuned_models/esol_regression --tokenizer=data/RobertaFastTokenizer --pred_set=data/finetuning_datasets/classification/esol/esol_mock.csv --training_args=data/finetuned_models/esol_regression/training_args.bin

--задача : задача бинарной классификации на выбор. (ESOL, FreeSolv, Lipo, Pdbbind_full) (требуется).
-model_name : путь тонкой модели (требуется).
-Tokenizer : выбор токенизатора (требуется).
--pred_set : молекулы для прогнозирования. Должен быть файл CSV с одним столбцом. Заголовок должен быть улыбками (требуется).
-training_args : инициализировать аргументы модели (требуется).

Лицензия

Эта программа является бесплатным программным обеспечением: вы можете перераспределить его и/или изменить ее в соответствии с условиями общей публичной лицензии GNU, опубликованных Фондом Free Software, либо версией 3 лицензии, либо (по варианту) любой более поздней версии.

Эта программа распространяется в надежде, что она будет полезна, но без каких -либо гарантий; даже без подразумеваемой гарантии торговой точки зрения или пригодности для определенной цели. Смотрите общую публичную лицензию GNU для получения более подробной информации.

Вы должны были получить копию общей публичной лицензии GNU вместе с этой программой. Если нет, см. Http://www.gnu.org/licenses/.

Расширять

Дополнительная информация