Интернет-приложение для исследования встроенного пространства реагентов, используемых в данных реакции. Описано в наших бумажных кураторских реагентах в данных химической реакции с интерактивной пространственной картой реагентов.
Приложение является визуальным способом изучения статистики совместного появления реагентов в реакциях. Приложение отображает прогнозы UMAP внедрения реагентов, полученных путем разложения матрицы PMI реагентов с декомпозицией единственного значения.
Матрица PMI содержит точечную взаимную информацию . Для двух реагентов A и B их оценка PMI получен из количества возникновения в реагенте.
Факторизация этой матрицы с использованием SVD дает плотные встраивания для реагентов, которые, как правило, являются одинаковыми для двух реагентов, если эти реагенты встречаются
В аналогичном контексте, т.е. вместе с одними и теми же другими реагентами. Например, два разных палладийских катализатора для сочетания Suzuki не будут использоваться вместе в реакции, но они могут использоваться с одинаковыми основаниями и растворителями.
Следовательно, эти два катализатора получат похожие вторжения и будут лежать близко друг к другу. Эти встраивания затем проецируются на плоскости 2D и на поверхности единичной сферы
Алгоритмом UMAP. Это алгоритм уменьшения размерности, который пытается сохранить расстояние между исходными точками при проецировании их до более низкого пространства.
В приложении отображается карта прогнозов UMAP внедрения реагентов.
Запустите следующие команды для установки среды для приложения:
conda create - n reagent_emb_vis_app python = 3.10 - y
conda activate reagent_emb_vis_app
pip install - r requirements . txt
pip install - e .Запустите приложение со следующей командой
python3 app . py Приложение будет запущено на http: // localhost: 8050. По умолчанию показана карта встроенных внедрений USPTO Reagent, определяемое AAM, чтение разобщенности из data/default/uspto_aam_rgs_min_count_100_d_50.csv . Пользователи также могут загружать свои собственные данные реагента, подготовленные с помощью соответствующих сценариев, как описано ниже.
File data/standard_reagents.csv содержит информацию о ~ 600 реагентах, которые встречаются в USPTO, с их ролями и именами. Записи в файле упорядочены частотой возникновения в порядке убывания.
Мы загружаем набор данных USPTO, используя rxnutils , выполнив следующие команды из каталога data :
python - m rxnutils . data . uspto . download python - m rxnutils . data . uspto . combine Он загружает data/uspto_data.csv . Затем мы делаем начальную фильтрацию этого набора данных со следующей командой, выполненной из каталога проекта:
python3 - m rxnutils . pipeline . runner - - pipeline uspto / pipeline . yml - - data data / uspto_data . csv - - output data / uspto_filtered . csvНаконец, мы извлекаем реагенты из отфильтрованного набора данных:
python3 scripts / prepare_reagents . py - i data / uspto_filtered . csv - - output_dir uspto_aam_reagents - c ReactionSmiles - - reagents aam - - fragment_grouping cxsmiles - - canonicalization remove_aam - - n_jobs 9 - - min_reagent_occurrences 1 - - verbose Script prepare_reagents.py как различные параметры. Например, он может определять реагенты либо путем картирования атома, либо с помощью отпечатков пальцев.
Внедрения для реагентов рассчитываются с использованием Script build_embeddings.py на основе файла с реагентами, которые используются в их соответствующих реагентах.
Входной файл должен содержать наборы улыбок реагентов для некоторой реакции в каждой строке, и эти улыбки должны быть разделены некоторым сепаратором. например ; Анкет
Пример:
CCO ; c1ccccc1
[ H - ].[ Na + ]; C1CCOC1
NN Каждая строка в этом файле содержит реагенты для некоторой реакции в интересующем наборе данных. Сами реакции не актуальны. Script prepare_reagents.py готовит подходящий вход для build_embeddings.py .
Приложение использует координаты в файле CSV, который подготовлен с использованием скрипта build_embeddings.py .
Запустите следующую команду:
python3 scripts / build_embeddings . py - i < PATH TO THE TEXT FILE WITH REAGENT SMILES > - - standard data / standard_reagents . csv - - min_count < MINIMAL OCCURENCE COUNT FOR REAGENTS TO BE CONSIDERED > - o < PATH TO THE OUTPUT CSV FILE > - d < DIMENSONALITY OF REAGENT EMBEDDINGS > Для получения дополнительной информации запустите python3 build_embeddings.py --help .
Внедрение реагентов по умолчанию было построено со следующей командой:
python3 scripts / build_embeddings . py - i data / uspto_aam_reagents / reagents - 1128297. txt - - standard data / standard_reagents . csv - d 50 - o data / uspto_aam_rgs_min_count_100_d_50 . csv - - min_count 100 Загрузите сборку файла CSV с помощью скрипта build_embeddings.py .
Для понимания реагентов в USPTO и для воспроизведения цифр в статье, пожалуйста, следуйте notebooks/results.ipynb .
@inproceedings { andronov2024 ,
title = { Curating Reagents in Chemical Reaction Data with an Interactive Reagent Space Map } ,
author = { Andronov, Mikhail and Andronova, Natalia and Wand, Michael and Schmidhuber, J{"u}rgen and Clevert, Djork-Arn{'e} } ,
booktitle = { International Workshop on AI in Drug Discovery } ,
pages = { 21--35 } ,
year = { 2024 } ,
publisher = { Springer Nature Switzerland } ,
address = { Cham } ,
doi = { 10.1007/978-3-031-72381-0_3 }
}