用于探索反应数据中使用的试剂嵌入空间的网络应用。在我们的论文中描述了具有交互式试剂空间图的化学反应数据中的试剂。
该应用程序是一种探索反应中试剂的共发生统计量的视觉方式。该应用显示通过分解具有奇异值分解的试剂的PMI矩阵来得出的试剂嵌入的UMAP投影。
PMI矩阵包含偶然的共同信息得分。对于两个试剂A和B ,其PMI得分来自试剂的发生计数。
使用SVD分解此矩阵会产生试剂的致密嵌入,如果遇到这些试剂,它们往往相似
在类似的情况下,IE与其他相同的试剂一起。例如,两种用于铃木耦合的钯催化剂将不会在反应中使用,但可以与相同的碱和溶剂一起使用。
因此,这两个催化剂将得到类似的嵌入,并将靠近在一起。然后将这些嵌入投影在2D平面和单位球的表面上
由UMAP算法。这是一种降低算法,在将原始点投影到较低维空间时,试图保持距离关系。
该应用程序中显示了试剂嵌入的UMAP投影图。
运行以下命令以安装应用程序的环境:
conda create - n reagent_emb_vis_app python = 3.10 - y
conda activate reagent_emb_vis_app
pip install - r requirements . txt
pip install - e .使用以下命令运行应用程序
python3 app . py该应用程序将在http:// localhost:8050上运行。默认情况下,它显示了通过AAM读取data/default/uspto_aam_rgs_min_count_100_d_50.csv确定的USPTO试剂嵌入的地图。用户还可以上传自己的试剂数据,并以下面描述的方式使用适当的脚本准备。
文件data/standard_reagents.csv包含有关USPTO中发生的〜600种试剂的信息,其角色和名称。文件中的条目按降序以下频率排序。
我们通过从data目录执行以下命令:使用rxnutils下载USPTO数据集:
python - m rxnutils . data . uspto . download python - m rxnutils . data . uspto . combine它下载文件data/uspto_data.csv 。然后,我们使用从项目目录执行以下命令对此数据集进行初始过滤:
python3 - m rxnutils . pipeline . runner - - pipeline uspto / pipeline . yml - - data data / uspto_data . csv - - output data / uspto_filtered . csv最后,我们从过滤的数据集中提取试剂:
python3 scripts / prepare_reagents . py - i data / uspto_filtered . csv - - output_dir uspto_aam_reagents - c ReactionSmiles - - reagents aam - - fragment_grouping cxsmiles - - canonicalization remove_aam - - n_jobs 9 - - min_reagent_occurrences 1 - - verbose脚本prepare_reagents.py作为各种选项。例如,它可以通过原子映射或指纹来确定试剂。
基于用脚本build_embeddings.py计算试剂的嵌入基于其各自试剂中使用的试剂的文件。
输入文件必须包含每行反应的试剂笑容集,并且这些微笑必须由某些分离器分开。例如; 。
例子:
CCO ; c1ccccc1
[ H - ].[ Na + ]; C1CCOC1
NN该文件中的每个行都包含感兴趣数据集中某些反应的试剂。反应本身并不重要。脚本prepare_reagents.py为build_embeddings.py准备合适的输入。
该应用程序在CSV文件中使用坐标,该文件是使用build_embeddings.py脚本准备的。
运行以下命令:
python3 scripts / build_embeddings . py - i < PATH TO THE TEXT FILE WITH REAGENT SMILES > - - standard data / standard_reagents . csv - - min_count < MINIMAL OCCURENCE COUNT FOR REAGENTS TO BE CONSIDERED > - o < PATH TO THE OUTPUT CSV FILE > - d < DIMENSONALITY OF REAGENT EMBEDDINGS >有关更多信息,请运行python3 build_embeddings.py --help 。
默认试剂嵌入是由以下命令构建的:
python3 scripts / build_embeddings . py - i data / uspto_aam_reagents / reagents - 1128297. txt - - standard data / standard_reagents . csv - d 50 - o data / uspto_aam_rgs_min_count_100_d_50 . csv - - min_count 100通过build_embeddings.py脚本上传构建的CSV文件。
有关USPTO试剂的见解并复制论文中的数字,请遵循笔记本notebooks/results.ipynb 。
@inproceedings { andronov2024 ,
title = { Curating Reagents in Chemical Reaction Data with an Interactive Reagent Space Map } ,
author = { Andronov, Mikhail and Andronova, Natalia and Wand, Michael and Schmidhuber, J{"u}rgen and Clevert, Djork-Arn{'e} } ,
booktitle = { International Workshop on AI in Drug Discovery } ,
pages = { 21--35 } ,
year = { 2024 } ,
publisher = { Springer Nature Switzerland } ,
address = { Cham } ,
doi = { 10.1007/978-3-031-72381-0_3 }
}