用於探索反應數據中使用的試劑嵌入空間的網絡應用。在我們的論文中描述了具有交互式試劑空間圖的化學反應數據中的試劑。
該應用程序是一種探索反應中試劑的共發生統計量的視覺方式。該應用顯示通過分解具有奇異值分解的試劑的PMI矩陣來得出的試劑嵌入的UMAP投影。
PMI矩陣包含偶然的共同信息得分。對於兩個試劑A和B ,其PMI得分來自試劑的發生計數。
使用SVD分解此矩陣會產生試劑的緻密嵌入,如果遇到這些試劑,它們往往相似
在類似的情況下,IE與其他相同的試劑一起。例如,兩種用於鈴木耦合的鈀催化劑將不會在反應中使用,但可以與相同的鹼和溶劑一起使用。
因此,這兩個催化劑將得到類似的嵌入,並將靠近在一起。然後將這些嵌入投影在2D平面和單位球的表面上
由UMAP算法。這是一種降低算法,在將原始點投影到較低維空間時,試圖保持距離關係。
該應用程序中顯示了試劑嵌入的UMAP投影圖。
運行以下命令以安裝應用程序的環境:
conda create - n reagent_emb_vis_app python = 3.10 - y
conda activate reagent_emb_vis_app
pip install - r requirements . txt
pip install - e .使用以下命令運行應用程序
python3 app . py該應用程序將在http:// localhost:8050上運行。默認情況下,它顯示了通過AAM讀取data/default/uspto_aam_rgs_min_count_100_d_50.csv確定的USPTO試劑嵌入的地圖。用戶還可以上傳自己的試劑數據,並以下面描述的方式使用適當的腳本準備。
文件data/standard_reagents.csv包含有關USPTO中發生的〜600種試劑的信息,其角色和名稱。文件中的條目按降序以下頻率排序。
我們通過從data目錄執行以下命令:使用rxnutils下載USPTO數據集:
python - m rxnutils . data . uspto . download python - m rxnutils . data . uspto . combine它下載文件data/uspto_data.csv 。然後,我們使用從項目目錄執行以下命令對此數據集進行初始過濾:
python3 - m rxnutils . pipeline . runner - - pipeline uspto / pipeline . yml - - data data / uspto_data . csv - - output data / uspto_filtered . csv最後,我們從過濾的數據集中提取試劑:
python3 scripts / prepare_reagents . py - i data / uspto_filtered . csv - - output_dir uspto_aam_reagents - c ReactionSmiles - - reagents aam - - fragment_grouping cxsmiles - - canonicalization remove_aam - - n_jobs 9 - - min_reagent_occurrences 1 - - verbose腳本prepare_reagents.py作為各種選項。例如,它可以通過原子映射或指紋來確定試劑。
基於用腳本build_embeddings.py計算試劑的嵌入基於其各自試劑中使用的試劑的文件。
輸入文件必須包含每行反應的試劑笑容集,並且這些微笑必須由某些分離器分開。例如; 。
例子:
CCO ; c1ccccc1
[ H - ].[ Na + ]; C1CCOC1
NN該文件中的每個行都包含感興趣數據集中某些反應的試劑。反應本身並不重要。腳本prepare_reagents.py為build_embeddings.py準備合適的輸入。
該應用程序在CSV文件中使用坐標,該文件是使用build_embeddings.py腳本準備的。
運行以下命令:
python3 scripts / build_embeddings . py - i < PATH TO THE TEXT FILE WITH REAGENT SMILES > - - standard data / standard_reagents . csv - - min_count < MINIMAL OCCURENCE COUNT FOR REAGENTS TO BE CONSIDERED > - o < PATH TO THE OUTPUT CSV FILE > - d < DIMENSONALITY OF REAGENT EMBEDDINGS >有關更多信息,請運行python3 build_embeddings.py --help 。
默認試劑嵌入是由以下命令構建的:
python3 scripts / build_embeddings . py - i data / uspto_aam_reagents / reagents - 1128297. txt - - standard data / standard_reagents . csv - d 50 - o data / uspto_aam_rgs_min_count_100_d_50 . csv - - min_count 100通過build_embeddings.py腳本上傳構建的CSV文件。
有關USPTO試劑的見解並複制論文中的數字,請遵循筆記本notebooks/results.ipynb 。
@inproceedings { andronov2024 ,
title = { Curating Reagents in Chemical Reaction Data with an Interactive Reagent Space Map } ,
author = { Andronov, Mikhail and Andronova, Natalia and Wand, Michael and Schmidhuber, J{"u}rgen and Clevert, Djork-Arn{'e} } ,
booktitle = { International Workshop on AI in Drug Discovery } ,
pages = { 21--35 } ,
year = { 2024 } ,
publisher = { Springer Nature Switzerland } ,
address = { Cham } ,
doi = { 10.1007/978-3-031-72381-0_3 }
}