APP-APP untuk eksplorasi ruang penyembatan reagen yang digunakan dalam data reaksi. Dijelaskan dalam makalah kami mereagen dalam data reaksi kimia dengan peta ruang reagen interaktif.
Aplikasi ini adalah cara visual untuk mengeksplorasi statistik co-kejadian reagen dalam reaksi. Aplikasi ini menampilkan proyeksi UMAP dari embeddings reagen yang diperoleh dengan menguraikan matriks reagen PMI dengan dekomposisi nilai tunggal.
Matriks PMI berisi skor informasi timbal balik pointwise . Untuk dua reagen A dan B , skor PMI mereka berasal dari jumlah kejadian reagen.
Faktor matriks ini menggunakan SVD menghasilkan embeddings padat untuk reagen, yang cenderung serupa untuk dua reagen jika reagen ini ditemui
Dalam konteks yang sama, IE bersama dengan reagen lain yang sama. Sebagai contoh, dua katalis paladium yang berbeda untuk kopling Suzuki tidak akan digunakan bersama dalam suatu reaksi, tetapi mereka dapat digunakan dengan basis dan pelarut yang sama.
Oleh karena itu, kedua katalis itu akan mendapatkan embeddings serupa dan akan berbaring berdekatan. Embeddings tersebut kemudian diproyeksikan pada bidang 2D dan permukaan bola unit
oleh algoritma UMAP. Ini adalah algoritma pengurangan dimensi yang mencoba melestarikan hubungan jarak antara titik-titik asli ketika memproyeksikannya ke ruang dimensi yang lebih rendah.
Peta proyeksi UMAP dari embeddings reagen ditampilkan di aplikasi.
Jalankan perintah berikut untuk menginstal lingkungan untuk aplikasi:
conda create - n reagent_emb_vis_app python = 3.10 - y
conda activate reagent_emb_vis_app
pip install - r requirements . txt
pip install - e .Jalankan aplikasi dengan perintah berikut
python3 app . py Aplikasi ini akan berjalan di http: // localhost: 8050. Secara default, ini menunjukkan peta embeddings reagen uspto yang ditentukan oleh AAM membaca infomasi dari data/default/uspto_aam_rgs_min_count_100_d_50.csv . Pengguna juga dapat mengunggah data reagen mereka sendiri, disiapkan dengan skrip yang sesuai dengan cara yang dijelaskan di bawah ini.
data/standard_reagents.csv berisi informasi tentang ~ 600 reagen yang terjadi di USPTO, dengan peran dan namanya. Entri dalam file dipesan oleh frekuensi kejadian dalam urutan menurun.
Kami mengunduh dataset USPTO menggunakan rxnutils dengan menjalankan perintah berikut dari direktori data :
python - m rxnutils . data . uspto . download python - m rxnutils . data . uspto . combine Itu mengunduh data/uspto_data.csv . Kemudian, kami melakukan pemfilteran awal dataset ini dengan perintah berikut yang dieksekusi dari direktori proyek:
python3 - m rxnutils . pipeline . runner - - pipeline uspto / pipeline . yml - - data data / uspto_data . csv - - output data / uspto_filtered . csvAkhirnya, kami mengekstrak reagen dari dataset yang difilter:
python3 scripts / prepare_reagents . py - i data / uspto_filtered . csv - - output_dir uspto_aam_reagents - c ReactionSmiles - - reagents aam - - fragment_grouping cxsmiles - - canonicalization remove_aam - - n_jobs 9 - - min_reagent_occurrences 1 - - verbose Skrip prepare_reagents.py sebagai berbagai opsi. Misalnya, dapat menentukan reagen baik dengan pemetaan atom atau dengan sidik jari.
Embeddings untuk reagen dihitung menggunakan skrip build_embeddings.py berdasarkan file dengan reagen yang digunakan dalam reagen masing -masing.
File input harus berisi set senyum reagen untuk beberapa reaksi di setiap baris, dan senyum itu harus dipisahkan oleh beberapa pemisah. misalnya ; .
Contoh:
CCO ; c1ccccc1
[ H - ].[ Na + ]; C1CCOC1
NN Setiap baris dalam file ini berisi reagen untuk beberapa reaksi dalam dataset yang menarik. Reaksi itu sendiri tidak relevan. Skrip prepare_reagents.py menyiapkan input yang sesuai untuk build_embeddings.py .
Aplikasi ini menggunakan koordinat dalam file CSV, yang disiapkan menggunakan skrip build_embeddings.py .
Jalankan perintah berikut:
python3 scripts / build_embeddings . py - i < PATH TO THE TEXT FILE WITH REAGENT SMILES > - - standard data / standard_reagents . csv - - min_count < MINIMAL OCCURENCE COUNT FOR REAGENTS TO BE CONSIDERED > - o < PATH TO THE OUTPUT CSV FILE > - d < DIMENSONALITY OF REAGENT EMBEDDINGS > Untuk informasi lebih lanjut, jalankan python3 build_embeddings.py --help .
Embeddings reagen default dibangun dengan perintah berikut:
python3 scripts / build_embeddings . py - i data / uspto_aam_reagents / reagents - 1128297. txt - - standard data / standard_reagents . csv - d 50 - o data / uspto_aam_rgs_min_count_100_d_50 . csv - - min_count 100 Unggah file csv build oleh skrip build_embeddings.py .
Untuk wawasan tentang reagen di USPTO dan untuk mereproduksi angka -angka di koran, ikuti notebooks/results.ipynb .
@inproceedings { andronov2024 ,
title = { Curating Reagents in Chemical Reaction Data with an Interactive Reagent Space Map } ,
author = { Andronov, Mikhail and Andronova, Natalia and Wand, Michael and Schmidhuber, J{"u}rgen and Clevert, Djork-Arn{'e} } ,
booktitle = { International Workshop on AI in Drug Discovery } ,
pages = { 21--35 } ,
year = { 2024 } ,
publisher = { Springer Nature Switzerland } ,
address = { Cham } ,
doi = { 10.1007/978-3-031-72381-0_3 }
}