เว็บแอปสำหรับการสำรวจพื้นที่ฝังตัวของรีเอเจนต์ที่ใช้ในข้อมูลปฏิกิริยา อธิบายไว้ในรีเอเจนต์การดูแลกระดาษของเราในข้อมูลปฏิกิริยาเคมีด้วยแผนที่พื้นที่รีเอเจนต์แบบโต้ตอบ
แอพนี้เป็นวิธีที่มองเห็นได้ในการสำรวจสถิติการเกิดร่วมของรีเอเจนต์ในปฏิกิริยา แอพนี้แสดงการคาดการณ์ UMAP ของ reagent embeddings ที่ได้มาจากการสลาย ตัวเมทริกซ์ PMI ของรีเอเจนต์ที่มี การสลายตัวของค่าเอกพจน์
เมทริกซ์ PMI มี คะแนนข้อมูลร่วมกันแบบจุด สำหรับสองรีเอเจนต์ A และ B คะแนน PMI ของพวกเขาได้มาจากการนับการเกิดปฏิกิริยา
ปัจจัยเมทริกซ์นี้โดยใช้ SVD ให้ผลผลิตที่หนาแน่นสำหรับรีเอเจนต์ซึ่งมีแนวโน้มที่จะคล้ายกันสำหรับสองรีเอเจนต์หากพบรีเอเจนต์เหล่านี้
ในบริบทที่คล้ายกันเช่นร่วมกับรีเอเจนต์อื่น ๆ ตัวอย่างเช่นตัวเร่งปฏิกิริยาแพลเลเดียมสองตัวที่แตกต่างกันสำหรับการมีเพศสัมพันธ์ของซูซูกิจะไม่ถูกนำมาใช้ร่วมกันในปฏิกิริยา แต่อาจใช้กับฐานและตัวทำละลายเดียวกัน
ดังนั้นตัวเร่งปฏิกิริยาทั้งสองจะได้รับการฝังตัวที่คล้ายกันและจะอยู่ใกล้กัน จากนั้นจะถูกฉายบนระนาบ 2D และพื้นผิวของทรงกลมหน่วย
โดยอัลกอริทึม UMAP มันเป็นอัลกอริทึมการลดขนาดที่พยายามรักษาความสัมพันธ์ทางไกลระหว่างจุดดั้งเดิมเมื่อฉายไปยังพื้นที่มิติที่ต่ำกว่า
แผนที่ของการคาดการณ์ UMAP ของ reagent embeddings จะแสดงในแอพ
เรียกใช้คำสั่งต่อไปนี้เพื่อติดตั้งสภาพแวดล้อมสำหรับแอพ:
conda create - n reagent_emb_vis_app python = 3.10 - y
conda activate reagent_emb_vis_app
pip install - r requirements . txt
pip install - e .รันแอพด้วยคำสั่งต่อไปนี้
python3 app . py แอพจะทำงานบน http: // localhost: 8050 โดยค่าเริ่มต้นจะแสดงแผนที่ของ USPTO reagent Embeddings ที่กำหนดโดย AAM ที่อ่านข้อมูลจาก data/default/uspto_aam_rgs_min_count_100_d_50.csv ผู้ใช้ยังสามารถอัปโหลดข้อมูลรีเอเจนต์ของตนเองได้พร้อมสคริปต์ที่เหมาะสมตามวิธีที่อธิบายไว้ด้านล่าง
data/standard_reagents.csv มีข้อมูลเกี่ยวกับรีเอเจนต์ ~ 600 ที่เกิดขึ้นใน USPTO พร้อมบทบาทและชื่อของพวกเขา รายการในไฟล์ถูกสั่งโดยความถี่ที่เกิดขึ้นในลำดับจากมากไปน้อย
เราดาวน์โหลดชุดข้อมูล USPTO โดยใช้ rxnutils โดยดำเนินการคำสั่งต่อไปนี้จากไดเรกทอรี data :
python - m rxnutils . data . uspto . download python - m rxnutils . data . uspto . combine มันดาวน์โหลด data/uspto_data.csv จากนั้นเราทำการกรองเริ่มต้นของชุดข้อมูลนี้ด้วยคำสั่งต่อไปนี้ที่ดำเนินการจากไดเรกทอรีโครงการ:
python3 - m rxnutils . pipeline . runner - - pipeline uspto / pipeline . yml - - data data / uspto_data . csv - - output data / uspto_filtered . csvในที่สุดเราก็แยกรีเอเจนต์ออกจากชุดข้อมูลที่กรอง:
python3 scripts / prepare_reagents . py - i data / uspto_filtered . csv - - output_dir uspto_aam_reagents - c ReactionSmiles - - reagents aam - - fragment_grouping cxsmiles - - canonicalization remove_aam - - n_jobs 9 - - min_reagent_occurrences 1 - - verbose สคริปต์ prepare_reagents.py เป็นตัวเลือกต่าง ๆ ตัวอย่างเช่นมันสามารถกำหนดรีเอเจนต์ได้โดยการทำแผนที่อะตอมหรือลายนิ้วมือ
การฝังตัวสำหรับรีเอเจนต์คำนวณโดยใช้สคริปต์ build_embeddings.py ตามไฟล์ที่มีรีเอเจนต์ที่ใช้ในรีเอเจนต์ที่เกี่ยวข้อง
ไฟล์อินพุตจะต้องมีชุดรอยยิ้มรีเอเจนต์สำหรับปฏิกิริยาบางอย่างในทุก ๆ แถวและรอยยิ้มเหล่านั้นจะต้องคั่นด้วยตัวคั่นบางตัว เช่น ; -
ตัวอย่าง:
CCO ; c1ccccc1
[ H - ].[ Na + ]; C1CCOC1
NN ทุกแถวในไฟล์นี้มีรีเอเจนต์สำหรับปฏิกิริยาบางอย่างในชุดข้อมูลที่น่าสนใจ ปฏิกิริยาของตัวเองไม่เกี่ยวข้อง สคริปต์ prepare_reagents.py เตรียมอินพุตที่เหมาะสมสำหรับ build_embeddings.py
แอพใช้พิกัดในไฟล์ CSV ซึ่งเตรียมโดยใช้สคริปต์ build_embeddings.py
เรียกใช้คำสั่งต่อไปนี้:
python3 scripts / build_embeddings . py - i < PATH TO THE TEXT FILE WITH REAGENT SMILES > - - standard data / standard_reagents . csv - - min_count < MINIMAL OCCURENCE COUNT FOR REAGENTS TO BE CONSIDERED > - o < PATH TO THE OUTPUT CSV FILE > - d < DIMENSONALITY OF REAGENT EMBEDDINGS > สำหรับข้อมูลเพิ่มเติมเรียกใช้ python3 build_embeddings.py --help
reagent embeddings เริ่มต้นถูกสร้างขึ้นด้วยคำสั่งต่อไปนี้:
python3 scripts / build_embeddings . py - i data / uspto_aam_reagents / reagents - 1128297. txt - - standard data / standard_reagents . csv - d 50 - o data / uspto_aam_rgs_min_count_100_d_50 . csv - - min_count 100 อัปโหลดไฟล์ CSV build โดย build_embeddings.py script
สำหรับข้อมูลเชิงลึกเกี่ยวกับรีเอเจนต์ใน USPTO และเพื่อทำซ้ำตัวเลขในกระดาษโปรดติดตาม notebooks/results.ipynb บุ๊ค
@inproceedings { andronov2024 ,
title = { Curating Reagents in Chemical Reaction Data with an Interactive Reagent Space Map } ,
author = { Andronov, Mikhail and Andronova, Natalia and Wand, Michael and Schmidhuber, J{"u}rgen and Clevert, Djork-Arn{'e} } ,
booktitle = { International Workshop on AI in Drug Discovery } ,
pages = { 21--35 } ,
year = { 2024 } ,
publisher = { Springer Nature Switzerland } ,
address = { Cham } ,
doi = { 10.1007/978-3-031-72381-0_3 }
}