تطبيق الويب لاستكشاف مساحة التضمين للكواشف المستخدمة في بيانات التفاعل. الموصوفة في الكواشف الورقية الخاصة بنا في بيانات التفاعل الكيميائي مع خريطة فضاء كاشف تفاعلية.
التطبيق هو وسيلة مرئية لاستكشاف إحصائيات التداول المشترك للكواشف في ردود الفعل. يعرض التطبيق توقعات UMAP لتضمينات الكاشف المستمدة من خلال تحلل مصفوفة PMI للكواشف مع تحلل القيمة الفردية.
تحتوي مصفوفة PMI على درجات المعلومات المتبادلة . بالنسبة لكواشرين A و B ، يتم اشتقاق درجة PMI الخاصة بهم من تهم حدوث كاشف.
عوامل هذه المصفوفة باستخدام SVD تعطيات كثيفة للكواشف ، والتي تميل إلى أن تكون متشابهة مع اثنين من الكواشف إذا تمت مواجهة هذه الكواشف
في سياقات مماثلة ، IE مع نفس الكواشف الأخرى. على سبيل المثال ، لن يتم استخدام اثنين من محفزات البلاديوم المختلفة لاقتران سوزوكي معًا في رد فعل ، ولكن يمكن استخدامهما مع نفس القواعد والمذيبات.
لذلك ، سيحصل هذان المحفزان على تضمينات مماثلة وستقرب معًا. ثم يتم عرض تلك التضمينات على المستوى ثنائي الأبعاد وسطح وحدة الوحدة
بواسطة خوارزمية UMAP. إنها خوارزمية لخفض الأبعاد تحاول الحفاظ على علاقات المسافة بين النقاط الأصلية عند عرضها إلى مساحة أقل الأبعاد.
يتم عرض خريطة توقعات UMAP لتضمينات الكاشف في التطبيق.
قم بتشغيل الأوامر التالية لتثبيت البيئة للتطبيق:
conda create - n reagent_emb_vis_app python = 3.10 - y
conda activate reagent_emb_vis_app
pip install - r requirements . txt
pip install - e .قم بتشغيل التطبيق مع الأمر التالي
python3 app . py سيتم تشغيل التطبيق على http: // localhost: 8050. بشكل افتراضي ، يعرض خريطة التضمينات الكاشف في USPTO التي تحددها AAM قراءة المعلومات من data/default/uspto_aam_rgs_min_count_100_d_50.csv . يمكن للمستخدمين أيضًا تحميل بيانات الكاشف الخاصة بهم ، التي يتم إعدادها باستخدام البرامج النصية المناسبة بالطريقة الموضحة أدناه.
تحتوي data/standard_reagents.csv على المعلومات التي تحدث حوالي 600 كواشف تحدث في USPTO ، مع أدوارها وأسمائها. يتم طلب الإدخالات في الملف عن طريق تردد الحدوث في ترتيب تنازلي.
نقوم بتنزيل مجموعة بيانات USPTO باستخدام rxnutils من خلال تنفيذ الأوامر التالية من دليل data :
python - m rxnutils . data . uspto . download python - m rxnutils . data . uspto . combine يقوم بتنزيل data/uspto_data.csv . بعد ذلك ، نقوم بالتصفية الأولي لمجموعة البيانات هذه مع الأمر التالي الذي تم تنفيذه من دليل المشروع:
python3 - m rxnutils . pipeline . runner - - pipeline uspto / pipeline . yml - - data data / uspto_data . csv - - output data / uspto_filtered . csvأخيرًا ، نستخرج الكواشف من مجموعة البيانات المصفاة:
python3 scripts / prepare_reagents . py - i data / uspto_filtered . csv - - output_dir uspto_aam_reagents - c ReactionSmiles - - reagents aam - - fragment_grouping cxsmiles - - canonicalization remove_aam - - n_jobs 9 - - min_reagent_occurrences 1 - - verbose البرنامج النصي prepare_reagents.py كخيارات مختلفة. على سبيل المثال ، يمكن أن تحدد الكواشف إما عن طريق رسم خرائط الذرة أو بصمات الأصابع.
يتم حساب التضمينات للكواشف باستخدام البرنامج النصي build_embeddings.py استنادًا إلى ملف يحتوي على الكواشف المستخدمة في الكواشف الخاصة بها.
يجب أن يحتوي ملف الإدخال على مجموعات ابتسامات كاشف لبعض التفاعل في كل صف ، ويجب فصل تلك الابتسامات بواسطة بعض الفاصل. على سبيل المثال ; .
مثال:
CCO ; c1ccccc1
[ H - ].[ Na + ]; C1CCOC1
NN يحتوي كل صف في هذا الملف على الكواشف لبعض رد الفعل في مجموعة البيانات ذات الاهتمام. ردود الفعل نفسها ليست ذات صلة. يقوم البرنامج النصي prepare_reagents.py بإعداد إدخال مناسب لـ build_embeddings.py .
يستخدم التطبيق الإحداثيات في ملف CSV ، والذي يتم إعداده باستخدام البرنامج النصي build_embeddings.py .
قم بتشغيل الأمر التالي:
python3 scripts / build_embeddings . py - i < PATH TO THE TEXT FILE WITH REAGENT SMILES > - - standard data / standard_reagents . csv - - min_count < MINIMAL OCCURENCE COUNT FOR REAGENTS TO BE CONSIDERED > - o < PATH TO THE OUTPUT CSV FILE > - d < DIMENSONALITY OF REAGENT EMBEDDINGS > لمزيد من المعلومات ، قم بتشغيل python3 build_embeddings.py --help .
تم بناء تضمينات الكاشف الافتراضي مع الأمر التالي:
python3 scripts / build_embeddings . py - i data / uspto_aam_reagents / reagents - 1128297. txt - - standard data / standard_reagents . csv - d 50 - o data / uspto_aam_rgs_min_count_100_d_50 . csv - - min_count 100 قم بتحميل ملف CSV بواسطة البرنامج النصي build_embeddings.py .
للحصول على رؤى حول الكواشف في USPTO وإعادة إنتاج الأرقام في الورقة ، يرجى اتباع notebooks/results.ipynb .
@inproceedings { andronov2024 ,
title = { Curating Reagents in Chemical Reaction Data with an Interactive Reagent Space Map } ,
author = { Andronov, Mikhail and Andronova, Natalia and Wand, Michael and Schmidhuber, J{"u}rgen and Clevert, Djork-Arn{'e} } ,
booktitle = { International Workshop on AI in Drug Discovery } ,
pages = { 21--35 } ,
year = { 2024 } ,
publisher = { Springer Nature Switzerland } ,
address = { Cham } ,
doi = { 10.1007/978-3-031-72381-0_3 }
}