يحتوي هذا المستودع على رمز يمكن استخدامه لتصور عشرات الآلاف من الصور في إسقاط ثنائي الأبعاد يتم تجميع صور مماثلة معًا. يستخدم تحليل الصور روابط تأسيس TensorFlow ، وتستخدم طبقة التصور عارض WebGL مخصص.
انظر سجل التغيير للتحديثات الأخيرة.

نحافظ على العديد من كتب الطبخ الخاصة بالتثبيت على الإنترنت.
بشكل عام ، لتثبيت تبعيات Python ، نوصيك بتثبيت Anaconda ثم إنشاء بيئة كوندا مع وقت تشغيل Python 3.7:
conda create --name=3.7 python=3.7
source activate 3.7ثم يمكنك تثبيت التبعيات عن طريق التشغيل:
bash
pip install https://github.com/yaledhlab/pix-plot/archive/master.zip
يتطلب موقع الويب الذي ينشئه Pixplot في النهاية متصفحًا مدعومًا على الويب.
إذا كان لديك متصفح يدعم WebGL ودليل مليء بالصور للمعالجة ، فيمكنك إعداد البيانات للمشاهد عن طريق تثبيت التبعيات أعلاه ثم التشغيل:
pixplot --images " path/to/images/*.jpg "للاطلاع على نتائج هذه العملية ، يمكنك بدء تشغيل خادم ويب عن طريق التشغيل:
# for python 3.x
python -m http.server 5000
# for python 2.x
python -m SimpleHTTPServer 5000 سيكون التصور متاحًا بعد ذلك على http://localhost:5000/output .
لاكتساب بعض البيانات التي يمكن من خلالها بناء مؤامرة ، لا تتردد في استخدام بعض البيانات التي أعدتها DHLAB من Yale:
pip install image_datasetsثم في نص Python:
import image_datasets
image_datasets . oslomini . download () سيقوم الأمر .download() بإنشاء دليل يسمى datasets في دليل العمل الحالي الخاص بك. سيحتوي دليل datasets هذا على دليل فرعي يسمى "Oslomini" ، والذي يحتوي على دليل للصور ودليل آخر مع ملف CSV لبيانات تعريف الصور. باستخدام تلك البيانات ، يمكننا بعد ذلك بناء مؤامرة:
pixplot --images " datasets/oslomini/images/* " --metadata " datasets/oslomini/metadata/metadata.csv " إذا كنت بحاجة إلى رسم أكثر من 100000 صورة ولكن ليس لديك بطاقة رسومات باهظة الثمن يمكن من خلالها تصور شاشات ويب ضخمة ، فقد ترغب في تحديد معلمة "Cell_size" الأصغر عند إنشاء مؤامرة. تتحكم وسيطة "cell_size" في حجم كل صورة في ملفات أطلس ؛ تتطلب القيم الأصغر تقديم عدد أقل من القوام ، مما يقلل من ذاكرة الوصول العشوائي (GPU
pixplot --images " path/to/images/*.jpg " --cell_size 10خوارزمية UMAP حساسة بشكل خاص لثلاثة مقاييس فرط النطاقات:
--min_dist: determines the minimum distance between points in the embedding
--n_neighbors: determines the tradeoff between local and global clusters
--metric: determines the distance metric to use when positioning points
قام Leland McInnes ، المبدع ، Leland McInnes ، بإلقاء نظرة عامة مفيدة على هذه المقاييس المفرطة. لتحديد القيمة لواحد أو أكثر من هذه المقاييس المفرطة عند بناء مؤامرة ، يمكن للمرء استخدام الأعلام أعلاه ، على سبيل المثال:
pixplot --images " path/to/images/*.jpg " --n_neighbors 2إذا تم تثبيته ومتاحته ، يستخدم Pixplot التجميع المكاني القائم على الكثافة الهرمية للتطبيقات مع الضوضاء ، وصقل خوارزمية DBSCAN السابقة ، للعثور على النقاط الساخنة في التصور. قد تكون مهتمًا بالتشاور مع هذا التفسير لكيفية عمل HDBSCAN.
نصيحة: إذا كنت تستخدم HDBSCAN ووجدت أن Pixplot ينشئ عددًا قليلاً جدًا (أو واحد فقط) "النقاط الساخنة التلقائية" ، فحاول خفض --min_cluster_size من الافتراضي 20. هذا يحدث غالبًا مع مجموعات بيانات أصغر (أقل من بضعة آلاف.)
إذا لم يكن HDBSCAN متاحًا ، فسوف يعود Pixplot إلى تنفيذ Scikit-Learn لل kmeans.
إذا كان لديك بيانات تعريف مرتبط بكل من صورك ، فيمكنك تمرير هذا البيانات الوصفية عند تشغيل البرنامج النصي لمعالجة البيانات. سيسمح للقيام بذلك لمشاهد Pixplot بعرض البيانات الوصفية المرتبطة بالصورة عندما ينقر المستخدم على تلك الصورة.
لتحديد البيانات الوصفية لجمع الصور الخاص بك ، يمكنك إضافة --metadata=path/to/metadata.csv إلى الأمر الذي تستخدمه للاتصال بالبرنامج النصي للمعالجة. على سبيل المثال ، يمكنك تحديد:
pixplot --images " path/to/images/*.jpg " --metadata " path/to/metadata.csv "يجب أن تكون البيانات الوصفية في ملف قيمة مفصل للفاصلة ، ويجب أن تحتوي على صف واحد لكل صورة إدخال ، ويجب أن تحتوي على رؤوس تحدد ترتيب العمود. فيما يلي ملف تعريف بيانات التعريف:
| اسم الملف | فئة | العلامات | وصف | الرابط الثابت | سنة |
|---|---|---|---|---|---|
| Bees.jpg | أصفر | أ | ب | ج | ركب النحل | https: // ... | 1776 |
| CATS.JPG | خطير | ب | ج | د | بيجامات القطط | https: // ... | 1972 |
يتم قبول ملصقات الأعمدة التالية:
| عمود | وصف |
|---|---|
| اسم الملف | اسم ملف الصورة |
| فئة | تسمية فئوية للصورة |
| العلامات | قائمة محددة للأنابيب من العلامات الفئوية للصورة |
| وصف | وصف نص عادي لمحتويات الصورة |
| الرابط الثابت | رابط للصورة المستضافة على مجال آخر |
| سنة | طابع زمني عام للصورة (يجب أن يكون عددًا صحيحًا) |
| ملصق | ملصق فئوي يستخدم لإسقاط UMAP الخاضع للإشراف |
| لات | الموضع الطولي للصورة |
| الغاز الطبيعي المسال | الموضع الطولي للصورة |
إذا كنت ترغب في معالجة الصور التي يتم استضافتها على خادم IIIF ، فيمكنك تحديد قائمة NewLine Limited من صورة IIIF كما هو الحال مع --images . على سبيل المثال ، يمكن حفظ ما يلي على أنه manifest.txt :
https://manifests.britishart.yale.edu/manifest/40005
https://manifests.britishart.yale.edu/manifest/40006
https://manifests.britishart.yale.edu/manifest/40007
https://manifests.britishart.yale.edu/manifest/40008
https://manifests.britishart.yale.edu/manifest/40009 يمكن للمرء بعد ذلك تحديد هذه الصور كمدخلات عن طريق تشغيل pixplot --images manifest.txt --n_clusters 2
| وصلة | عدد الصور | معلومات التجميع | تصفح الصور | تنزيل لـ pixplot |
|---|---|---|---|---|
| Newsplot: 1910-1912 | 24،026 | مجموعة جورج جرانثام باين | الأخبار في 1910s | الصور ، البيانات الوصفية |
| Bildefelt I Oslo | 31،097 | Oslobilder | البحث المتقدم ، 1860-1924 | الصور ، البيانات الوصفية |
يود DHLAB أن يشكر Cyril Diagne و Nicolas Barradeau ، رائدين مطورو تجارب الفنون في Google الرائعة TSNE ، على مشاركة الأفكار بسخاء حول تقنيات التحسين المستخدمة في هذا المشاهد ، وليليانا ماري لتسمية هذا المشاهد pixplot.