التعلم العميق للتعرف على كائن الرسم الحر
في هذا المشروع ، نقترح بنية تعليمية عميقة جديدة تحقق نتائج أحدث نتائج في التعرف على كائن الرسم الحر. تجعل الطبيعة المميزة والمجردة للكائنات الرسم المهمة الصعبة لخوارزمية الكمبيوتر للاعتراف بها. نظرًا لأن التعرف على الرسم ليس مفهومًا جديدًا في رؤية الكمبيوتر ، فقد أجرينا دراسة مفصلة للأعمال السابقة المتعلقة بمجال مشروعنا. فشلت النماذج المصنوعة يدويًا في التقاط الطبيعة الأيقونية للرسومات. وتم تصميم بنية التعلم العميق الحالية لصور الصور ولا تعتمد على مستويات مختلفة من التجريد الموجودة في كائنات رسم. وقد أدى ذلك إلى الرسم-الشبكة التي تجاوزت دقة المستوى البشري. يتطلب Sketch-A-Net معلومات ترتيب السكتة الدماغية للتعرف بدقة على كائنات الرسم. لا ينظر الإطار إلا في إدخال رسم في الوقت الفعلي ولا يمكنه التعامل مع مجموعة بيانات كبيرة من كائنات الرسم المتوفرة عبر الإنترنت. جميع الاكتشافات البحثية المذكورة أعلاه شددت بشكل مدهش على تبني بنية تعليمية عميقة جديدة مصممة لحل التعرف على الرسم.
تم تصميم نموذجنا على مبدأ Hebbian الذي ينص على أن الخلايا العصبية المقترنة معًا ، وتنشط معًا. نحن نعالج المشكلات الشائعة التي يتم تجاهلها في الأعمال السابقة فيما يتعلق بتصميم نموذج التعلم العميق الجديد. نقوم بحل المشكلات المتضخمة للشبكة الأوسع من خلال إدخال بنية متفرقة من الكتل التلافيفية في نموذجنا. نحن نؤسس النموذج لحل الطبيعة الرسم الكائن المميز والتجريدي باستخدام عدد كبير من عينات التدريب. تم تدريب نموذجنا على مجموعة بيانات Sketch Tu-Berlin التي تتكون من 20.000 كائن من 250 فئة. نحن نطبق تقنيات تنشيط البيانات على مجموعة البيانات لزيادة حجمها بشكل مرن. يحقق نموذجنا دقة التعرف على كسر الأرض بنسبة 84.7 ٪ وهو ما يزيد عن 10 ٪ تقريبًا من أسلافه. بعد ذلك ، نشرنا نموذجنا على منصة سحابة وقمنا بإعداد تطبيق ويب لمعالجة طلبات التعرف على رسم. على الرغم من أن نموذجنا يحقق دقة عالية ، إلا أنه لا يزال يفشل في التعرف على التشوهات داخل الفئة. هذا يشير إلى أن نموذجنا لا يزال لديه مجال للتحسين.
من خلال حل التعرف على الرسم بنجاح ، يمكننا الآن التحرك نحو حل التعرف متعدد الكائنات ، وتجزئة كائن الرسم ، واسترجاع الصور استنادًا إلى استعلام الرسم ، والاتجاه الحالي الأكثر شيوعًا في رؤية الكمبيوتر ، واستخدام شبكات العدسة التوليدية لتوليف كائنات الرسم أو استخدام كائن رسم لتوليف صورة حقيقية كاملة. الإمكانيات في هذا المجال لا حصر لها ونخطط لزيارة ومواصلة أبحاثنا في التعلم العميق لأشياء رسم حرة في المستقبل.
قم بتسجيل الدخول إلى GPU Cluster ووضع ملفات Job Condor في Forlder الخاص بك.
لتشغيل وظيفة كوندور ، استخدم الأمر التالي:
condor_submit sketch.sub
cat sketch.out
cat sketch.log
cat skecth.error
condor_q # get job ID
kill job_id
انتقل إلى مجلد تطبيق الويب وفتح محطة وتنفيذ الكود أدناه:
python manage.py runserver
لإعداد IP العام لتطبيق Django ، نفتح Ngrok و Excetue الأمر التالي لرقم المنفذ المعني (رقم منفذ التطبيق المحدد):
ngrok port_number
[1] C. Szegedy ، W. Liu ، Y. Jia ، P. Sermanet ، S. Reed ، D. Anguelov ، D. Erhan ، V. Vanhoucke و A. Rabinovich ، "Going Beept with Convolutions" ، مؤتمر IEEE حول رؤية الكمبيوتر والتعرف على الأنماط (CVPR) ، ص. 1-9 ، 2015.
[2] R. Hua و J. Collomosse ، "تقييم أداء لوصاف الخنزير الحقل المتدرج للرسم ،" رؤية الكمبيوتر وفهم الصور ، المجلد. المجلد 117 ، لا. 7 ، ص. 790-806 ، 2013.
[3] S. Ouyang ، T. Hospedales ، Y.-Z. Song and X. Li ، "مطابقة الوجه عبر الوسائط: ما وراء الرسومات المشاهدات" ، رؤية الكمبيوتر-ACCV 2014 ، المجلد. 9004 ، ص. 210-225 ، 2014.
[4] RG Schneider و T. Tuytelaars ، "Sketch Classification and Plassification Diversation باستخدام ناقلات Fisher ،" TOG ACM Trans. رسم بياني. معاملات ACM على الرسومات ، الصفحات 1-9 ، 2014.
[5] Y. LeCun ، L. Bottou ، Y. Bengio and P. Haffner ، "التعلم القائم على التدرج المطبق على التعرف على المستندات" ، وقائع IEEE ، المجلد. 86 ، لا. 11 ، ص. 2278-2324 ، 1998.
[6] Yu ، Yang ، Song ، Xiang and Hospedales ، "Sketch-A-Net الذي يتفوق على البشر" ، إجراءات مؤتمر الرؤية الآلي البريطانية 2015 ، 2015.
[7] L. T ، T. C ، S. F and C. S ، نموذج تعاطي جديد لـ ، 2015.
[8] J. G ، G. MD ، H. J و Y.-LD E ، الدعم الحسابي للرسم في تصميم مراجعة. الأساس والاتجاهات في التفاعل بين الإنسان والحاسوب ، 2009.
[9] J. MFA ، R. MSM ، O. NZS و J. Z ، "دراسة مقارنة حول طريقة الاستخراج والتعرف على بيانات CAD من رسومات CAD." ، في المؤتمر الدولي لإدارة المعلومات وهندسة ، 2009.
[10] إيتز ، م. هايز ، ج. أليكسا ومارك ، "كيف يرسم البشر الأشياء؟ ،" ACM Trans. رسم بياني. (Proc. Siggraph) ، المجلد. 31 ، لا. 4 ، ص 44: 1--44: 10 ، 2012.
[11] R. Galiazzi Schneider and T. Tuytelaars ، "Sketch Classification and analysis anvalization باستخدام ناقلات Fisher ،" وقائع Siggraph Asia 2014 ، المجلد. 33 ، لا. 6 ، ص. 1-9 ، 2014.
[12] Z. Sun ، C. Wang ، L. Zhang and L. Zhang ، "تجزئة رسم مرسومة باليد ،" Microsoft Research Asia ، Beijing ، 2012.
[13] A. Krizhevsky ، I. Sutskever and Ge Hinton ، "تصنيف ImageNet مع الشبكات العصبية التلافيفية العميقة" ، في التقدم في أنظمة معالجة المعلومات العصبية ، 2012.
[14] A. Krizhevsky ، I. Sutskever and Ge Hinton ، "ImageNetClassi reationwithdeepconvolutional NeuralNetworks" ، مؤتمر حول أنظمة معالجة المعلومات العصبية (NIPS) ، 2012.
[15] C. Szegedy ، W. Liu ، Y. Jia ، P. Sermanet ، S. Reed ، D. Anguelov ، D. Erhan ، V. Vanhoucke and A. Rabinovich ، "GoDeeperWithConvolutions ،" Computer Vision and Patteren التعرف ، 2015.
[16] K. Simonyan و A. Zisserman ، "شبكات تلافيفية عميقة للغاية للتعرف على الصور على نطاق واسع" ، المؤتمر الدولي حول تمثيلات التعلم ، 2015.
[17] C. Szegedy ، W. Liu ، Y. Jia ، P. Sermanet ، S. Reed ، D. Anguelov ، D. Erhan ، V. Vanhouck and A. Rabinovich ، "Going Beept with Confolutions ،" CVPR ، 2015.
[18] م. . براز و R.. Fitzsimonds ، "إشارات Retrograde في تطوير وتعديل المشابك ،" المراجعات النفسية ، المجلد. ، لا. ، ص. ،.
[19] س. أرورا ، أ. بهاسكارا ، ر. ج.
[20] DP Kingma and J. BA ، "Adam: A Method for Stochastic Optimization" ، في المؤتمر الدولي الثالث لتمثيل التعلم ، سان دييغو ، 2015.
[21] L. Fei-Fei ، J. Deng and K. Li ، "ImageNet: بناء قاعدة بيانات صور واسعة النطاق ،" Journal of Vision ، Vol. 9 ، لا. 8 ، ص. 1037-1037 ، 2010.
[22] P. الدولار ، "اكتشاف الحافة السريعة باستخدام الغابات المهيكلة" ، معاملات IEEE على تحليل الأنماط وذكاء الآلة ، المجلد. 37 ، لا. 8 ، ص. 1558-1570 ، 2015.
[23] توزيع برامج Anaconda ، برنامج الكمبيوتر. مقابل. 2-2.4.0. Continuum Analytics ، 2016. [24] F. Chollet ، Keras ، url {https://github.com/fchollet/keras} ، 2015.
[25] GE Krasner و St Pope ، "كتاب طبخ لاستخدام نموذج واجهة مستخدم وحدة التحكم في طراز View في Smalltalk-80" ، The Journal of Object Technology ، المجلد. ، لا. ، ص. ،.
[26] DL Parnas و PC Clements ، "عملية تصميم عقلانية: كيف ولماذا تزييفها" ، هندسة البرمجيات ، معاملات IEEE ، المجلد. ، لا. ، ص. 251-257 ،.
[27] JDONAHUE ، JIAYQ ، Vinyals ، Jhoffman ، Nzhang ، Etzeng and Trevor ، "Decaf: ميزة تنشيط تلافيفية عميقة ،" 2013.
[28] R. Girshick ، J. Donahue ، T. Darrell and J. Malik ، "التسلسلات الهرمية للميزات الغنية للكشف الدقيق للكائنات والتجزئة الدلالية" ، التقرير التقني ، UC Berkely ، Berkely ، 2014.
[29] J. Uijlings ، "البحث الانتقائي عن التعرف على الكائنات" ، IJCV ، هولندا ، 2012.
[30] "البنية التحتية العالمية" ،. [متصل]. متاح: https://aws.amazon.com/about-aws/global-infracture/. [تم الوصول إليه 1 4 2017].
[31] م. HJ أ. أنا إيتز ، "كيف يرسم البشر الأشياء؟ ،" ACM Trans. رسم بياني. (Proc. Siggraph) ، المجلد. 31 ، لا. 4 ، ص 44: 1--44: 10 ، 2012.
[32] ي. Lecun ، "Lenet-5 ، الشبكات العصبية التلافيفية" ،. [متصل]. متاح: http://yann.lecun.com/exdb/lenet/. [تم الوصول إليه 2 4 2017].
[33] H. Li Y ، S. TM و GS Y ، "التعرف على رسم Freehand بواسطة Multi-Kernel Learning ،" CVIU ، 2015.
[34] س.