Apprentissage en profondeur pour la reconnaissance d'objets de croquis à main levée
Dans ce projet, nous proposons une nouvelle architecture d'apprentissage en profondeur qui obtient des résultats de pointe dans la reconnaissance d'objets de croquis libre. La nature hautement emblématique et abstraite des objets Sketch rend la tâche difficile pour un algorithme informatique de les reconnaître. Comme la reconnaissance des croquis n'est pas un nouveau concept dans la vision par ordinateur, nous avons mené une étude détaillée des travaux précédents liés à notre domaine de projet. Les modèles fabriqués à la main n'ont pas réussi à capturer la nature emblématique des croquis. Et les architectures d'apprentissage en profondeur existantes sont adaptées aux images photographiées et n'adoptent pas aux différents niveaux d'abstraction présents dans les objets de croquis. Cela a abouti à Sketch-A-Net qui a dépassé la précision du niveau humain. Sketch-a-net nécessite des informations sur l'ordre de course pour reconnaître avec précision les objets Sketch. Le framework ne considère que les entrées de croquis en temps réel et ne peut pas gérer un grand ensemble de données d'objets Sketch disponibles en ligne. Toutes les découvertes de recherche ci-dessus ont résisté à résister à adopter une nouvelle architecture d'apprentissage en profondeur qui est adaptée pour résoudre la reconnaissance des croquis.
Notre modèle est conçu sur le principe hébbien qui indique que les neurones qui sont couplés ensemble, s'activent ensemble. Nous abordons les problèmes communs qui sont négligés dans les travaux précédents concernant une nouvelle conception de modèle d'apprentissage en profondeur. Nous résolvons les problèmes de sur-ajustement d'un réseau plus large en introduisant une structure clairsemée de blocs convolutionnels dans notre modèle. Nous concevons le modèle pour résoudre l'objet Sketch Nature emblématique et abstrait en utilisant un grand nombre d'échantillons de formation. Notre modèle est formé sur l'ensemble de données de croquis Tu-Berlin qui se compose de 20 000 objets de 250 catégories. Nous appliquons des techniques de data-Augmentation sur l'ensemble de données pour augmenter élastiquement sa taille. Notre modèle atteint une précision de reconnaissance révolutionnaire de 84,7%, soit environ 10% de plus que ses prédécesseurs. Ensuite, nous avons déployé notre modèle sur une plate-forme cloud et configuré une application Web pour traiter les demandes de reconnaissance des croquis. Même si notre modèle atteint une précision élevée, il ne reconnaît toujours pas les déformations intra-classe. Cela souligne que notre modèle a toujours place à l'amélioration.
En résolvant avec succès la reconnaissance des croquis, nous pouvons désormais évoluer vers la résolution de la reconnaissance multi-objets, la segmentation des objets de croquis, la récupération d'image basée sur la requête de croquis et la tendance actuelle la plus populaire dans la vision de l'ordinateur, l'utilisation de réseaux adversaires génératifs pour synthèse des objets de croquis ou utilisent un objet de croquis pour synthèse une image complète de photo réaliste. Les possibilités de ce domaine sont infinies et nous prévoyons de visiter et de poursuivre nos recherches en Deep Learning pour des objets de croquis libre à l'avenir.
Connectez-vous au cluster GPU et placez les fichiers de travail Condor dans votre Forlder public.
Pour exécuter le travail Condor, utilisez la commande suivante:
condor_submit sketch.sub
cat sketch.out
cat sketch.log
cat skecth.error
condor_q # get job ID
kill job_id
Accédez au dossier d'application Web et ouvrez le terminal et exécutez le code ci-dessous:
python manage.py runserver
Pour configurer Public IP pour l'application Django, nous ouvrons NGROK et Excetuez la commande suivante pour le numéro de port respectif (numéro de port spécifique de l'application):
ngrok port_number
[1] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke et A. Rabinovich, «Going Depear with Convolutions», la conférence IEEE sur la vision et la reconnaissance des modèles (CVPR), pp. 1-9, 2015.
[2] R. Hua et J. Collomosse, «Une évaluation des performances du descripteur de HOG de champ de gradient pour des croquis,« Computer Vision and Image Comprendre, vol. Volume 117, no. 7, pp. 790-806, 2013.
[3] S. Oulang, T. Hospedales, Y.-Z. Song et X. Li, "Cross-Modal Face Matching: Beyond Viewed Sketches", Computer Vision - ACCV 2014, vol. 9004, pp. 210-225, 2014.
[4] RG Schneider et T. Tuytelaars, "Croquis de classification et analyse basée sur la classification à l'aide de vecteurs Fisher", TOG ACM Trans. Graphique. ACM Transactions on Graphics, pp. 1-9, 2014.
[5] Y. LeCun, L. Bottou, Y. Bengio et P. Haffner, «Un apprentissage basé sur le gradient s'appliquait à la reconnaissance des documents», Actes de l'IEEE, vol. 86, no. 11, pp. 2278-2324, 1998.
[6] Yu, Yang, Song, Xiang et Hospedales, «Sketch-a-net That Beats Humans», Procédures de la British Mined Vision Conference 2015, 2015.
[7] L. T, T. C, S. F et C. S, un nouveau modèle de reconnaissance pour, 2015.
[8] J. G, G. MD, H. J et Y.-LD E, Support informatique pour l'esquisse dans la conception d'une revue. Foundation and Trends in Human-Computer Interaction, 2009.
[9] J. MFA, R. MSM, O. NZS et J. Z, «Une étude comparative sur la méthode d'extraction et de reconnaissance des données de CAO des dessins de CAD», dans International Conference on Information Management and Engineering, 2009.
[10] Eitz, M. a. Hays, J. a. Alexa et Marc, "Comment les humains esquissent-ils des objets?", ACM Trans. Graphique. (Proc. Siggraph), vol. 31, no. 4, pp. 44: 1-44: 10, 2012.
[11] R. Galizzi Schneider et T. Tuytelaars, «Croquis Classification and Classification-Adriven Analysis Using Fisher Vectors», Actes de Siggraph Asia 2014, vol. 33, no. 6, pp. 1-9, 2014.
[12] Z. Sun, C. Wang, L. Zhang et L. Zhang, «Segmentation des croquis à la main libre», Microsoft Research Asia, Beijing, 2012.
[13] A. Krizhevsky, I. Sutskever et GE Hinton, «Imagenet Classification with Deep Convolutionnel Neural Networks», dans Advances in Neural Information Processing Systems, 2012.
[14] A. Krizhevsky, I. Sutskever et GE Hinton, "ImageNetClassi fi cation withdeepconvolutional neuralnetworks", Conference on Neural Information Processing Systems (NIPS), 2012.
[15] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke et A. Rabinovich, "GoingdeeperwithConvolutions", Computer Vision and Protend Reconnaissance, 2015.
[16] K. Simonyan et A. Zisserman, «Networks convolutionnels très profonds pour la reconnaissance d'images à grande échelle», Conférence internationale sur les représentations de l'apprentissage, 2015.
[17] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhouck et A. Rabinovich, «Going plus avec des convolutions», CVPR, 2015.
[18] M.-M. . Caca et. .. Fitzsimonds, "Signalisation rétrograde dans le développement et la modification des synapses", Psychological Reviews, vol. , Non. , p. ,.
[19] S. Arora, A. Bhaskara, R. Ge et T. Ma, «ProvableBoundsForlearningsoMedeepresentations», Corr, 2013.
[20] DP Kingma et J. Ba, «Adam: A Method for Stochastic Optimization», dans la 3e Conférence internationale pour la représentation de l'apprentissage, San Diego, 2015.
[21] L. Fei-Fei, J. Deng et K. Li, «Imagenet: Constructing a à grande échelle de données d'images», Journal of Vision, vol. 9, no. 8, pp. 1037-1037, 2010.
[22] P. Dollar, «Détection de bord rapide à l'aide de forêts structurées», Transactions IEEE sur l'analyse des modèles et l'intelligence machine, vol. 37, no. 8, pp. 1558-1570, 2015.
[23] Distribution des logiciels Anaconda, logiciels informatiques. Vers. 2-2.4.0. Continuum Analytics, 2016. [24] F. Chollet, Keras, URL {https://github.com/fchollet/keras}, 2015.
[25] GE Krasner et St Pope, «Un livre de cuisine pour l'utilisation du paradigme d'interface utilisateur du contrôleur modèle - View dans SmallTalk-80», The Journal of Object Technology, vol. , Non. , p. ,.
[26] DL Parnas et PC Clements, «Un processus de conception rationnelle: comment et pourquoi le simuler», Software Engineering, IEEE Transactions, vol. , Non. , p. 251–257 ,.
[27] Jdonahue, Jiayq, Vinyals, Jhoffman, Nzhang, Etzeng et Trevor, "DeCaf: A Deep Convolutional Activation Feature", 2013.
[28] R. Girshick, J. Donahue, T. Darrell et J. Malik, «Rich Feature Hiérarchies for précis Detection et Semantic Segmentation», Tech Report, UC Berkely, Berkely, 2014.
[29] J. Uijlings, «Selective Recherche for Object Recognition», IJCV, Pays-Bas, 2012.
[30] «Infrastructure mondiale» ,. [En ligne]. Disponible: https://aws.amazon.com/about-aws/global-infrastructure/. [Consulté 1 4 2017].
[31] M. a. HJ a. Suis Eitz, "Comment les humains esquissent-ils les objets?" "ACM trans. Graphique. (Proc. Siggraph), vol. 31, no. 4, pp. 44: 1-44: 10, 2012.
[32] Y .. LeCun, «LENET-5, Réseaux de neurones convolutionnels»,. [En ligne]. Disponible: http://yann.lecun.com/exdb/lenet/. [Consulté 2 4 2017].
[33] H. Li Y, S. TM et GS Y, «Reconnaissance de croquis à main levée par Multi-Kernel Learning», CVIU, 2015.
[34] S. li y et gs y, «Sketch Reconntion by Ensemble Matching of Structured Fontials», BMVC, 2013.