Tiefes Lernen für Freihand -Skizzenobjekterkennung
In diesem Projekt schlagen wir eine neuartige Architektur für Deep Learning vor, die hochmoderne Ergebnisse in der Erkennung von Skizzenobjekten erzielt. Die äußerst ikonische und abstrakte Natur von Skizzenobjekten macht es für einen Computeralgorithmus schwierig, sie zu erkennen. Da Skizzenerkennung kein neues Konzept in der Computer Vision ist, haben wir eine detaillierte Untersuchung der vorherigen Arbeiten in Bezug auf unsere Projektdomäne durchgeführt. Die handgefertigten Modelle konnten die ikonische Natur von Skizzen nicht erfassen. Und die vorhandenen Deep -Learning -Architekturen sind auf Fotobilder zugeschnitten und übernehmen nicht die unterschiedlichen Abstraktionsebenen, die in Skizzenobjekten vorhanden sind. Dies führte zu Sketch-A-Net, die die Genauigkeit der menschlichen Ebene übertrafen. Sketch-a-Net erfordert Schlaganfallauftragsinformationen, um Skizzenobjekte genau zu erkennen. Das Framework berücksichtigt nur Echtzeit -Skizzeneingänge und kann nicht einen großen Datensatz von Sketchobjekten verarbeiten, die online verfügbar sind. Alle oben genannten Forschungsentdeckungen betonten es, eine neue Deep -Learning -Architektur zu übernehmen, die auf die Lösung von Skizzenerkennung zugeschnitten ist.
Unser Modell ist auf dem hebbischen Prinzip ausgelegt, das besagt, dass Neuronen, die miteinander verbunden sind, zusammen aktivieren. Wir befassen uns mit allgemeinen Themen, die in früheren Arbeiten über ein neues Deep -Learning -Modelldesign übersehen werden. Wir lösen Überanpassungsprobleme eines breiteren Netzwerks, indem wir eine spärliche Struktur von Faltungsblöcken in unserem Modell einführen. Wir konstruieren das Modell, um Sketch -Objekt -Ikone und abstrakte Natur zu lösen, indem wir eine große Anzahl von Trainingsproben verwenden. Unser Modell ist auf dem Tu-Berlin-Sketch-Datensatz ausgebildet, das aus 20.000 Objekten aus 250 Kategorien besteht. Wir wenden Daten-Augmentation-Techniken im Datensatz an, um seine Größe elastisch zu erhöhen. Unser Modell erreicht eine bahnbrechende Erkennungsgenauigkeit von 84,7%, was ~ 10% mehr beträgt als seine Vorgänger. Anschließend haben wir unser Modell auf einer Cloud-Plattform bereitgestellt und eine Webanwendung eingerichtet, um Skizzenerkennungsanforderungen zu verarbeiten. Obwohl unser Modell eine hohe Genauigkeit erreicht, erkennt es die Intra-Klasse-Verformungen immer noch nicht. Dies weist darauf hin, dass unser Modell noch Verbesserungsraum hat.
Durch die erfolgreiche Lösung von Skizzenerkennung können wir uns nun zur Lösung von Multi-Objekt-Erkennung, Skizzenobjektsegmentierung, Bildabnahme auf der Grundlage der Skizzenabfrage und des beliebtesten aktuellsten Trends im Computervision, der Verwendung generativen kontinativen Netzwerke für Synthese-Skizzenobjekte oder verwenden oder ein Skizzenobjekt verwenden, um ein vollständiges photo realistisches Bild zu verwenden, zu lösen. Die Möglichkeiten in diesem Bereich sind endlos und wir planen, in Zukunft unsere Forschung in Deep Learning for Free-Hand-Skizzenobjekten zu besuchen und fortzusetzen.
Melden Sie sich bei GPU -Cluster an und platzieren Sie die Condor -Jobdateien in Ihrer Öffentlichkeit.
Verwenden Sie den folgenden Befehl, um den Condor -Job auszuführen:
condor_submit sketch.sub
cat sketch.out
cat sketch.log
cat skecth.error
condor_q # get job ID
kill job_id
Navigieren Sie zum Webanwendungsordner und öffnen Sie Terminal und führen Sie den folgenden Code aus:
python manage.py runserver
Um öffentliche IP für die Django -Anwendung einzurichten, öffnen wir NGROK und excetue den folgenden Befehl für die jeweilige Portnummer (anwendungsspezifische Portnummer):
ngrok port_number
[1] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke und A. Rabinovich, "Tiefer mit Konvolutionen", der IEEE-Konferenz zur Computervision und Mustererkennung (CVPR), S. 1-9, 2015.
[2] R. Hua und J. Collomosse, "Eine Leistungsbewertung des Gradientenfeld -Schwindel -Deskriptors für Sketch -basiert", Computer Vision and Image Underta, vol. Band 117, Nr. 7, S. 790-806, 2013.
[3] S. Ouyang, T. Hospedales, Y.-Z. Song und X. li, "Cross-Modal Face Matching: Beyond Viewed Sketches", Computer Vision-ACCV 2014, Vol. 9004, S. 210-225, 2014.
[4] RG Schneider und T. Tuytelaarars, "Skizzenklassifizierung und Klassifizierungsanalyse unter Verwendung von Fisher-Vektoren", TOG ACM Trans. Graph. ACM-Transaktionen über Grafiken, S. 1-9, 2014.
[5] Y. Lecun, L. Bottou, Y. Bengio und P. Haffner, "Gradientenbasiertes Learning angewendet für die Erkennung von Dokumenten", Proceedings of the IEEE, Vol. 86, nein. 11, S. 2278-2324, 1998.
[6] Yu, Yang, Song, Xiang und Hospedales, "Sketch-a-Net, der Menschen schlägt", Verfahren der British Machine Vision Conference 2015, 2015.
[7] L. T, T. C, S. F und C. S, ein neues Erkennungsmodell für, 2015.
[8] J. G., G. MD, H. J. und Y.-Ld E, Berechnungsunterstützung für das Skizzieren in Design A Review. Foundation und Trends in der Interaktion zwischen Mensch und Computer, 2009.
[9] J. MFA, R. MSM, O. NZS und J. Z, "Eine vergleichende Studie zur Extraktions- und Erkennungsmethode von CAD -Daten aus CAD -Zeichnungen", in International Conference on Information Management and Engineering, 2009.
[10] EITZ, M. a. Hays, J. a. Alexa und Marc, "Wie skizzieren Menschen Objekte?, ACM Trans. Graph. (Proc. Siggraph), Vol. 31, nein. 4, S. 44: 1--44: 10, 2012.
[11] R. Galiazzi Schneider und T. Tuytelaarars, "Skizzenklassifizierung und Klassifizierungsanalyse unter Verwendung von Fischervektoren", Proceedings of Siggraph Asia 2014, Vol. 33, Nr. 6, S. 1-9, 2014.
[12] Z. Sun, C. Wang, L. Zhang und L. Zhang, "Free Hand Drawn Sketch Segmentation", Microsoft Research Asia, Peking, 2012.
[13] A. Krizhevsky, I. Sutskever und GE Hinton, "ImageNet -Klassifizierung mit tiefen Faltungsnetzwerken", In Advances in Neural Information Processing Systems, 2012.
[14] A. Krizhevsky, I. Sutskever und GE Hinton, "ImageNetClassi fi cationwithdeepConvolutional NeuralNetworks", Conference on Neural Information Processing Systems (NIPS), 2012.
[15] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke und A. Rabinovich, "GooddeeperwithConvolutions", Computer Vision and Stumeserkennung, 2015.
[16] K. Simonyan und A. Zisserman, "Sehr tiefe Faltungsnetzwerke für die großflächige Bilderkennung", Internationale Konferenz über Learning Repräsentationen, 2015.
[17] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhouck und A. Rabinovich, "Tiefer mit Konvolutionen", CVPR, 2015.
[18] M.-M. . Poo und R. Fitzsimonds, "Retrograde Signalübertragung bei der Entwicklung und Modifikation von Synapsen", Psychological Reviews, Vol. , NEIN. , P. .
[19] S. Arora, A. Bhaskara, R. Ge und T. MA, "ProvierbareBoundsforLearningSomedeeprespesentations", Corr, 2013.
[20] DP Kingma und J. Ba, "Adam: Eine Methode zur stochastischen Optimierung", in der 3. Internationalen Konferenz für Lernrepräsentation, San Diego, 2015.
[21] L. Fei-Fei, J. Deng und K. Li, "ImageNet: Erstellung einer großflächigen Bilddatenbank", Journal of Vision, Vol. 9, nein. 8, S. 1037-1037, 2010.
[22] P. Dollar, "Schnellkantenerkennung unter Verwendung strukturierter Wälder", IEEE -Transaktionen zur Musteranalyse und Maschinenintelligenz, Vol. 37, nein. 8, S. 1558-1570, 2015.
[23] Anaconda -Softwareverteilung, Computersoftware. Ver. 2-2.4.0. Continuum Analytics, 2016. [24] F. Chollet, Keras, url {https://github.com/fchollet/keras}, 2015.
[25] Ge Krasner und St. Papst, "Ein Kochbuch zur Verwendung des Modells der Modell-View-Controller-Benutzeroberfläche in SmallTalk-80", The Journal of Object Technology, Vol. 3, No. , NEIN. , P. .
[26] DL Parnas und PC Clements, "Ein rationaler Entwurfsprozess: Wie und warum, um es zu fälschen", Software Engineering, IEEE Transactions, Vol. , NEIN. , P. 251–257 ,.
[27] Jdonahue, Jiyq, Vinyals, Jhoffman, Nzhang, Etzeng und Trevor, "Decaf: Ein tiefes Faltungsaktivierungsmerkmal", 2013.
[28] R. Girshick, J. Donahue, T. Darrell und J. Malik, "Rich Feature Hierarchies für genaue Objekterkennung und semantische Segmentierung", Tech Report, UC Berkely, Berkely, 2014.
[29] J. Uijlings, "Selektive Suche nach Objekterkennung", IJCV, Niederlande, 2012.
[30] "Globale Infrastruktur" ,. [Online]. Verfügbar: https://aws.amazon.com/about-aws/global-infrastructure/. [Zugriff 1 4 2017].
[31] M. a. Hj a. Bin EITZ, "Wie skizzieren Menschen Objekte?", ACM Trans. Graph. (Proc. Siggraph), Vol. 31, nein. 4, S. 44: 1--44: 10, 2012.
[32] Y. Lecun, "Lenet-5, Faltungsnetzwerke", "Faltungsstaat",. [Online]. Verfügbar: http://yann.lecun.com/exdb/lenet/. [Zugriff auf 2 4 2017].
[33] H. Li Y, S. TM und Gs Y, "FreeHand Sketcherkennung durch Multi-Kernel Learning", CVIU, 2015.
[34] S. Li y und GS Y, "Skizzenerkennung durch Ensemble Matching strukturierter Merkmale", BMVC, 2013.