徒手素描对象识别的深度学习
在这个项目中,我们提出了一种新颖的深度学习体系结构,可以实现最先进的素描对象识别。草图对象的高度标志性和抽象的性质使计算机算法很难识别它们。由于草图识别不是计算机视觉中的新概念,因此我们对与我们的项目域相关的先前作品进行了详细的研究。手工制作的模型未能捕获草图的标志性性质。并且现有的深度学习体系结构是针对照片图像量身定制的,并且不采用草图对象中存在的抽象级别。这导致了素描-A-net超过人类水平的准确性。 Sketch-a-net需要笔划订单信息以准确识别草图对象。该框架仅考虑实时草图输入,并且无法处理在线可用的大量素描对象数据集。上述所有研究发现,都强调采用一种新的深度学习架构,该建筑量身定制以解决素描识别。
我们的模型是根据Hebbian原理设计的,该原理指出,耦合在一起并激活的神经元。我们解决了有关新的深度学习模型设计中以前著作中忽略的常见问题。我们通过在模型中引入卷积块的稀疏结构来解决更广泛网络的过度问题。我们通过使用大量训练样本来设计模型来求解素描对象标志性和抽象性质。我们的模型经过Tu-Berlin Sketch Datat的培训,该数据集由250个类别的20,000个对象组成。我们在数据集上应用数据提升技术以弹性增加其大小。我们的模型达到了84.7%的突破性识别精度,比其前身高约10%。然后,我们将模型部署在云平台上,并设置Web应用程序来处理草图识别请求。即使我们的模型达到了很高的精度,但它仍然无法识别阶层内变形。这指出我们的模型仍然有改进的余地。
通过成功求解草图识别,我们现在可以朝着求解多对象识别,草图对象分割,基于草图查询的图像检索以及计算机视觉中最流行的当前趋势,使用生成的对抗网络来合成素描对象或使用素描对象将素描对象用于综合图像。该领域的可能性是无穷无尽的,我们计划将来访问并继续进行深度学习的研究。
登录到GPU群集,并将秃鹰作业文件放在您的公共福特尔中。
要运行秃鹰作业,请使用以下命令:
condor_submit sketch.sub
cat sketch.out
cat sketch.log
cat skecth.error
condor_q # get job ID
kill job_id
导航到Web应用程序文件夹并打开终端并执行以下代码:
python manage.py runserver
要为Django应用程序设置公共IP,我们打开NGrok并启用以下端口号的命令(应用程序特定端口号):
ngrok port_number
[1] C. Szegedy,W。Liu,Y。Jia,P。Sermanet,S。Reed,D。Anguelov,D。Erhan,V。Vanhoucke和A. Rabinovich,“随着IEEE的计算机视觉和图案识别(CVPR),第1-9页,2015年的IEEE卷积会议。
[2] R. Hua和J. Collomosse,“基于草图的梯度野猪描述符的性能评估”,《计算机视觉和图像理解》,第1卷。第117卷,没有。 7,第790-806页,2013年。
[3] S. Ouyang,T。Hospedales,Y.-Z. Song and X. Li,“跨模式的面部匹配:超越查看的草图”,《计算机视觉》 - ACCV 2014,第1卷。 9004,第210-225页,2014年。
[4] RG Schneider和T. Tuytelaars,“使用Fisher向量的草图分类和分类驱动的分析”,Tog Acm Trans。图形。图形上的ACM交易,第1-9页,2014年。
[5] Y. Lecun,L。Bottou,Y。Bengio和P. Haffner,“基于梯度的学习应用于文档识别”,《 IEEE的论文集》,第1卷。 86,不。 11,第2278-2324页,1998年。
[6] Yu,Yang,Song,Xiang和Hospedales,“击败人类的Sketch-a-a-net”,2015年英国机器视觉会议的程序。
[7] L. T,T。C,S。F和C. S,2015年的新识别模型。
[8] J. G. G. Md,H。J和Y.-LD E,设计审查中素描的计算支持。人类计算机相互作用的基础和趋势,2009年。
[9] J. MFA,R。MSM,O。NZS和J. Z,“从CAD图中提取和识别方法的比较研究。”在国际信息管理与工程会议上,2009年。
[10] Eitz,M。 Hays,J。 Alexa和Marc,“人类如何绘制对象?” ACM Trans。图形。 (Proc。Siggraph),第1卷。 31,没有。 4,第44:1--44:10,2012。
[11] R. Galiazzi Schneider和T. Tuytelaars,“使用Fisher Vectors的草图分类和分类驱动的分析”,《 Siggraph Asia Asia 2014,2014年》,第1卷。 33,不。 6,第1-9页,2014年。
[12] Z. Sun,C。Wang,L。Zhang和L.
[13] A. Krizhevsky,I。Sutskever和Ge Hinton,“具有深卷积神经网络的Imagenet分类”,在神经信息处理系统的进步中,2012年。
[14] A. Krizhevsky,I。Sutskever和Ge Hinton,“ ImagenetClassifientationWithDeepConconconconconconvolutional Neurnetworks”,《神经信息处理系统会议》(NIPS),2012年。
[15] C. Szegedy,W。Liu,Y。Jia,P。Sermanet,S。Reed,D。Anguelov,D。Erhan,V。V.V. Vanhoucke和A. Rabinovich,“ GoingDeeperWithConvolutions,“ Computer Wision and Patteren necention”,2015年。
[16] K. Simonyan和A. Zisserman,“大规模图像识别的非常深的卷积网络”,2015年国际学习表现会议。
[17] C. Szegedy,W。Liu,Y。Jia,P。Sermanet,S。Reed,D。Anguelov,D。Erhan,V。V。Vanhouck和A. Rabinovich,“随着卷积而深入,” CVPR,2015年。
[18] M.-M。 。便便和R. Fitzsimonds,“突触的发展和修饰中的逆行信号”,《心理评论》,第1卷。 , 不。 ,p。 ,。
[19] S. Arora,A。Bhaskara,R。Ge和T. Ma,“ Propablesboundsforlearningsomedeeppresentations”,Corr,2013年。
[20] DP Kingma和J. Ba,“亚当:随机优化的方法”,在第三届国际学习代表会议上,圣地亚哥,2015年。
[21] L. Fei-Fei,J。Deng和K. Li,“ Imagenet:构建大型图像数据库”,《 Vision Journal》,第1卷。 9,不。 8,第1037-1037页,2010年。
[22] P. Dollar,“使用结构化森林的快速边缘检测”,《图案分析与机器智能的IEEE交易》,第1卷。 37,不。 8,第1558-1570页,2015年。
[23] Anaconda软件发行,计算机软件。 Vers。 2-2.4.0。 Continuum Analytics,2016年。[24] F. Chollet,Keras, url {https://github.com/fchollet/keras},2015年。
[25] GE Krasner和St Pope,“用于使用SmallTalk-80中的模型视图控制器用户界面范式的食谱”,《 Object Technology Journal》,第1卷。 , 不。 ,p。 ,。
[26] DL Parnas和PC Clements,“合理的设计过程:如何伪造它”,软件工程,IEEE Transactions,第1卷。 , 不。 ,p。 251–257,。
[27] Jdonahue,Jiayq,Vinyals,Jhoffman,Nzhang,Etzeng和Trevor,“ Decaf:深层卷积激活功能”,2013年。
[28] R. Girshick,J。Donahue,T。Darrell和J. Malik,“丰富的特色层次结构,用于准确的对象检测和语义细分”,Tech Report,UC Berkely,Berkely,2014年。
[29] J. Uijlings,“选择性搜索对象识别”,IJCV,荷兰,2012年。
[30]“全球基础架构”,。 [在线的]。可用:https://aws.amazon.com/about-aws/global-infrastructure/。 [2017年访问1 4]。
[31] M. a。 HJ a。 Am Eitz,“人类如何绘制对象?”,ACM Trans。图形。 (Proc。Siggraph),第1卷。 31,没有。 4,第44:1--44:10,2012。
[32] y。 Lecun,“ Lenet-5,卷积神经网络”,。 [在线的]。可用:http://yann.lecun.com/exdb/lenet/。 [2017年访问2 4]。
[33] H. Li Y,S。TM和GS Y,“多内核学习的徒手素描识别”,CVIU,2015年。
[34] S. Li Y和GS Y,“结构化特征的集合匹配的草图识别”,BMVC,2013年。