Aprendizagem profunda para reconhecimento de objeto de esboço à mão livre
Neste projeto, propomos uma nova arquitetura de aprendizado profundo que atinge os resultados de última geração em reconhecimento de objetos de esboço à mão livre. A natureza altamente icônica e abstrata dos objetos de esboço dificulta a tarefa de um algoritmo de computador reconhecê -los. Como o reconhecimento de esboço não é um novo conceito em visão computacional, realizamos um estudo detalhado dos trabalhos anteriores relacionados ao nosso domínio do projeto. Os modelos artesanais não conseguiram capturar a natureza icônica dos esboços. E as arquiteturas de aprendizado profundo existentes são adaptadas às imagens fotográficas e não adotam os níveis variados de abstração presentes nos objetos de esboço. Isso resultou em Sketch-A-Net, o que superou a precisão do nível humano. O Sketch-A-Net requer informações sobre pedidos de AVC para reconhecer com precisão os objetos de esboço. A estrutura considera apenas as entradas de esboço em tempo real e não pode lidar com um grande conjunto de dados de objetos de esboço disponíveis online. Todas as descobertas de pesquisa acima enfatizadas enfatizadas em adotar uma nova arquitetura de aprendizado profundo, adaptado para resolver o reconhecimento de esboço.
Nosso modelo foi projetado no princípio hebbiano, que afirma que os neurônios que são acoplados juntos, são ativados juntos. Abordamos questões comuns que são negligenciadas em trabalhos anteriores sobre um novo design de modelo de aprendizado profundo. Resolvemos problemas de excesso de ajuste de rede mais ampla, introduzindo uma estrutura esparsa de blocos convolucionais em nosso modelo. Projetamos o modelo para resolver a natureza icônica e abstrata do objeto, usando um grande número de amostras de treinamento. Nosso modelo é treinado no conjunto de dados Tu-Berlin Sketch, que consiste em 20.000 objetos de 250 categorias. Aplicamos técnicas de agitação de dados no conjunto de dados para aumentar elasticamente seu tamanho. Nosso modelo atinge uma precisão de reconhecimento inovador de 84,7%, que é ~ 10% a mais do que seus antecessores. Em seguida, implantamos nosso modelo em uma plataforma em nuvem e configuramos um aplicativo da Web para processar solicitações de reconhecimento de esboço. Embora nosso modelo alcance uma alta precisão, ele ainda não reconhece as deformações intra-classes. Isso ressalta que nosso modelo ainda tem espaço para melhorias.
Ao resolver com êxito o reconhecimento de esboço, agora podemos avançar para resolver o reconhecimento de vários objetos, o esboço de segmentação de objetos, a recuperação de imagens com base na consulta Sketch e na tendência atual mais popular na visão computacional, o uso de redes adversárias generativas para síntese de esboçar objetos ou usar um objeto de desenho para síntese uma imagem fotográfica completa. As possibilidades nesse domínio são intermináveis e planejamos visitar e continuar nossa pesquisa em aprendizado profundo para objetos de esboço de mão livre no futuro.
Faça login no cluster da GPU e coloque os arquivos de trabalho do Condor em seu público público.
Para executar o trabalho do Condor, use o seguinte comando:
condor_submit sketch.sub
cat sketch.out
cat sketch.log
cat skecth.error
condor_q # get job ID
kill job_id
Navegue até a pasta de aplicativos da web e abra o terminal e execute o código abaixo:
python manage.py runserver
Para configurar o IP público para o aplicativo Django, abrimos o NGROK e excluímos o seguinte comando para o respectivo número da porta (número de porta específico do aplicativo):
ngrok port_number
[1] C. Szegedy, W. Liu, Y. Jia, P. Sermannet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke e A. Rabinovich, "se aprofundam com convoluções", a conferência do IEEE sobre visão computacional e reconhecimento de padrões (CVPR), pp. 1-9, 2015.
[2] R. Hua e J. Collomosse, "Uma avaliação de desempenho do descritor de porcos de campo de gradiente para Sketch Baseado", Computer Vision and Image Comeunicar, vol. Volume 117, não. 7, pp. 790-806, 2013.
[3] S. Ouyang, T. Hospedales, Y.-Z. Song e X. Li, "Comparação de rosto cross-modal: além dos esboços vistos", Computer Vision-ACCV 2014, vol. 9004, pp. 210-225, 2014.
[4] RG Schneider e T. tuytelaars, "Classificação de esboço e análise orientada a classificação usando vetores de Fisher", TOG ACM Trans. Gráfico. Transações ACM em gráficos, pp. 1-9, 2014.
[5] Y. Lecun, L. Bottou, Y. Bengio e P. Haffner, "Aprendizagem baseada em gradiente se aplicava ao reconhecimento de documentos", Anais do IEEE, vol. 86, não. 11, pp. 2278-2324, 1998.
[6] Yu, Yang, Song, Xiang e Hospedales, "Sketch-a-Net que vence os humanos", procedimentos da British Machine Vision Conference 2015, 2015.
[7] L. T, T. C, S.F e C. S, um novo modelo de reconhecimento para, 2015.
[8] J. G, G. MD, H. J e Y.-LD E, suporte computacional para esboçar no design de uma revisão. Fundação e tendências na interação humano-computador, 2009.
[9] J. MFA, R. MSM, O. NZS e J. Z, "Um estudo comparativo sobre método de extração e reconhecimento de dados CAD de desenhos CAD.", Em Conferência Internacional sobre Gerenciamento de Informações e Engenharia, 2009.
[10] Eitz, M. a. Hays, J. a. Alexa e Marc, "Como os humanos desenham objetos?", ACM Trans. Gráfico. (Proc. Siggraph), vol. 31, não. 4, pp. 44: 1--44: 10, 2012.
[11] R. Galiazzi Schneider e T. tuytelaars, "Classificação de Esboço e Análise de Classificação usando vetores Fisher", Proceedings of Siggraph Asia 2014, vol. 33, não. 6, pp. 1-9, 2014.
[12] Z. Sun, C. Wang, L. Zhang e L. Zhang, "Segmentação de esboço desenhado à mão", Microsoft Research Asia, Pequim, 2012.
[13] A. Krizhevsky, I. Sutskever e Ge Hinton, "Classificação Imagenet com profundas redes neurais convolucionais", em Advances in Neural Information Processing Systems, 2012.
[14] A. Krizhevsky, I. Sutskever e Ge Hinton, "ImageNetClassi fi cação com neuralNetworks de neuralNetworks", conferência sobre sistemas de processamento de informações neurais (NIPS), 2012.
[15] C. Szegedy, W. Liu, Y. Jia, P. Sermannet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke e A. Rabinovich, "GoingDeeperWithConvolutions", Visão computacional e reconhecimento de Patteren, 2015.
[16] K. Simonyan e A. Zisserman, "Redes convolucionais muito profundas para reconhecimento de imagem em larga escala", Conferência Internacional sobre Representações de Aprendizagem, 2015.
[17] C. Szegedy, W. Liu, Y. Jia, P. Sermannet, S. Reed, D. Anguelov, D. Erhan, V. Vanhouck e A. Rabinovich, "indo mais com convoluções", CVPR, 2015.
[18] M.-M. . Poo e R .. Fitzsimonds, "Sinalização retrógrada no desenvolvimento e modificação das sinapses", Psychological Reviews, vol. , não. , p. ,.
[19] S. Arora, A. Bhaskara, R. Ge e T. Ma, "ProvableBoundsForlearningSomEDePrepresentations", Corr, 2013.
[20] DP Kingma e J. Ba, "Adam: um método para otimização estocástica", na 3ª Conferência Internacional para Representação de Aprendizagem, San Diego, 2015.
[21] L. Fei-FEI, J. Deng e K. Li, "Imagenet: Construindo um banco de dados de imagem em larga escala", Journal of Vision, vol. 9, não. 8, pp. 1037-1037, 2010.
[22] P. Dollar, "Detecção de borda rápida usando florestas estruturadas", IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 37, não. 8, pp. 1558-1570, 2015.
[23] Distribuição de software Anaconda, software de computador. Vers. 2-2.4.0. Continuum Analytics, 2016. [24] F. Chollet, Keras, url {https://github.com/fchollet/keras}, 2015.
[25] Ge Krasner e St. Pope, "Um livro de receitas para usar o paradigma da interface do usuário do Modelo-View Controller no SmallTalk-80", The Journal of Object Technology, vol. , não. , p. ,.
[26] DL Parnas e PC Clements, "Um processo de design racional: como e por que fingir", Engenharia de Software, IEEE Transactions, vol. , não. , p. 251–257 ,.
[27] JDONAHUE, JIAYQ, VINYALS, JHOFFMAN, NZHANG, ETZENG E TREVOR, "DECAF: Uma profunda característica de ativação convolucional", 2013.
[28] R. Girshick, J. Donahue, T. Darrell e J. Malik, "Rich Hierarquias para detecção de objetos precisa e segmentação semântica", Tech Report, UC Berkely, Berkely, 2014.
[29] J. Uijlings, "Selective Search for Object Reconhition", IJCV, Holanda, 2012.
[30] "Infraestrutura global" ,. [On-line]. Disponível: https://aws.amazon.com/about-aws/global-infrastructure/. [Acessado 1 4 2017].
[31] M. a. Hj a. Am Eitz, "Como os humanos desenham objetos?", ACM Trans. Gráfico. (Proc. Siggraph), vol. 31, não. 4, pp. 44: 1--44: 10, 2012.
[32] Y. Lecun, "LeNet-5, redes neurais convolucionais" ,. [On-line]. Disponível: http://yann.lecun.com/exdb/lenet/. [Acessado 2 4 2017].
[33] H. Li Y, S. TM e GS Y, "Reconhecimento de esboço à mão livre pelo aprendizado multi-kernel", CVIU, 2015.
[34] S. Li Y e GS Y, "Reconhecimento de esboço por conjunto de recursos de recursos estruturados", BMVC, 2013.