Aprendizaje profundo para el reconocimiento de objetos de boceto a mano alzada
En este proyecto, proponemos una nueva arquitectura de aprendizaje profundo que logra los resultados de última generación en el reconocimiento de objetos de boceto libre. La naturaleza altamente icónica y abstracta de los objetos de boceto hace que sea una tarea difícil para un algoritmo de computadora reconocerlos. Como el reconocimiento de bocetos no es un concepto nuevo en la visión por computadora, realizamos un estudio detallado de los trabajos anteriores relacionados con el dominio de nuestro proyecto. Los modelos hechos a mano no pudieron capturar la naturaleza icónica de los bocetos. Y las arquitecturas de aprendizaje profundo existentes se adaptan a las imágenes fotográficas y no adoptan los niveles variables de abstracción presentes en los objetos de boceto. Esto dio como resultado un boceto a net que superó la precisión del nivel humano. Sketch-A-Net requiere información de orden de accidente cerebrovascular para reconocer con precisión los objetos de boceto. El marco solo considera entradas de boceto en tiempo real y no puede manejar un gran conjunto de datos de objetos de boceto disponibles en línea. Todos los descubrimientos de investigación anteriores estresaron rotundamente adoptar una nueva arquitectura de aprendizaje profundo que se adapta para resolver el reconocimiento de bocetos.
Nuestro modelo está diseñado en el principio hebbiano que establece que las neuronas que se acoplan juntas, se activan juntas. Abordamos problemas comunes que se pasan por alto en trabajos anteriores con respecto a un nuevo diseño de modelo de aprendizaje profundo. Resolvemos problemas de sobreajuste de una red más amplia al introducir una estructura escasa de bloques convolucionales en nuestro modelo. Diseñamos el modelo para resolver la naturaleza icónica y abstracta del objeto de bocetos utilizando una gran cantidad de muestras de entrenamiento. Nuestro modelo está capacitado en el conjunto de datos de bocetos de Tu-Berlin que consta de 20,000 objetos de 250 categorías. Aplicamos técnicas de augatización de datos en el conjunto de datos para aumentar elásticamente su tamaño. Nuestro modelo logra una precisión de reconocimiento innovador del 84.7% que es ~ 10% más que sus predecesores. Luego, implementamos nuestro modelo en una plataforma en la nube y configuramos una aplicación web para procesar solicitudes de reconocimiento de bocetos. A pesar de que nuestro modelo logra una alta precisión, todavía no reconoce las deformaciones intra-clase. Esto señala que nuestro modelo todavía tiene margen de mejora.
Al resolver con éxito el reconocimiento de bocetos, ahora podemos avanzar para resolver el reconocimiento de múltiples objetos, la segmentación de objetos de boceto, la recuperación de imágenes basada en la consulta de bocetos y la tendencia actual más popular en la visión por computadora, el uso de redes adversas generativas para síntesis de objetos de boceto o usar un objeto de boceto para síntesis de una imagen realista fotográfica completa. Las posibilidades en este dominio son infinitas y planeamos visitar y continuar nuestra investigación en el aprendizaje profundo para los objetos de bosquejo de mano en el futuro.
Inicie sesión en el clúster de GPU y coloque los archivos de trabajo de Condor en su Forlder público.
Para ejecutar el trabajo de CONDOR, use el siguiente comando:
condor_submit sketch.sub
cat sketch.out
cat sketch.log
cat skecth.error
condor_q # get job ID
kill job_id
Navegue a la carpeta de aplicaciones web y abra terminal y ejecute el siguiente código:
python manage.py runserver
Para configurar Public IP para la aplicación Django, abrimos NGROK y excetue el siguiente comando para el número de puerto respectivo (número de puerto específico de la aplicación):
ngrok port_number
[1] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke y A. Rabinovich, "En profundidad con las convoluciones", la conferencia IEEE sobre visión por computadora y reconocimiento de patrones (CVPR), pp. 1-9, 2015.
[2] R. Hua y J. Collomosse, "Una evaluación de rendimiento del descriptor de Hog de campo de gradiente para el boceto", Visión por computadora y comprensión de la imagen, vol. Volumen 117, no. 7, pp. 790-806, 2013.
[3] S. Ouyang, T. Hospedales, Y.-Z. Canción y X. Li, "Cross-Modal Face Matching: Beyond Viewed Sketches", Computer Vision-ACCV 2014, vol. 9004, pp. 210-225, 2014.
[4] RG Schneider y T. Tuytelaars, "Clasificación de bocetos y análisis basado en la clasificación utilizando vectores Fisher", Tog ACM Trans. Gráfico. Transacciones ACM en Graphics, pp. 1-9, 2014.
[5] Y. Lecun, L. Botou, Y. Bengio y P. Haffner, "Aprendizaje basado en gradiente aplicado al reconocimiento de documentos", Actas del IEEE, vol. 86, no. 11, pp. 2278-2324, 1998.
[6] Yu, Yang, Song, Xiang y Hospedales, "Sketch-A-Net que supera a los humanos", procedimientos de la British Machine Vision Conference 2015, 2015.
[7] L. T, T. C, S. F y C. S, Un nuevo modelo de reconocimiento para, 2015.
[8] J. G, G. MD, H. J e Y.-Ld E, Soporte computacional para dibujar en el diseño de una revisión. Fundación y tendencias en la interacción humana-computadora, 2009.
[9] J. MFA, R. MSM, O. NZS y J. Z, "Un estudio comparativo sobre la extracción y el método de reconocimiento de los datos CAD de los dibujos CAD", en la Conferencia Internacional sobre Gestión de la Información e Ingeniería, 2009.
[10] Eitz, M. a. Hays, J. a. Alexa y Marc, "¿Cómo los humanos dibujan objetos?", ACM Trans. Gráfico. (Proc. Siggraph), vol. 31, no. 4, págs. 44: 1--44: 10, 2012.
[11] R. Galiazzi Schneider y T. Tuytelaars, "Clasificación de bocetos y análisis basado en la clasificación utilizando Vectores Fisher", Proceedings of Siggraph Asia 2014, vol. 33, no. 6, pp. 1-9, 2014.
[12] Z. Sun, C. Wang, L. Zhang y L. Zhang, "Segmentación de boceto dibujado a mano libre", Microsoft Research Asia, Beijing, 2012.
[13] A. Krizhevsky, I. Sutskever y Ge Hinton, "Clasificación de Imagenet con profundas redes neuronales convolucionales", en Avances en Sistemas de Procesamiento de Información Neural, 2012.
)
[15] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke y A. Rabinovich, "GoingDeeperwithConvolutions," Reconocimiento de visión informática y reconocimiento de Patteren, 2015.
[16] K. Simonyan y A. Zisserman, "Redes convolucionales muy profundas para el reconocimiento de imágenes a gran escala", Conferencia Internacional sobre Representaciones de Aprendizaje, 2015.
[17] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhouck y A. Rabinovich, "profundizando con las convoluciones", CVPR, 2015.
[18] M.-M. . Poo y R .. Fitzsimonds, "Señalización retrógrada en el desarrollo y modificación de las sinapsis", Psychological Reviews, vol. , No. , pag. ,.
[19] S. Arora, A. Bhaskara, R. Ge y T. Ma, "PROVABLEBOUNDSFOR ALEARNINGSOMEDEPRESENTACIONES", Corr, 2013.
[20] DP Kingma y J. BA, "Adán: un método para la optimización estocástica", en la tercera Conferencia Internacional para la Representación del Aprendizaje, San Diego, 2015.
[21] L. Fei-Fei, J. Deng y K. Li, "Imagenet: Construyendo una base de datos de imágenes a gran escala", Journal of Vision, vol. 9, no. 8, pp. 1037-1037, 2010.
[22] P. Dollar, "Detección de borde rápido utilizando bosques estructurados", Transacciones IEEE en Análisis de patrones e inteligencia artificial, vol. 37, no. 8, pp. 1558-1570, 2015.
[23] Distribución de software de Anaconda, software de computadora. Vers. 2-2.4.0. Continuum Analytics, 2016. [24] F. Chollet, Keras, url {https://github.com/fchollet/keras}, 2015.
[25] Ge Krasner y St Pope, "Un libro de cocina para usar el paradigma de interfaz de usuario del controlador modelo-visión en SmallTalk-80", The Journal of Object Technology, vol. , No. , pag. ,.
[26] DL Parnas y PC Clements, "Un proceso de diseño racional: cómo y por qué fingirlo", Ingeniería de software, IEEE Transactions, vol. , No. , pag. 251–257 ,.
[27] Jdonahue, Jiayq, Vinyals, Jhoffman, Nzhang, Etzeng y Trevor, "Decaf: una característica de activación convolucional profunda", 2013.
[28] R. Girshick, J. Donahue, T. Darrell y J. Malik, "Jerarquías de características ricas para la detección precisa de objetos y segmentación semántica", Tech Report, UC Berkely, Berkely, 2014.
[29] J. Uijlings, "Search selective para el reconocimiento de objetos", IJCV, Países Bajos, 2012.
[30] "Infraestructura global",. [En línea]. Disponible: https://aws.amazon.com/about-aws/global-infastructure/. [Consultado el 1 4 de 2017].
[31] M. a. Hj a. Am Eitz, "¿Cómo dibujan los humanos los objetos?", ACM Trans. Gráfico. (Proc. Siggraph), vol. 31, no. 4, págs. 44: 1--44: 10, 2012.
[32] Y .. Lecun, "Lenet-5, redes neuronales convolucionales",. [En línea]. Disponible: http://yann.lecun.com/exdb/lenet/. [Consultado 2 4 2017].
[33] H. Li Y, S. TM y GS Y, "Reconocimiento de bocetos de mano libre por aprendizaje de múltiples kernos", CVIU, 2015.
[34] S. Li Y y GS Y, "Reconocimiento de bocetos por conjunto de características estructuradas", BMVC, 2013.