การเรียนรู้อย่างลึกซึ้งสำหรับการจดจำวัตถุแบบร่างด้วยมือเปล่า
ในโครงการนี้เราเสนอสถาปัตยกรรมการเรียนรู้เชิงลึกนวนิยายที่ได้รับผลลัพธ์ที่ทันสมัยในการจดจำวัตถุแบบร่างมือฟรี ลักษณะที่เป็นสัญลักษณ์และเป็นนามธรรมของวัตถุร่างทำให้มันยากสำหรับอัลกอริทึมคอมพิวเตอร์ในการรับรู้ เนื่องจากการรับรู้ร่างไม่ใช่แนวคิดใหม่ในการมองเห็นคอมพิวเตอร์เราได้ทำการศึกษาอย่างละเอียดเกี่ยวกับงานก่อนหน้านี้ที่เกี่ยวข้องกับโดเมนโครงการของเรา โมเดลที่สร้างขึ้นด้วยมือล้มเหลวในการจับภาพร่างที่เป็นสัญลักษณ์ของภาพร่าง และสถาปัตยกรรมการเรียนรู้เชิงลึกที่มีอยู่นั้นได้รับการปรับให้เหมาะกับภาพภาพถ่ายและไม่ได้นำไปใช้กับระดับที่แตกต่างกันของสิ่งที่เป็นนามธรรมในวัตถุร่าง สิ่งนี้ส่งผลให้ Sketch-A-Net ซึ่งเกินความแม่นยำระดับมนุษย์ Sketch-A-Net ต้องการข้อมูลการสั่งซื้อ Stroke เพื่อรับรู้วัตถุร่างอย่างถูกต้อง เฟรมเวิร์กพิจารณาเฉพาะอินพุตร่างแบบเรียลไทม์และไม่สามารถจัดการชุดข้อมูลขนาดใหญ่ของวัตถุร่างที่มีอยู่ออนไลน์ การค้นพบการวิจัยทั้งหมดข้างต้นเน้นย้ำอย่างล้นหลามที่จะนำสถาปัตยกรรมการเรียนรู้ลึกใหม่มาใช้ซึ่งได้รับการปรับแต่งเพื่อแก้ปัญหาการจดจำภาพร่าง
แบบจำลองของเราได้รับการออกแบบตามหลักการเฮบเบียซึ่งระบุว่าเซลล์ประสาทที่เข้าด้วยกันพร้อมกันเปิดใช้งานร่วมกัน เราแก้ไขปัญหาทั่วไปที่มองข้ามในงานก่อนหน้านี้เกี่ยวกับการออกแบบรูปแบบการเรียนรู้ลึกใหม่ เราแก้ปัญหาที่มากเกินไปของเครือข่ายที่กว้างขึ้นโดยการแนะนำโครงสร้างเบาบางของบล็อก convolutional ในโมเดลของเรา เราสร้างโมเดลเพื่อแก้ปัญหาวัตถุที่เป็นสัญลักษณ์และเป็นนามธรรมโดยใช้ตัวอย่างการฝึกอบรมจำนวนมาก แบบจำลองของเราได้รับการฝึกฝนในชุดข้อมูล Sketch Tu-Berlin ซึ่งประกอบด้วยวัตถุ 20,000 ชิ้นจาก 250 หมวดหมู่ เราใช้เทคนิคการเสริมสร้างข้อมูลในชุดข้อมูลเพื่อเพิ่มขนาดของมันอย่างยืดหยุ่น แบบจำลองของเราบรรลุความแม่นยำในการรับรู้การทำลายล้างที่ 84.7% ซึ่งสูงกว่ารุ่นก่อนประมาณ 10% จากนั้นเราปรับใช้โมเดลของเราบนแพลตฟอร์มคลาวด์และตั้งค่าเว็บแอปพลิเคชันเพื่อประมวลผลคำขอการจดจำภาพร่าง แม้ว่าโมเดลของเราจะประสบความสำเร็จในระดับสูง แต่ก็ยังไม่สามารถรับรู้ถึงการเสียรูปภายในชั้นเรียนได้ สิ่งนี้ชี้ให้เห็นว่าโมเดลของเรายังคงมีที่ว่างสำหรับการปรับปรุง
ด้วยการแก้ปัญหาการรับรู้ภาพร่างที่ประสบความสำเร็จตอนนี้เราสามารถก้าวไปสู่การแก้ปัญหาการรับรู้หลายวัตถุประสงค์การแบ่งส่วนวัตถุร่างการดึงภาพขึ้นอยู่กับการสืบค้นร่างและแนวโน้มปัจจุบันที่ได้รับความนิยมมากที่สุดในการมองเห็นคอมพิวเตอร์การใช้เครือข่ายที่มีการกำเนิด ความเป็นไปได้ในโดเมนนี้ไม่มีที่สิ้นสุดและเราวางแผนที่จะเยี่ยมชมและวิจัยต่อไปในการเรียนรู้อย่างลึกซึ้งสำหรับวัตถุร่างฟรีมือในอนาคต
เข้าสู่ระบบไปยังคลัสเตอร์ GPU และวางไฟล์งานคอนดอร์ใน Public Forlder ของคุณ
ในการเรียกใช้งาน Condor ให้ใช้คำสั่งต่อไปนี้:
condor_submit sketch.sub
cat sketch.out
cat sketch.log
cat skecth.error
condor_q # get job ID
kill job_id
นำทางไปยังโฟลเดอร์เว็บแอปพลิเคชันและเปิดเทอร์มินัลและเรียกใช้รหัสด้านล่าง:
python manage.py runserver
ในการตั้งค่า IP สาธารณะสำหรับแอปพลิเคชัน Django เราเปิด ngrok และ excetue คำสั่งต่อไปนี้สำหรับหมายเลขพอร์ตที่เกี่ยวข้อง (หมายเลขพอร์ตเฉพาะแอปพลิเคชัน):
ngrok port_number
[1] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke และ A. Rabinovich, "ไปลึกลงไปด้วยการประชุม" การประชุม IEEE เกี่ยวกับการมองเห็นคอมพิวเตอร์และการจดจำรูปแบบ (CVPR), pp. 1-9, 2015
[2] R. Hua และ J. Collomosse, "การประเมินประสิทธิภาพของ Descriptor Field Field Hog สำหรับร่างตาม" การมองเห็นคอมพิวเตอร์และความเข้าใจภาพ, ฉบับที่ เล่มที่ 117, no. 7, pp. 790-806, 2013
[3] S. Ouyang, T. Hospedales, Y.-Z. Song และ X. Li, "การจับคู่ใบหน้าข้ามโมดอล: Beyond Sketches ที่ดู" Vision Computer-ACCV 2014, Vol. 9004, pp. 210-225, 2014
[4] RG Schneider และ T. Tuytelaars, "การจำแนกประเภทร่างและการวิเคราะห์การจำแนกประเภทโดยใช้เวกเตอร์ฟิชเชอร์" TOG ACM Trans กราฟ. การทำธุรกรรม ACM เกี่ยวกับกราฟิก, หน้า 1-9, 2014
[5] Y. Lecun, L. Bottou, Y. Bengio และ P. Haffner, "การเรียนรู้แบบไล่ระดับสีใช้กับการจดจำเอกสาร" การดำเนินการของ IEEE, Vol. 86, no. 11, pp. 2278-2324, 1998
[6] Yu, Yang, Song, Xiang และ Hospedales, "Sketch-a-Net ที่เต้นมนุษย์" ขั้นตอนของการประชุม Machine Vision Conference 2015, 2015, 2015
[7] L. T, T. C, S. F และ C. S, รูปแบบการจดจำใหม่สำหรับ, 2015
[8] J. G, G. MD, H. J และ Y.-LD E, การสนับสนุนการคำนวณสำหรับการร่างในการออกแบบการตรวจสอบ รากฐานและแนวโน้มในการมีปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ปี 2009
[9] J. MFA, R. MSM, O. NZS และ J. Z, "การศึกษาเปรียบเทียบเกี่ยวกับวิธีการสกัดและการรับรู้ของข้อมูล CAD จากภาพวาด CAD," ในการประชุมนานาชาติเกี่ยวกับการจัดการข้อมูลและวิศวกรรม, 2009
[10] Eitz, M. a. Hays, J. a. Alexa และ Marc, "มนุษย์ร่างวัตถุอย่างไร?," ACM Trans กราฟ. (Proc. Siggraph), Vol. 31 ไม่ 4, pp. 44: 1--44: 10, 2012
[11] R. Galiazzi Schneider และ T. Tuytelaars, "การจำแนกประเภทร่างและการวิเคราะห์การจำแนกประเภทโดยใช้เวกเตอร์ฟิชเชอร์" การดำเนินการของ Siggraph Asia 2014, ฉบับที่ 33, no. 6, pp. 1-9, 2014
[12] Z. Sun, C. Wang, L. Zhang และ L. Zhang, "การแบ่งส่วนร่างภาพวาดด้วยมือฟรี" Microsoft Research Asia, Beijing, 2012
[13] A. Krizhevsky, I. Sutskever และ Ge Hinton, "การจำแนกประเภท Imagenet ด้วยเครือข่ายประสาทลึกที่ลึกล้ำ" ในความก้าวหน้าในระบบการประมวลผลข้อมูลประสาท, 2012
[14] A. Krizhevsky, I. Sutskever และ Ge Hinton, "Imagenetclassi fi cationwithDeepConvolutional Neuralnetworks," การประชุมเกี่ยวกับระบบการประมวลผลข้อมูลประสาท (NIPS), 2012
[15] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke และ A. Rabinovich, "GoingDeeperwithconvolutions" การมองเห็นคอมพิวเตอร์
[16] K. Simonyan และ A. Zisserman, "เครือข่ายที่ลึกมากสำหรับการรับรู้ภาพขนาดใหญ่" การประชุมนานาชาติเกี่ยวกับการเป็นตัวแทนการเรียนรู้, 2015
[17] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhouck และ A. Rabinovich,
[18] M.-M. - ปูและอาร์. Fitzsimonds, "การส่งสัญญาณถอยหลังเข้าคลองในการพัฒนาและการปรับเปลี่ยน synapses," ความคิดเห็นทางจิตวิทยา, ฉบับที่ , เลขที่. , p. -
[19] S. Arora, A. Bhaskara, R. Ge และ T. Ma, "ProvableBoundSforlearNingSomedeePresentations" Corr, 2013
[20] DP Kingma และ J. BA, "Adam: วิธีการเพิ่มประสิทธิภาพแบบสุ่ม" ในการประชุมนานาชาติครั้งที่ 3 เพื่อการเป็นตัวแทนการเรียนรู้, ซานดิเอโก, 2015
[21] L. Fei-Fei, J. Deng และ K. Li, "Imagenet: การสร้างฐานข้อมูลภาพขนาดใหญ่" วารสารวิสัยทัศน์, ฉบับที่ 9 ไม่ 8, pp. 1037-1037, 2010
[22] P. Dollar, "การตรวจจับขอบอย่างรวดเร็วโดยใช้ป่าที่มีโครงสร้าง" ธุรกรรม IEEE เกี่ยวกับการวิเคราะห์รูปแบบและความฉลาดของเครื่องจักร, ฉบับที่ 37, no. 8, pp. 1558-1570, 2015
[23] การกระจายซอฟต์แวร์ของ Anaconda ซอฟต์แวร์คอมพิวเตอร์ เวอร์ชัน 2-2.4.0 Continuum Analytics, 2016. [24] F. Chollet, Keras, url {https://github.com/fchollet/keras}, 2015
[25] GE Krasner และ St Pope "ตำราอาหารสำหรับการใช้กระบวนทัศน์อินเทอร์เฟซผู้ใช้ Model-View Controller ใน SmallTalk-80" วารสารเทคโนโลยีวัตถุฉบับที่ 5 , เลขที่. , p. -
[26] DL Parnas และ PC Clements, "กระบวนการออกแบบที่มีเหตุผล: วิธีการและทำไมต้องปลอม" วิศวกรรมซอฟต์แวร์, ธุรกรรม IEEE, ฉบับที่ , เลขที่. , p. 251–257,
[27] Jdonahue, Jiayq, Vinyals, Jhoffman, Nzhang, Etzeng และ Trevor, "Decaf: คุณลักษณะการเปิดใช้งานที่ลึกล้ำ" 2013
[28] R. Girshick, J. Donahue, T. Darrell และ J. Malik, "ลำดับชั้นคุณสมบัติที่หลากหลายสำหรับการตรวจจับวัตถุที่ถูกต้องและการแบ่งส่วนความหมาย" รายงานเทคโนโลยี, UC Berkely, Berkely, 2014
[29] J. Uijlings, "Selective Search for การจดจำวัตถุ," IJCV, เนเธอร์แลนด์, 2012
[30] "โครงสร้างพื้นฐานระดับโลก",. [ออนไลน์]. พร้อมใช้งาน: https://aws.amazon.com/about-aws/global-infastructure/ [เข้าถึง 1 4 2017]
[31] M. a. hj a. Am Eitz, "มนุษย์ร่างวัตถุได้อย่างไร?," ACM Trans กราฟ. (Proc. Siggraph), Vol. 31 ไม่ 4, pp. 44: 1--44: 10, 2012
[32] Y. Lecun, "Lenet-5, เครือข่ายประสาท Convolutional,",. [ออนไลน์]. พร้อมใช้งาน: http://yann.lecun.com/exdb/lenet/ [เข้าถึง 2 4 2017]
[33] H. Li Y, S. TM และ GS Y, "การรับรู้ภาพร่างด้วยมือเปล่าโดยการเรียนรู้หลาย kernel," CVIU, 2015
[34] S. Li Y และ GS Y, "การรับรู้ร่างโดยการจับคู่ของคุณสมบัติที่มีโครงสร้าง" BMVC, 2013