フリーハンドスケッチオブジェクトの認識のための深い学習
このプロジェクトでは、フリーハンドスケッチオブジェクトの認識で最新の結果を達成する新しいディープラーニングアーキテクチャを提案します。スケッチオブジェクトの非常に象徴的で抽象的な性質により、コンピューターアルゴリズムがそれらを認識するのが難しいタスクになります。スケッチ認識はコンピュータービジョンの新しい概念ではないため、プロジェクトドメインに関連する以前の作品の詳細な研究を実施しました。手作りのモデルは、スケッチの象徴的な性質をキャプチャできませんでした。また、既存の深い学習アーキテクチャは写真画像に合わせて調整されており、スケッチオブジェクトに存在するさまざまなレベルの抽象化に採用されていません。これにより、人間レベルの精度を上回るスケッチアネットが生じました。 Sketch-a-netでは、スケッチオブジェクトを正確に認識するためにストローク注文情報が必要です。フレームワークは、リアルタイムのスケッチ入力のみを考慮し、オンラインで入手可能なスケッチオブジェクトの大きなデータセットを処理することはできません。上記のすべての研究の発見は、スケッチ認識を解決するために調整された新しい深い学習アーキテクチャを採用することを強調して強調しました。
私たちのモデルは、一緒に結合されたニューロンが一緒にアクティブ化されることを述べているヘビアンの原則に基づいて設計されています。新しいディープラーニングモデルの設計に関する以前の作品で見落とされている一般的な問題に対処します。モデルに畳み込みブロックのまばらな構造を導入することにより、より広いネットワークの過剰適合の問題を解決します。多数のトレーニングサンプルを使用して、スケッチオブジェクトの象徴的で抽象的な性質を解決するためのモデルを設計します。私たちのモデルは、250のカテゴリから20,000のオブジェクトで構成されるTu-Berlinスケッチデータセットでトレーニングされています。データセットにデータの高度技術を適用して、そのサイズを誤って増やします。私たちのモデルでは、84.7%の画期的な認識精度を達成し、前任者よりも10%多いです。次に、クラウドプラットフォームにモデルを展開し、Webアプリケーションをセットアップしてスケッチ認識要求を処理しました。モデルは高精度を達成していますが、クラス内の変形を認識できません。これは、私たちのモデルにはまだ改善の余地があることを指摘しています。
スケッチ認識をうまく解決することで、マルチオブジェクト認識の解決、スケッチオブジェクトセグメンテーション、スケッチクエリに基づいた画像検索、コンピュータービジョンの最も人気のある現在の傾向、生成敵のネットワークを使用してスケッチオブジェクトを使用するか、完全な写真現実的なイメージを合成するためにスケッチオブジェクトを使用することになりました。このドメインの可能性は無限であり、将来の自由なスケッチオブジェクトの深い学習の研究を訪問し、継続する予定です。
GPUクラスターにログインし、Condorジョブファイルを公開しているため、公開します。
コンドルジョブを実行するには、次のコマンドを使用します。
condor_submit sketch.sub
cat sketch.out
cat sketch.log
cat skecth.error
condor_q # get job ID
kill job_id
Webアプリケーションフォルダーに移動してターミナルを開き、以下のコードを実行します。
python manage.py runserver
Djangoアプリケーション用にパブリックIPをセットアップするには、NGROKを開き、それぞれのポート番号(アプリケーション固有のポート番号)について次のコマンドを拡張します。
ngrok port_number
[1] C. Szegedy、W。Liu、Y。Jia、P。Sermanet、S。Reed、D。Angueulov、D。Erhan、V。Vanhoucke、A。Rabinovich、「畳み込みと深くなる」コンピュータービジョンとパターン認識に関するIEEE会議(CVPR)、2015年。
[2] R. HuaおよびJ. Collomosse、「スケッチベースのグラデーションフィールドホグ記述子のパフォーマンス評価」、コンピュータービジョンと画像理解、Vol。第117巻、いいえ。 7、pp。790-806、2013。
[3] S. Ouyang、T。Hospedales、Y.-Z. Song and X. Li、「クロスモーダルの顔のマッチング:視聴されたスケッチを超えて」、コンピュータービジョン-ACCV 2014、Vol。 9004、pp。210-225、2014。
[4] RG Schneider and T. Tuytelaars、「Fisher Vectorsを使用したスケッチ分類と分類駆動型分析」、Tog ACM Trans。グラフ。グラフィックスのACMトランザクション、pp。1-9、2014。
[5] Y. Lecun、L。Bottou、Y。BengioおよびP. Haffner、「文書認識に適用されるグラデーションベースの学習」、IEEEの議事録、Vol。 86、いいえ。 11、pp。2278-2324、1998。
[6] Yu、Yang、Song、Xiang and Hospedales、「人間をbeatるネット」、2015年、英国マシンビジョン会議2015の手続き。
[7] L. T、T。C、S。F、およびC. S、2015年の新しい認識モデル。
[8] J. G、G。MD、H。J、Y.-LD E、デザインのスケッチのための計算サポート。 2009年、人間とコンピューターの相互作用の基礎と傾向。
[9] J. MFA、R。MSM、O。NZSおよびJ. Z、「CAD図面からのCADデータの抽出および認識方法に関する比較研究」、2009年の情報管理に関する国際会議。
[10] Eitz、M。a。ヘイズ、J。a。 AlexaとMarc、「人間はどのようにオブジェクトをスケッチしますか?」、ACM Trans。グラフ。 (Proc。Siggraph)、Vol。 31、いいえ。 4、pp。44:1--44:10、2012。
[11] R. Galiazzi Schneider and T. Tuytelaars、「Fisher Vectorsを使用したスケッチ分類と分類駆動型分析」、Siggraph Asia 2014の議事録、Vol。 33、いいえ。 6、pp。1-9、2014。
[12] Z. Sun、C。Wang、L。Zhang、L。Zhang、「フリーハンドローンスケッチセグメンテーション」、Microsoft Research Asia、Beijing、2012。
[13] A. Krizhevsky、I。SutskeverおよびGe Hinton、「深い畳み込みニューラルネットワークを備えたイメージェネット分類」、2012年の神経情報処理システムの進歩。
[14] A. Krizhevsky、I。Sutskever and Ge Hinton、「ImagenetClassioniation withDeepConvolutal NeuralNetworks」、神経情報処理会議(NIP)、2012年。
[15] C. Szegedy、W。Liu、Y。Jia、P。Sermanet、S。Reed、D。Anguelov、D。Erhan、V。Vanhoucke、A。Rabinovich、「GoingDeeperwithConvolutions」、コンピュータービジョンとパターン認識、2015年。
[16] K. SimonyanとA. Zisserman、「大規模な画像認識のための非常に深い畳み込みネットワーク」、学習表現に関する国際会議、2015年。
[17] C. Szegedy、W。Liu、Y。Jia、P。Sermanet、S。Reed、D。Anguelov、D。Erhan、V。Vanhouck、A。Rabinovich、「畳み込みにより深くなる」、CVPR、2015。
[18] M.-M。 。うんちとR.。 Fitzsimonds、「シナプスの開発と修正における逆行シグナル伝達」、Psychological Reviews、Vol。 、 いいえ。 、p。 、。
[19] S. Arora、A。Bhaskara、R。GeおよびT. Ma、「証明されたもののために証明可能なもの」、2013年Corr。
[20] DP Kingma and J. BA、「Adam:A Stochastic Optimizationの方法」、2015年サンディエゴの第3回学習代表会議で。
[21] L. Fei-Fei、J。DengおよびK. Li、「Imagenet:大規模な画像データベースの構築」、Journal of Vision、Vol。 9、いいえ。 8、pp。1037-1037、2010。
[22] P.ドル、「構造化された森林を使用した高速エッジ検出」、パターン分析とマシンインテリジェンスに関するIEEEトランザクション、Vol。 37、いいえ。 8、pp。1558-1570、2015。
[23] Anacondaソフトウェア配信、コンピューターソフトウェア。節2-2.4.0。 Continuum Analytics、2016。[24] F. Chollet、Keras、 url {https://github.com/fchollet/keras}、2015。
[25] Ge KrasnerとSt Pope、「Smalltalk-80のモデル - ビューコントローラーユーザーインターフェイスパラダイムを使用するための料理本」、The Journal of Object Technology、Vol。 、 いいえ。 、p。 、。
[26] DLパルナとPCクレメンツ、「合理的な設計プロセス:それを偽造する方法と理由」、ソフトウェアエンジニアリング、IEEE Transactions、Vol。 、 いいえ。 、p。 251–257、。
[27] Jdonahue、Jiayq、Vinyals、Jhoffman、Nzhang、EtzengおよびTrevor、「Decaf:A Deep Convolution Activation Feature」、2013。
[28] R. Girshick、J。Donahue、T。Darrell、J。Malik、「正確なオブジェクト検出とセマンティックセグメンテーションのためのリッチフィーチャー階層」、Tech Report、UC Berkely、Berkely、2014。
[29] J. Uijlings、「オブジェクト認識の選択的検索」、IJCV、オランダ、2012。
[30]「グローバルインフラストラクチャ」、。 [オンライン]。利用可能:https://aws.amazon.com/about-aws/global-infrastructure/。 [アクセス1 4 2017]。
[31] M. a。 HJ a。 Am Eitz、「人間はどのようにオブジェクトをスケッチしますか?」、ACM Trans。グラフ。 (Proc。Siggraph)、Vol。 31、いいえ。 4、pp。44:1--44:10、2012。
[32] Y.。 Lecun、「LENET-5、畳み込みニューラルネットワーク」、。 [オンライン]。利用可能:http://yann.lecun.com/exdb/lenet/。 [アクセス2 4 2017]。
[33] H. Li Y、S。TMおよびGS Y、「マルチカーネル学習によるフリーハンドスケッチ認識」、CVIU、2015。
[34] S. Li YおよびGS Y、「構造化された機能のアンサンブルマッチングによるスケッチ認識」、BMVC、2013。