今年世界で起こったことすべてがあっても、私たちはまだ多くの驚くべき研究が出てくるのを見る機会がありました。特に人工知能の分野で。さらに、倫理的側面、重要なバイアスなど、多くの重要な側面が今年強調されました。人工知能と人間の脳の理解とAIへのリンクは絶えず進化しており、近日中に有望な用途を示しています。
あなたがそれらのいずれかを逃した場合に備えて、今年の最も興味深い研究論文は次のとおりです。要するに、それは基本的に、AIおよびデータサイエンスの最新のブレークスルーのキュレーションされたリストであり、明確なビデオ説明、より詳細な記事へのリンク、およびコード(該当する場合)を使用してリリースされます。読んでください!
各論文への完全な参照は、このリポジトリの最後にリストされています。
メンダー-LouisfB01
私のニュースレターを購読する - 毎週説明されているAIの最新のアップデート。
? 2021レポを確認してください!
[email protected]のこのリポジトリに追加するために私が見逃した素晴らしい論文をお気軽に私にメッセージを送ってください
Twitter @whats_aiまたはLinkedIn @louis(What's AI)Bouchardでリストを共有するとタグを付けてください!
2020年のトップ10のコンピュータービジョンペーパーは、ビデオデモ、記事、コード、紙のリファレンスを備えています。
トップ10のコンピュータービジョンペーパー2020
?私の仕事をサポートし、W&B(無料で)を使用してML実験を追跡し、仕事を再現できるか、チームと協力したい場合は、このガイドに従って試してみることができます。ここのコードのほとんどはPytorchベースであるため、PytorchでW&Bを使用するためのクイックスタートガイドは共有するのが最も興味深いと考えました。
このクイックガイドに従って、コードまたは下のレポスの同じW&Bラインを使用して、すべての実験をW&Bアカウントで自動的に追跡します!セットアップに5分以上かかることはなく、私のためにあなたの人生を変えるでしょう!これは、興味があればハイパーパラメータースイープを使用するためのより高度なガイドです:)
?このリポジトリと私が行ってきた仕事を後援してくれたWeight&Biaseに感謝します。また、このリンクを使用してW&Bを試してみてください!
この4番目のバージョンは、Alexey Bochkovsky et al。によって2020年4月に最近導入されました。論文「Yolov4:オブジェクト検出の最適な速度と精度」。このアルゴリズムの主な目標は、精度の点で高品質の超高速オブジェクト検出器を作成することでした。
この新しい画像からイメージへの翻訳技術を使用して、描画スキルがゼロのラフまたは不完全なスケッチから高品質のフェイス画像を生成できるようになりました。私のように描画スキルが悪い場合は、目、口、鼻が最終画像にどれだけ影響するかを調整することさえできます!それが本当に機能するかどうか、そして彼らがそれをどのようにしたかを見てみましょう。
Gameganは、50,000のPac-Manエピソードでトレーニングされた生成的な敵対的なネットワークであり、根底にあるゲームエンジンなしでドットマンシングクラシックの完全に機能的なバージョンを生成します。
この新しいアルゴリズムは、ぼやけた画像を高解像度画像に変換します!超低解像度16x16画像を取り、1080pの高解像度の人間の顔に変えることができます!あなたは私を信じていませんか?その後、あなたは私のようにやり、1分以内に自分で試してみることができます!しかし、最初に、彼らがどのようにそれをしたか見てみましょう。
この新しいモデルは、監督なしでコードをプログラミング言語から別の言語に変換します! Python関数を使用して、それをC ++関数に変換することができます。各言語の構文を理解しているため、プログラミング言語に一般化できます!彼らがそれをどのようにしたか見てみましょう。
このAIは、2D画像の人々の3D高解像度の再構成を生成します!後ろからでも、あなたのように見える3Dアバターを生成するために、あなたの単一の画像だけが必要です!
ディズニーの研究者は、同じ名前の紙の視覚効果のための新しい高解像度の顔交換アルゴリズムを開発しました。メガピクセルの解像度で写真と現実的な結果をレンダリングすることができます。ディズニーで働いていて、彼らは間違いなくこの仕事に最適なチームです。彼らの目標は、俳優のパフォーマンスを維持しながら、ソースアクターからターゲットアクターの顔を交換することです。これは非常に挑戦的であり、キャラクターの年齢を変える、俳優が利用できない場合、またはメインの俳優が演奏するには危険すぎるスタントシーンを伴う場合でも、多くの状況で役立ちます。現在のアプローチでは、専門家によるフレームごとのアニメーションとポストプロセスの多くが必要です。
この新しいテクニックは、完全な監視されていないトレーニングを使用して現実的でありながら、絵のテクスチャーを変えることができます!結果は、ガンがより速くなりながら達成できるものよりもさらに良く見えます!ディープフェイクを作成するためにも使用できます!
現在の最先端のNLPシステムは、さまざまなタスクに取り組むために一般化するのに苦労しています。数千の例のデータセットで微調整する必要がありますが、人間は新しい言語タスクを実行するためにいくつかの例を見る必要があります。これは、言語モデルのタスクに依存しない特性を改善するためのGPT-3の背後にある目標でした。
このAIは、削除された移動オブジェクトの背後にある欠落しているピクセルを埋め、現在の最先端のアプローチよりもはるかに正確でぼやけでビデオ全体を再構築できます!
Gmailで使用されているような良いAIは、コヒーレントテキストを生成し、フレーズを完成させることができます。これは、画像を完成させるために同じ原則を使用しています!すべてが監視されていないトレーニングで行われ、ラベルはまったく必要ありません!
このaiは、あなたが望む漫画スタイルでそれを食べる任意の写真やビデオを漫画化できます!それがどのようにそれを行うか、そしていくつかの驚くべき例を見てみましょう。私が自分でやったように、彼らが作成したウェブサイトで自分で試してみることもできます!
このフェイスジェネレーションモデルは、通常のフェイス写真をリーマルニョンの漫画スタイル、シンプソンズ、芸術、さらには犬などの独特のスタイルに移すことができます!この新しい手法の最大の点は、それが非常にシンプルであり、GANで使用されていた以前の手法を大幅に上回ることです。
このアルゴリズムは、単一の画像から再構築され、簡単に再配置できるパラメトリックメッシュとしてのボディポーズと形状を表します。人のイメージを考えると、彼らは異なるポーズで、または別の入力画像から得られた異なる衣服で人の合成画像を作成することができます。
彼らの目標は、単一のRGB画像からの3Dヒューマンポーズとメッシュの推定の新しい手法を提案することでした。彼らはそれをi2l-meshnetと呼びました。ここで、I2Lは画像からリクセルの略です。ボクセルのように、ボリューム +ピクセルは3次元空間の量子化された細胞であり、それらは1次元空間の量子化セルとしてLixel、ライン、およびピクセルを定義しました。それらの方法は以前の方法よりも優れており、コードは公開されています!
https://github.com/mks0601/i2l-meshnet_release
言語誘導ナビゲーションは、広く研究されている分野であり、非常に複雑な分野です。確かに、人間が家を歩いてベッドの左側にあるナイトスタンドに残したコーヒーに行くのは簡単に思えるかもしれません。しかし、それはエージェントにとってまったく別の話です。これは、タスクを実行するために深い学習を使用する自律的なAI駆動型システムです。
ECCV 2020 Best Paper Awardはプリンストンチームに送られます。彼らは、光学フローのための新しいエンドツーエンドトレーニング可能なモデルを開発しました。それらの方法は、複数のデータセットで最先端のアーキテクチャの精度を打ち負かし、より効率的です。彼らは、彼らのgithubのすべての人がコードを利用できるようにしました!
インターネットからの観光客の公開写真を使用して、彼らは現実的な影と照明を保護するシーンの複数の視点を再構築することができました!これは、フォトリアリックなシーンのレンダリングのための最先端のテクニックの大きな進歩であり、その結果は単に驚くべきものです。
祖母が18歳のときに高解像度でゼロのアーティファクトを持っているときに、あなたの祖母の古い、折り畳まれた、さらには引き裂かれた写真を持っていることを想像してください。これは古い写真の修復と呼ばれ、このペーパーは、深い学習アプローチを使用してこの問題に対処するためのまったく新しい道を開いたばかりです。
ISTオーストリアとMITの研究者は、糸虫などの小さな動物の脳に基づいた新しい人工知能システムを使用して、自動運転車の訓練を成功裏に訓練しました。彼らは、インスペット、レセネット、VGGなどの一般的な深いニューラルネットワークに必要な数百万のニューロンと比較して、自動運転車を制御できる少数のニューロンのみでそれを達成しました。彼らのネットワークは、数百万ではなく、19のコントロールニューロンで構成される75,000パラメーターのみを使用して車を完全に制御することができました!
Adobe Researchの研究者チームは、その人からの1つの写真のみに基づいて、年齢変換統合の新しい手法を開発しました。送信した写真から寿命の写真を生成できます。
Deoldifyは、古い白黒画像や映画の映像を色付けして復元する手法です。それは開発され、ジェイソン・アンチックの1人だけによってまだ更新されています。現在、白黒の画像を色付けする最先端の方法であり、すべてがオープンソースであるが、これに少し戻ってきます。
名前が述べているように、ビデオの各シーケンスの正確なテキストの説明を生成し、ビデオとその一般的な説明の両方を入力として使用して、トランスを使用します。
この画像からペインティングの翻訳方法は、現在のすべての最先端のアプローチとは異なり、GANアーキテクチャを伴わない斬新なアプローチを使用して、複数のスタイルで実際の画家をシミュレートします!
人間のマットは非常に興味深い作業です。目標は、人間を絵の中で見つけて背景を削除することです。タスクの複雑さのために達成するのは本当に難しいです。完璧な輪郭を持つ人や人を見つける必要があります。この投稿では、長年にわたって使用されている最良の手法と2020年11月29日に公開された新しいアプローチをレビューします。多くの手法は、Grabcutアルゴリズムなど、このタスクを実現するために基本的なコンピュータービジョンアルゴリズムを使用していますが、これは非常に高速ですが、非常に正確です。
Nvidiaによって開発されたこの新しいトレーニング方法を使用すると、画像の10分の1で強力な生成モデルをトレーニングできます!それほど多くの画像にアクセスできない多くのアプリケーションを可能にします!
Nvidiaによって開発されたこの新しいトレーニング方法を使用すると、画像の10分の1で強力な生成モデルをトレーニングできます!それほど多くの画像にアクセスできない多くのアプリケーションを可能にします!
この新しい方法は、完全な3次元シーンを生成することができ、シーンの照明を決定する機能を備えています。これはすべて、非常に限られた計算コストと、以前のアプローチと比較して驚くべき結果を伴います。
? 2021レポを確認してください!
Twitter @whats_aiまたはLinkedIn @louis(What's AI)Bouchardでリストを共有するとタグを付けてください!
[1] A. Bochkovskiy、C.-Y。 Wang、およびH.-Im Liao、Yolov4:オブジェクト検出の最適速度と精度、2020。Arxiv:2004.10934 [Cs.CV]。
[2] S.-Y. Chen、W。Su、L。Gao、S。Xia、およびH. Fu、「Deepfacedrawing:Sketchesからのディープジェネレーションのフェイス画像」、グラフィックスのACMトランザクション(ACM Siggraph2020の議事録)、vol。 39、いいえ。 4、72:1–72:16、2020。
[3] SWキム、Y。Zhou、J。Philion、A。Torralba、およびS. Fidler、「GameganとのDynamicEnvironmentsをシミュレートすることを学ぶ」、IEEE Conference on Computer Vision and Pattern Regution(CVPR)、2020年6月。
[4] S. Menon、A。Damian、S。Hu、N。Ravi、およびC. Rudin、Pulse:潜在的な写真Upsampling by Latent Space Generative Models、2020。Arxiv:2003.03808 [Cs.CV]。
[5] M.-A。 Lachaux、B。Roziere、L。Chanussot、およびG. Lample、プログラミング言語の教師なし翻訳、2020。Arxiv:2006.03511 [Cs.Cl]。
[6] S. Saito、T。Simon、J。Saragih、およびH. Joo、Pifuhd:高解像度3Dヒトデジタル化のためのマルチレベルのピクセル並列暗黙関数、2020。Arxiv:2004.00452 [Cs.CV]。
[7] J. Naruniec、L。Helminger、C。Schroers、およびR. Weber、「視覚効果のための高解像度のニューラルの顔の洗浄」、Computer Graphics Forum、Vol。 39、pp。173–184、2020年7月。Doi:10.1111/cgf.14062。
[8] T.パーク、J.-Y。 Zhu、O。Wang、J。Lu、E。Shechtman、Aa Efros、およびR. Zhang、SwappingAutoEncoderの深い画像操作、2020。Arxiv:2007.00653 [Cs.CV]。
[9] TB Brown、B。Mann、N。Ryder、M。Subbiah、J。Kaplan、P。Dhariwal、A。Neelakantan、P.Shyam、G。Sastry、A。Adkell、S。Agarwal、A。Herbert- Voss、G。Krueger、T。Henighan、R。Child、A。Ramesh、DM Ziegler、J。Wu、C。Winter、C。Hesse、M。Chen、E。 Sigler、M。Litwin、S.Gray、B。Chess、J。Clark、C。Berner、S。McCandlish、A。Radford、I。Sutskever、およびD. Amodei、「言語モデルは少数の学習者です」2020 。
[10] Y. Zeng、J。Fu、およびH. Chao、ビデオインペインティングのための共同空間的変換、2020。2020。Arxiv:2007.10247 [Cs.CV]。
[11] M. Chen、A。Radford、R。Child、J。Wu、H。Jun、D。Luan、およびI. Sutskever、「Pixelsからの生成事前削除」、第37回機械学習に関する国際会議の議事録、 HD IIIおよびA. Singh、eds。、Ser。機械学習研究の議事録、Vol。 119、仮想:PMLR、2020年7月13〜18日、1691〜1703ページ。 [オンライン]。利用可能:http://proceedings.mlr.press/v119/chen20s.html。
[12] Xinrui WangとJinze Yu、「ホワイトボックスの漫画の表現を使用して漫画化することを学ぶ」、IEEEコンピュータービジョンとパターン認識に関する会議、2020年6月。
[13] S. Mo、M。Cho、およびJ. Shin、識別子を凍結:微調整ガンのための簡単なベースライン、2020。 Arxiv:2002.10964 [cs.cv]。
[14] K. Sarkar、D。Mehta、W。Xu、V。Golyanik、およびC. Theobalt、「単一の画像からの人間のニューラル再レンダリング」、欧州コンピュータービジョンに関する会議(ECCV)、2020年。
[15] G. Moon and KM Lee、「I2L-Meshnet:Computervisionに関する欧州会議(ECCV)での正確な3Dヒューマンポーズおよびメッシュの推定のための画像からリクセル予測ネットワーク」、2020
[16] J. Krantz、E。Wijmans、A。Majumdar、D。Batra、およびS. Lee、「Nav-graph:nov-graph:rivisure-and language Navigation in Continuous環境」、2020。Arxiv:2004.02857 [cs。 cv]。
[17] Z. TeedおよびJ. Deng、Raft:光流量の再発オールペアフィールド変換、2020。Arxiv:2003.12039 [Cs.CV]。
[18] Z. Li、W。Xian、A。Davis、およびN. Snavely、「プレノプティック機能のクラウドサンプリング」、Inproc.european Conference on Computer Vision(ECCV)、2020。
[19] Z. Wan、B。Zhang、D。Chen、P。Zhang、D。Chen、J。Liao、およびF. Wen、Deep Latent Space Translation、2020。Arxiv:2009.07047 [Cs.CV ]。
[20] Lechner、M.、Hasani、R.、Amini、A。et al。監査可能な自律性を可能にするニューラル回路ポリシー。 Nat Mach Intell 2、642–652(2020)。 https://doi.org/10.1038/S42256-020-00237-3
[21] R. Or-El、S。Sengupta、O。Fried、E。Shechtman、およびI. Kemelmacher-Shlizerman、「Lifespanage Transformation Synthesis」、欧州コンピュータービジョン会議(ECCV)、2020年の議事録。
[22] Jason Antic、Deoldifyの作成者、https://github.com/jantic/deoldify
[23] S. Ging、M。Zolfaghari、H。Pirsiavash、およびT. Brox、「クート:ビデオテキスト表現学習のための協同組合階層トランスフォーマー」、Neural Information Processingsingsystems、2020。
[24] Z. Zou、T。Shi、S。Qiu、Y。Yuan、およびZ. Shi、様式化された神経絵画、2020。Arxiv:2011.08114 [Cs.CV]。
[25] Z. Ke、K。Li、Y。Zhou、Q。Wu、X。Mao、Q。Yan、およびRW Lau、「緑の画面はリアルタイムのポートレートマットに本当に必要ですか?」 arxiv、vol。 ABS/2011.11961、2020。
[26] T. Karras、M。Aittala、J。Hellsten、S。Laine、J。Lehtinen、およびT. Aila、限られたデータを備えた生成的敵対的ネットワーク、2020。2020。Arxiv:2006.06676 [CS.CV]。
[27] Ja Weyn、Druran、およびR. Caruana、「立方体の深い畳み込みニューラルネットワークを使用したデータ駆動型のグローバル気象予測の改善」、Journal of Advances in Modeling Earth Systems、vol。 12、いいえ。 9、2020年9月、ISSN:1942–2466.DOI:10.1029/2020MS002109
[28] PP Srinivasan、B。Deng、X。Zhang、M。Tancik、B。Mildenhall、およびJT Barron、「Nerv:再生とビュー統合のための神経反射率と視認性フィールド」、Arxiv、2020。