世界はまだ回復していますが、特に人工知能の分野では、研究が熱狂的なペースを遅くしていません。さらに、倫理的側面、重要なバイアス、ガバナンス、透明性など、多くの重要な側面が今年強調されました。人工知能と人間の脳の理解とAIへのリンクは絶えず進化しており、近い将来の私たちの生活の質を改善する有望なアプリケーションを示しています。それでも、どのテクノロジーを適用するかに注意する必要があります。
「科学は私たちがすべきことを教えてくれません。私たちにできることだけです。」
- ジャン・ポール・サルトル、存在、そして何も
AIおよびデータサイエンスの最新のブレークスルーのキュレーションリストは、明確なビデオ説明、より詳細な記事へのリンク、およびコード(該当する場合)を使用してリリース日ごとにデータサイエンスを使用します。読んでください!
各論文への完全な参照は、このリポジトリの最後にリストされています。このリポジトリを主演して、来年に向けて最新の状態を保ち、お楽しみに!ショ和
メンダー:louisfB01、YouTubeでも、AIについても詳細をご覧になりたい場合は、ポッドキャスターとしてアクティブ!
私のニュースレターを購読する - 毎週説明されているAIの最新のアップデート。
このリポジトリに追加するために見逃したかもしれない興味深い論文を私にメッセージを送ってください。
Twitter @whats_aiまたはLinkedIn @louis(What's AI)Bouchardでリストを共有するとタグを付けてください!そして、私たちの学習AIを一緒にDiscordコミュニティで私たちとチャットしてください!
?私の仕事をサポートしたい場合は、このリポジトリのスポンサーを確認したり、Patreonで私をサポートしたりできます。
あなたは確かにこの状況を一度経験しました:あなたはあなたの友人と素晴らしい写真を撮ります、そして、誰かがあなたの後ろに写真爆撃をして、あなたの将来のInstagramの投稿を台無しにしています。まあ、それはもはや問題ではありません。それはあなたの写真を台無しにしているあなたのセルフィーを取る前に、あなたが削除するのを忘れた人であるか、ゴミ箱です。このAIは、画像内の望ましくないオブジェクトまたは人を自動的に削除し、投稿を保存します。それはあなたのポケットにあるプロのPhotoshopデザイナーのようなもので、簡単にクリックしてください!
画像の一部を削除し、それを背後に表示すべきものに置き換えるこのタスクは、長い間多くのAI研究者によって取り組まれています。それはイメージと呼ばれていると呼ばれ、非常に挑戦的です...
サミュエル・L・ジャクソンとウィル・スミスがずっと若いように見えるように見えた最近のキャプテン・マーベルやジェミニ・マンのような映画を見てきました。これには、彼が登場したシーンを手動で編集している専門家からの数千時間ではないにしても数百時間の仕事が必要です。代わりに、単純なAIを使用して、数分以内にそれを行うことができます。確かに、多くの手法により、笑顔を追加したり、若いか古いかをすべてAIベースのアルゴリズムを使用して自動的に使用したりすることができます。これは、ビデオのAIベースのフェイス操作と呼ばれ、2022年の現在の最先端です。
ニューラルレンダリング。ニューラルレンダリングとは、オブジェクト、人、または関心のあるシーンの写真から、このような空間でフォトリアリスティックモデルを生成する能力です。この場合、この彫刻のほんの一握りの写真があり、これらの写真のオブジェクトが宇宙でどのように見えるかをマシンに理解するように頼むでしょう。基本的には、画像から物理学や形状を理解するように機械に求めています。私たちは現実の世界と深さしか知っているので、これは非常に簡単ですが、ピクセルしか見ないマシンにとってはまったく別の課題です。生成されたモデルがリアルな形状で正確に見えるのは素晴らしいことですが、新しいシーンでどのようにブレンドするかはどうですか?そして、撮影した写真で照明条件が異なり、生成されたモデルが見ている角度によって異なって見える場合はどうなりますか?これは自動的に奇妙で非現実的に思えます。これらは、Snapchatと南カリフォルニア大学がこの新しい研究で攻撃した課題です。
画像が画像から削除されることを目的とした画像の入力を見てきました。機械学習ベースのテクニックは、単にオブジェクトを削除するだけでなく、画像を理解し、画像の欠けている部分を背景がどのように見えるかを埋めます。結果と同じように、最近の進歩は信じられないほどです。この取り込みタスクは、広告や将来のInstagram投稿の改善など、多くのアプリケーションに非常に役立ちます。また、さらに挑戦的なタスクをカバーしました。ビデオの入力で、同じプロセスがビデオに適用され、オブジェクトや人を削除します。
ビデオの課題は、バグのようなアーティファクトなしでフレームごとに一貫性を保つことに伴います。しかし、今、私たちが映画から人を正しく削除して、サウンドがまだそこにある場合はどうなりますか?まあ、私たちは幽霊を聞き、すべての仕事を台無しにするかもしれません。
これは、私がチャンネルでカバーしたことのないタスクが入ってくる場所です。 Googleの研究者は、スピーチを開始することを目的とした論文を公開したばかりで、結果は非常に印象的です。さて、結果を見るよりも聞くかもしれませんが、あなたはポイントを得るでしょう。文法、発音を修正したり、背景ノイズを削除したりすることもできます。私が間違いなく作業を続ける必要がある、または...単に彼らの新しいモデルを使用する必要があるすべてのこと...私のビデオの例を聞いてください!
また、高齢化しなかった自分の古い写真や、高品質の画像を作成する前に撮影したあなたや両親の写真もありますか?私はそうします、そして、私はそれらの思い出が永遠に損傷を受けたように感じました。少年、私は間違っていた!
この新しい完全に無料のAIモデルは、古い写真のほとんどを一瞬で修正できます。非常に低いまたは高品質の入力でもうまく機能します。これは通常、非常に課題です。
今週の論文は、生成的なフェイシャルの事前の事前のタックルを伴う現実世界の盲目の顔の回復に向けて、傑出した結果を伴う写真の修復タスクに取り組んでいます。さらにクールなのは、自分で試してみることができるということです。彼らは彼らのコードをオープンソーシングし、あなたが今すぐ試すためにデモとオンラインのアプリケーションを作成しました。上記の結果が十分に説得力がない場合は、ビデオを見て、コメントであなたがどう思うか教えてください。
自動運転車はどのように見えますか?
あなたはおそらく、彼らが使用しているLidarセンサーやその他の奇妙なカメラについて聞いたことがあるでしょう。しかし、彼らはどのように機能し、どのようにして世界を見ることができますか、そして彼らは私たちと比較して正確に何を見ますか?主に政府で働いたり、次の規制を構築したりした場合、それらを道路に置きたい場合、それらがどのように機能するかを理解することが不可欠です。これらのサービスのクライアントとしても。
私たちは以前、テスラオートパイロットがどのように見て機能するかを取り上げましたが、それらは従来の自動運転車とは異なります。テスラはカメラのみを使用して世界を理解していますが、それらのほとんどはWaymoのように通常のカメラと3D Lidarセンサーを使用しています。これらのLidarセンサーは理解するのが非常に簡単です。通常のカメラや3Dポイントクラウドのような画像を作成することはありません。 LIDARカメラは、オブジェクト間の距離を測定し、オブジェクトに投影するパルスレーザーの移動時間を計算します。
それでも、この情報をどのように効率的に組み合わせて、車両にそれを理解させることができますか?そして、車両は何を見ているのでしょうか?どこにでもポイントするだけですか?私たちの道路を運転するのに十分ですか? WaymoとGoogle Researchによる新しい研究論文でこれを調べます...
写真を撮ることは十分な挑戦的な技術的能力ではないかのように、私たちは今、反対のことをしています。写真から世界をモデル化します。画像を撮影して高品質のシーンに変えることができる驚くべきAIベースのモデルについて説明しました。 2次元の画像の世界でいくつかの画像を撮影して、オブジェクトや人が現実の世界でどのように見えるかを作成することで構成される挑戦的なタスクです。
数枚の写真を撮り、すぐに製品に挿入する現実的なモデルがあります。それはどれほどクールですか?!
結果は、2020年にカバーした最初のモデル、Nerfと呼ばれるモデルで劇的に改善されました。そして、この改善は結果の質だけではありません。 Nvidiaはそれをさらに良くしました。
品質が比較可能であるだけでなく、より良くないとしても、2年未満の研究で1'000倍以上速くなります。
昨年、私はDall・Eを共有しました。これは、信じられないほどの結果を伴うテキスト入力から画像を生成できるOpenAIによる素晴らしいモデルです。今こそ彼の兄「ドール・E 2」の時間です。そして、あなたは1年の進歩を信じないでしょう! DALL・E 2は、テキストからフォトリアリスティックな画像を生成するのに適しているだけではありません。結果は解像度の4倍です!
それはまだ十分に印象的ではないかのように、最近のモデルは新しいスキルを学びました。画像の入力。
DALL・Eは、テキスト入力から画像を生成できます。
Dall・E 2はそれをより良くすることができますが、そこで止まらない。また、これらの画像を編集して、さらに良く見せることもできます!または、バックグラウンドのフラミンゴのように必要な機能を追加するだけです。
面白そうですね。ビデオで詳細を確認するか、以下をご覧ください!
Google ResearchとTel-Aviv大学によるこの新しいモデルは信じられないほどです。あなたはそれを何でもできる非常に強力なディープファークとして見ることができます。
あらゆる人の100枚の写真を撮ると、あなたが望む現実的な画像を修正、編集、または作成するためにそのペルソナをエンコードしています。
これは、特に結果を見るとき、私に尋ねると驚くべき怖くて怖いです。ビデオを見て、より多くの結果を確認し、モデルの仕組みを理解してください!
フィールドの専門家とのインタビューという形で、より多くのAIコンテンツについては、AIポッドキャストをご覧ください!招待されたAIの専門家と私は、AIに関連する特定のトピック、サブフィールド、および役割について、それを集めるために一生懸命働いた人々から知識を教え、共有することを取り上げます。
私たちは皆、GPT-3について聞いたことがあり、その能力についてやや明確な考えを持っています。このモデルのために厳密に生まれたいくつかのアプリケーションを最も確実に見てきましたが、そのいくつかはモデルに関する以前のビデオで説明しました。 GPT-3はOpenAIによって開発されたモデルで、有料APIを介してアクセスできますが、モデル自体にアクセスできません。
GPT-3を非常に強力にしているのは、そのアーキテクチャとサイズの両方です。 1750億のパラメーターがあります。脳にあるニューロンの2倍の量!この計り知れないネットワークは、テキストの書き方、交換、理解を理解するために、インターネット全体でほとんど訓練されていました。今週、メタはコミュニティにとって大きな一歩を踏み出しました。彼らは、それ以上ではないにしても、それ以上のオープンソースをかけているモデルをリリースしたばかりです。
Blobganは、画像の非現実的な操作を可能にし、シンプルな塊を簡単に制御できます。これらの小さな塊はすべてオブジェクトを表し、それらを動かしたり、大きく、小さくしたり、削除したりすることさえできます。これにより、画像で表すオブジェクトに同じ効果があります。これはとてもクールです!
著者が結果を共有しているように、ブロブを複製して、2人の天井ファンがいる部屋のようにデータセットに見えない画像を作成することで、新しい画像を作成することもできます。私が間違っている場合は私を修正してください。しかし、それは最初ではないにしても、画像の変更を動かしてトレーニングデータセットで見えない編集を可能にするための最初の論文の1つであると思います。
そして、あなたは私たち全員が知っているいくつかの会社と比較して、実際にこれで遊ぶことができます!彼らはコードを公開し、すぐに試すことができるコラブデモを共有しました。さらにエキサイティングなのは、Blobganの仕組みです。ビデオで詳細をご覧ください!
DeepmindのGatoが公開されたばかりです!これは、Atariゲームをプレイしたり、画像をキャプションしたり、人とチャットしたり、本物のロボットアームを制御できる単一の変圧器です!実際、それは一度訓練されており、同じウェイトを使用してこれらすべてのタスクを達成しています。そして、深い想像によると、これは変圧器だけでなくエージェントでもあります。これは、トランスとマルチタスク補強学習エージェントの進捗状況と混合すると起こることです。
Gatoはマルチモーダルエージェントです。つまり、画像のキャプションを作成したり、チャットボットとして質問に答えることができます。 GPT-3はすでにそれを行うことができると言うでしょうが、Gatoはさらに多くのことをすることができます...マルチモダリティは、Gatoが人間レベルでAtariゲームをプレイしたり、ロボットアームを制御するなどの実際のタスクを実行することもできるという事実に由来しています。オブジェクトを正確に移動します。それは言葉、画像、さらには物理学を理解しています...
Dall-E 2に素晴らしい結果が得られたと思ったら、Google Brainのこの新しいモデルができることを確認するまで待ちます。
Dalle-Eは驚くべきものですが、多くの場合リアリズムが欠けています。これは、Imagenと呼ばれるこの新しいモデルでチームが攻撃したものです。
彼らはプロジェクトページで多くの結果を共有し、ベンチマークはテキストとイメージモデルを比較するために導入しました。ビデオで詳細をご覧ください...
Dalle Miniは素晴らしいです - そしてあなたはそれを使用することができます!
過去数日間で、Twitterフィードのような写真を見たと確信しています。それらが何であるか疑問に思うなら、それらはDall・E Miniと呼ばれるAIによって生成された画像です。あなたがそれらを見たことがないなら、あなたは見逃しているのでこのビデオを見る必要があります。これがどのように可能か疑問に思うなら、あなたは完璧なビデオに載っていて、5分以内に答えを知るでしょう。
Dalle Miniは、テキスト入力から素晴らしい画像を生成する無料のオープンソースAIです。
「No Language Lefted Lefted」と呼ばれるMeta AIの最新のモデルは、まさにそれを行います。最先端の品質を持つ200の異なる言語に翻訳されます。単一のモデルは200の言語を処理できます。それはどれほど素晴らしいですか?
メタが同じモデルで200の異なる言語に取り組んでいる間、私たちは英語で厳密に素晴らしい結果を得ることは難しいと感じています。
カメラとレーザービームを振動する表面に使用して音を再構築し、楽器を隔離し、特定のスピーカーに焦点を合わせ、周囲の音を取り除き、さらに多くの驚くべきアプリケーションを再構築します。
Make-a-sceneは「単なる別のダレ」ではありません。この新しいモデルの目標は、DALLEが行うように、ユーザーがテキストプロンプトに従ってランダム画像を生成できるようにすることではなく、これは本当にクールですが、世代のユーザーコントロールを制限します。
代わりに、メタは創造的な表現を前進させたいと考え、このテキストからイメージへのトレンドを以前のスケッチからイメージまでのモデルと融合させ、「Make-a-Scene」につながりました。
Banmoで写真から変形可能な3Dモデルを作成します!
Dalle、Imagen、Midjourneyなどの最近の超強力な画像モデルはすべて共通していますか?高いコンピューティングコスト、巨大なトレーニング時間、共有誇大広告以外に、それらはすべて同じメカニズムである拡散に基づいています。拡散モデルは最近、Dalleを使用したテキストからイメージを含むほとんどの画像タスクで最新の結果を達成しましたが、画像の開始、スタイル転送、画像超解像度など、他の多くの画像生成関連タスクも実現しました。
?私の仕事をサポートしたい場合は、このリポジトリのスポンサーを確認したり、Patreonで私をサポートしたりできます。
パノプティックシーンのグラフ生成(PSG)は、ボックスを境界するのではなく、パノプティックセグメンテーションに基づいて、画像またはシーンのより包括的なグラフ表現を生成することを目的とした新しい問題タスクです。画像を理解し、何が起こっているのかを説明する文を生成するために使用できます。これは、AIにとって最も挑戦的な作業かもしれません!以下をご覧ください...
ダレや安定した拡散などのテキストから画像へのモデルは非常にクールで、単純なテキスト入力で素晴らしい写真を生成することができます。しかし、彼らにあなたの写真を与えて、それを絵に変えるように頼むのはさらに涼しいでしょうか?オブジェクト、人、またはあなたの猫の写真を送信し、モデルに自分自身をあなたの好みの芸術スタイルに変えたり、新しいシーンに追加したりするなど、モデルに別のスタイルに変換するように頼むことができると想像してください。
基本的に、ランダムな世代を持つのではなく、写真を写真撮影に使用できるダレのバージョンを持っていることはどれほどクールでしょうか?パーソナライズされたダレを持っている間、「イメージは千の言葉の価値がある」として世代をより簡単に制御することをより簡単にします。 Tiktokアルゴリズムと同じくらいパーソナライズされ、中毒性のあるDalleモデルを持っているようなものです。
まあ、これはテルアビブ大学とNvidiaの研究者が取り組んだものです。彼らは、先週私が取り上げた安定した拡散のようなテキストから画像へのモデルを調整するためのアプローチを開発しました。いくつかの画像を使用して、画像に沿って送信する単語を介してオブジェクトや概念を表しています。入力画像のオブジェクトを必要なものに変換してください!
AIがテキストを生成し、画像を生成し、最近では短いビデオを生成するのを見てきましたが、まだ作業が必要です。結果は、これらの作品の作成プロセスに実際に関与していないと思うと、驚くべきことです。安定した拡散のような何千人もの人々が使用するために一度訓練する必要があります。それでも、これらのモデルは彼らが何をしているのか本当に理解していますか?彼らは、彼らが作成したばかりの写真やビデオが実際に何を表しているのか知っていますか?そのようなモデルは、そのような絵や、さらに複雑なビデオを見たときに何を理解していますか?
Meta AIの新しいモデルMake-A-Videoが出ており、単一の文では、テキストからビデオを生成します。ビデオを生成できるだけでなく、新しい最先端の方法でもあり、かつてないほど高品質で首尾一貫したビデオを作成します。
あなたが言うことを正確に理解し、それを書き留める良い転写ツールを夢見たことはありますか?自動YouTube翻訳ツールとは異なります。つまり、それらは良いですが、完璧とはほど遠いです。試してみて、ビデオの機能をオンにするだけで、私が話していることがわかります。
幸いなことに、Openaiはリリースしたばかりで、そのために非常に強力なAIモデルをオープンソースしました:Whisper。
それは私が理解することさえできないものを理解しており、ネイティブの英語話者ではなく(ビデオで聞く)、言語翻訳にも役立ちます!
文を取得して画像を生成できるモデルが見られました。次に、オブジェクトや特定のスタイルなどの特定の概念を学習することにより、生成された画像を操作する他のアプローチ。
先週、Metaは私がカバーしたMake-A-Videoモデルを公開しました。これにより、テキスト文から短いビデオを生成できます。結果はまだ完璧ではありませんが、昨年からこの分野で行った進歩は信じられないほどです。
今週は別の一歩を踏み出します。
これは、3Dモデルを生成するのに十分な文を理解できる新しいGoogleの研究モデルであるDreamFusionです。これは、ダレまたは安定した拡散が3Dであると見ることができます。
Dalleや安定した拡散などの最近の画像生成モデルがクールだと思うなら、これがどれほど信じられないか信じられないでしょう。 「これ」は想像力です。 Imagicは、このような拡散ベースのモデルをテキストを取り出して生成することができ、モデルを編集するためにモデルを適応させることができます。画像を生成してから、モデルに必要な方法で編集するように教えることができます。
Nvidiaの最新のモデルであるEdiffiは、Dalle 2や安定した拡散などの以前のすべてのアプローチよりも、見栄えが良く、より正確な画像を生成します。 Ediffiは、送信するテキストをよりよく理解し、よりカスタマイズ可能であり、Nvidiaの以前の論文で見た機能を追加します:The Painter Tool。
?私の仕事をサポートしたい場合は、このリポジトリのスポンサーを確認したり、Patreonで私をサポートしたりできます。
あなたがあなたの画像に飛んでいるかのように、無限の新しいフレームを生成します!
Galacticaは、GPT-3に匹敵するサイズの大きな言語モデルですが、科学的知識に特化しています。モデルは、ホワイトペーパー、レビュー、ウィキペディアのページ、およびコードを書くことができます。引用する方法と方程式の書き方を知っています。 AIと科学にとっては一種の大したことです。
単一のビデオから、彼らはより良い品質で、ほとんどすべての単語や文章をリアルタイムで話している人を統合することができます。オーディオトラックをリアルタイムでアニメーション化できます。
ChatGptは、そのパワーとそれが提供するミームの可能性のおかげで、Twitterとほとんどのインターネット全体を引き継ぎました。私たちは皆、ミームを生成できることがインターネットを征服するための最良の方法であることを知っているので、それはうまくいきました。
多くの例を見てきたので、ChatGptはOpenaiによって最近公開されたAIであり、チャットできることをすでに知っているかもしれません。また、チャットボットとも呼ばれます。つまり、1対1の人間の議論を模倣して会話的にやり取りできることを意味します。
あなたが知らないかもしれないのは、それが何であるか、それがどのように機能するかです...ビデオを見たり、以下の記事やブログ投稿を読んで詳細をご覧ください!
Snapchatフィルターでの楽しみであれ、映画のためであれ、いくつかのしわを取り除くためであれ、私たちは皆、写真で年齢を変えることができるというユーティリティを念頭に置いています。
これは通常、Photoshopまたは同様のツールを使用して写真を編集する熟練したアーティストによって行われます。最悪の場合、ビデオでは、すべてのフレームに対してこの種の手動編集を行う必要があります!そのために必要な作業の量を想像してください。さて、ここにこの状況の解決策と新しい問題があります...?
より多くの論文を読み、より広いビューを持っている場合は、2021:2021:驚くべきAIペーパーでいっぱいの1年をカバーするためのもう1つの素晴らしいリポジトリをご覧ください。 -2022のAIで新しい出版物を使用してください!
Twitter @whats_aiまたはLinkedIn @louis(What's AI)Bouchardでリストを共有するとタグを付けてください!
[1] Suvorov、R.、Logacheva、E.、Mashikhin、A.、Remizova、A.、Ashukha、A.、Silvestrov、A.、Kong、N.、Goka、H.、Park、K。and Lempitsky、 V.、2022。FORIERConvolutionsでのパインティングの解像度 - ロボストラージマスク。 IEEE/CVFコンピュータービジョンの適用に関する冬の会議の議事録(pp。2149–2159)、https://arxiv.org/pdf/2109.07161.pdf
[2] Tzaban、R.、Mokady、R.、Gal、R.、Bermano、Ah and Cohen-Or、D.、2022。 https://arxiv.org/abs/2201.08361
[3] Kuang、Z.、Olszewski、K.、Chai、M.、Huang、Z.、Achlioptas、P。and Tulyakov、S.、2022。 https://arxiv.org/pdf/2201.02533.pdf
[4] Borsos、Z.、Sharifi、M。and Tagliasacchi、M.、2022。Speechpainter:テキスト条件付きの音声開始。 https://arxiv.org/pdf/2202.07273.pdf
[5] Wang、X.、Li、Y.、Zhang、H。and Shan、Y.、2021。コンピュータービジョンとパターン認識に関するIEEE/CVF会議の議事録(pp。9168–9178)、https://arxiv.org/pdf/2101.04061.pdf
[6] Piergiovanni, AJ, Casser, V., Ryoo, MS and Angelova, A., 2021. 4d-net for learned multi-modal alignment. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 15435–15445), https://openaccess.thecvf.com/content/ICCV2021/papers/Piergiovanni_4D-Net_for_Learned_Multi-Modal_Alignment_ICCV_2021_paper.pdf.
[7] Thomas Muller, Alex Evans, Christoph Schied and Alexander Keller, 2022, "Instant Neural Graphics Primitives with a Multiresolution Hash Encoding", https://nvlabs.github.io/instant-ngp/assets/mueller2022instant.pdf
[8] A. Ramesh et al., 2022, "Hierarchical Text-Conditional Image Generation with CLIP Latents", https://cdn.openai.com/papers/dall-e-2.pdf
[9] Nitzan, Y., Aberman, K., He, Q., Liba, O., Yarom, M., Gandelsman, Y., Mosseri, I., Pritch, Y. and Cohen-Or, D., 2022. MyStyle: A Personalized Generative Prior. arXiv preprint arXiv:2203.17272.
[10] Zhang, Susan et al. “OPT: Open Pre-trained Transformer Language Models.” https://arxiv.org/abs/2205.01068
[11] Epstein, D., Park, T., Zhang, R., Shechtman, E. and Efros, AA, 2022. BlobGAN: Spatially Disentangled Scene Representations. arXiv preprint arXiv:2205.02837.
[12] Reed S. et al., 2022, Deemind: Gato - A generalist agent, https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf
[13] Saharia et al., 2022, Google Brain, Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding, https://gweb-research-imagen.appspot.com/paper.pdf
[14] Dayma, et al., 2021, DALL·E Mini, doi:10.5281/zenodo.5146400
[15] NLLB Team et al., 2022, No Language Left Behind: Scaling Human-Centered Machine Translation
[16] Sheinin, Mark and Chan, Dorian and O'Toole, Matthew and Narasimhan, Srinivasa G., 2022, Dual-Shutter Optical Vibration Sensing, Proc. IEEE CVPR.
[17] Gafni, O., Polyak, A., Ashual, O., Sheynin, S., Parikh, D. and Taigman, Y., 2022. Make-a-scene: Scene-based text-to-image generation with human priors. https://arxiv.org/pdf/2203.13131.pdf
[18] Yang, G., Vo, M., Neverova, N., Ramanan, D., Vedaldi, A. and Joo, H., 2022. Banmo: Building animatable 3d neural models from many casual videos. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 2863-2873).
[19] Rombach, R., Blattmann, A., Lorenz, D., Esser, P. and Ommer, B., 2022. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10684–10695), https://arxiv.org/pdf/2112.10752.pdf
[20] Yang, J., Ang, YZ, Guo, Z., Zhou, K., Zhang, W. and Liu, Z., 2022. Panoptic Scene Graph Generation. arXiv preprint arXiv:2207.11247.
[21] Gal, R., Alaluf, Y., Atzmon, Y., Patashnik, O., Bermano, AH, Chechik, G. and Cohen-Or, D., 2022. An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion.
[22] Ni, B., Peng, H., Chen, M., Zhang, S., Meng, G., Fu, J., Xiang, S. and Ling, H., 2022. Expanding Language-Image Pretrained Models for General Video Recognition. arXiv preprint arXiv:2208.02816.
[23] Singer et al. (Meta AI), 2022, “MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA”, https://makeavideo.studio/Make-A-Video.pdf
[24] Radford, A., Kim, JW, Xu, T., Brockman, G., McLeavey, C. and Sutskever, I., Robust Speech Recognition via Large-Scale Weak Supervision.
[25] Poole, B., Jain, A., Barron, JT and Mildenhall, B., 2022. DreamFusion: Text-to-3D using 2D Diffusion. arXiv preprint arXiv:2209.14988.
[26] Kawar, B., Zada, S., Lang, O., Tov, O., Chang, H., Dekel, T., Mosseri, I. and Irani, M., 2022. Imagic: Text-Based Real Image Editing with Diffusion Models. arXiv preprint arXiv:2210.09276.
[27] Balaji, Y. et al., 2022, eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers, https://arxiv.org/abs/2211.01324
[28] Li, Z., Wang, Q., Snavely, N. and Kanazawa, A., 2022. InfiniteNature-Zero: Learning Perpetual View Generation of Natural Scenes from Single Images. In European Conference on Computer Vision (pp. 515–534). Springer, Cham, https://arxiv.org/abs/2207.11148
[29] Taylor et al., 2022: Galactica: A Large Language Model for Science, https://galactica.org/
[30] Tang, J., Wang, K., Zhou, H., Chen, X., He, D., Hu, T., Liu, J., Zeng, G. and Wang, J., 2022. Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial Decomposition. arXiv preprint arXiv:2211.12368.
[31] OpenAI, 2022: ChatGPT: Optimizing Language Models for Dialogue, https://openai.com/blog/chatgpt/
[32] Loss et al., DisneyResearch, 2022: FRAN, https://studios.disneyresearch.com/2022/11/30/production-ready-face-re-aging-for-visual-effects/