最近、Meta AIチームは、マシンインテリジェンスのさらなる開発を促進するために設計された画期的なテクノロジーである共同ビデオ埋め込み予測アーキテクチャ(V-JEPA)と呼ばれる革新的なモデルを開始しました。人間は視覚的な信号を処理する能力を持って生まれ、周囲のオブジェクトとモーションパターンを簡単に識別できます。機械学習の重要な目標は、人間の監視されていない学習の基本原則を明らかにすることです。この目的のために、研究者は重要な仮説 - 予測的特徴の原則を提案しました。
初期の研究方法は、主に遅い特徴分析とスペクトル技術を使用して時間の一貫性を維持し、それにより表現の崩壊を防ぎます。ただし、最新のテクノロジーは、コントラストの学習とマスキングモデリングを組み合わせて、表現が時間とともに進化できるようにします。これらの方法は、時間の不変性に焦点を当てるだけでなく、予測ネットワークをトレーニングすることにより、さまざまな時刻ステップでの特徴関係をマップし、それによりパフォーマンスを大幅に改善します。特にビデオデータでは、時空マスキングの適用により、学習表現の質がさらに向上します。
Metaの研究チームは、いくつかの有名な機関と協力してV-JEPAモデルを開発しました。このモデルは、機能の予測に焦点を当て、監視されていないビデオ学習に焦点を当てています。従来の方法とは異なり、V-JEPAは事前に訓練されたエンコーダー、ネガティブサンプル、再構成、またはテキスト監督に依存していません。トレーニングプロセス中、V-Jepaは200万件のパブリックビデオを使用し、微調整せずにアスレチックおよび外観のタスクで大きなパフォーマンスを達成しました。
V-JEPAのトレーニング方法は、ビデオデータを介してオブジェクト中心の学習モデルを構築することです。まず、ニューラルネットワークは、ビデオフレームからオブジェクトセンターの表現を抽出し、動きと外観の特徴をキャプチャします。これらの表現は、オブジェクトの分離性を改善するために、比較学習を通じてさらに強化されます。次に、変圧器ベースのアーキテクチャは、これらの表現を処理して、オブジェクト間の時間的相互作用をシミュレートします。フレームワーク全体は、再構築の精度とクロスフレームの一貫性を最適化するために、大規模なデータセットでトレーニングされています。
V-JEPAは、特に凍結評価において、ピクセル予測方法と比較して特に優れています。 Imagenet分類タスクではわずかに開発されていませんが、微調整後、V-Jepaは、トレーニングサンプルが少ないVIT-L/16モデルに基づいて他の方法を上回ります。 V-JEPAは、動きの理解とビデオタスクで優れたパフォーマンスを発揮し、トレーニングがより効率的であり、低いサンプル設定で精度を維持することができます。
この研究は、監視されていないビデオ学習の独立した目標としての機能予測の有効性を実証しています。 V-JEPAは、さまざまな画像およびビデオタスクでうまく機能し、パラメーター適応なしで以前のビデオ表現方法を上回ります。 V-JEPAには、微妙な動きの詳細をキャプチャする上で大きな利点があり、ビデオ理解に大きな可能性を示しています。
論文:https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-presentations-from-video/
ブログ:https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/
キーポイント:
V-JEPAモデルは、メタAIによって開始された新しいビデオ学習モデルであり、監視されていない機能予測に焦点を当てています。
このモデルは、ビデオデータから直接学習するために、従来の前提条件のエンコーダとテキスト監督に依存していません。
V-JEPAはビデオタスクと低いサンプル学習でうまく機能し、効率的なトレーニング能力と強力な表現能力を示しました。