AI 生成ビデオ技術の急速な発展により、その忠実度は本物と偽物を区別することが困難な点に達しています。この課題に対処するために、コロンビア大学の研究者は、AI によって生成されたビデオを検出するための DIVID と呼ばれる新しいツールを開発しました。 DIVID は、AI によって生成されたテキストを検出するために以前に使用されていた Raidar ツールの拡張機能であり、内部動作に依存するのではなく、ビデオ自体の特性を分析することによって、OpenAI の Sora や Runway などの拡散モデルによって生成されたビデオを効果的に識別します。 AIモデルの仕組みとPikaら。この研究結果は、ディープフェイクビデオ対策やネットワーク情報セキュリティの維持にとって非常に重要な意味を持つ。
AI によって生成されたビデオはますます現実的になってきており、人間 (および既存の検出システム) が本物のビデオと偽のビデオを区別することが困難になっています。この問題を解決するために、コンピュータ サイエンス教授 Junfeng Yang 率いるコロンビア大学工学部の研究者らは、AI 生成ビデオを検出するための DIVID (DIffusion-generated VIdeo Detector の略) と呼ばれる新しいツールを開発しました。 DIVID は、チームが今年初めにリリースした Raidar の拡張機能であり、大規模な言語モデルの内部動作にアクセスせずにテキスト自体を分析することで、AI によって生成されたテキストを検出します。

DIVID は、生成されたビデオを検出するための以前の方法を改良し、敵対的生成ネットワーク (GAN) などの古い AI モデルによって生成されたビデオを効果的に識別します。 GAN は 2 つのニューラル ネットワークを備えた AI システムです。1 つは偽のデータの作成に使用され、もう 1 つは本物のデータと偽のデータを区別するための評価に使用されます。継続的なフィードバックにより、両方のネットワークが継続的に改善され、その結果、非常にリアルな合成ビデオが得られます。現在の AI 検出ツールは、実際のビデオでは通常現れない、異常なピクセル配置、不自然な動き、フレーム間の不一致などの明らかな兆候を探します。

OpenAI の Sora、Runway Gen-2、Pika などの新世代の生成 AI ビデオ ツールは、拡散モデルを使用してビデオを作成します。拡散モデリングは、ランダムなノイズを徐々に鮮明でリアルな画像に変換することで画像やビデオを作成する AI テクノロジーです。ビデオの場合、スムーズなトランジションを保証しながら各フレームを個別に最適化し、高品質でリアルな結果をもたらします。このますます複雑化する AI 生成ビデオの開発により、その真正性の検出に大きな課題が生じています。
Bernadette Young のチームは、DIRE (DIffusion Reconstruction Error) と呼ばれる手法を使用して、拡散によって生成された画像を検出しました。 DIRE は、入力画像と、事前学習された拡散モデルによって再構成された対応する出力画像との差を測定する方法です。
ソフトウェア システム ラボの共同ディレクターである Junfeng Yang 氏は、AI によって生成されたテキストとビデオを検出する方法を研究してきました。今年初めの Raidar のリリースにより、Junfeng Yang 氏と共同研究者らは、chatGPT-4、Gemini、Llama などの大規模な言語モデルの内部動作にアクセスせずに、テキスト自体を分析することで AI によって生成されたテキストを検出する方法を実装しました。 Raidar は、言語モデルを使用して特定のテキストを再定式化または変更し、システムが特定のテキストに対して行った編集の数を測定します。編集数が多い場合は、テキストが人間によって書かれた可能性が高いことを意味し、編集数が少ない場合は、テキストが機械で生成された可能性があることを意味します。
「別の AI が他の AI の出力を高品質であると認識するため、編集が少なくなるという Raidar のヒューリスティックは、テキストに限定されるものではなく、非常に強力な洞察です」と Junfeng Yang 氏は述べています。ビデオはますます現実的になっており、私たちは Raidar の洞察を利用して、AI によって生成されたビデオを正確に検出できるツールを作成したいと考えました。」
研究者は同じコンセプトを使用して DIVID を開発しました。この新しい生成ビデオ検出方法は、拡散モデルによって生成されたビデオを識別できます。この研究論文は、2024 年 6 月 18 日にシアトルで開催された Computer Vision and Pattern Recognition Conference (CVPR) で発表され、オープンソース コードとデータセットも同時にリリースされました。
論文アドレス: https://arxiv.org/abs/2406.09601
ハイライト:
- ますます現実的な AI 生成ビデオに対応して、コロンビア大学工学部の研究者は、AI 生成ビデオを 93.7% の精度で検出できる新しいツール DIVID を開発しました。
- DIVID は、生成された新世代の AI ビデオを検出するための以前の方法を改良したもので、ランダムなノイズを高品質でリアルなビデオ画像に徐々に変換する拡散モデルによって生成されたビデオを識別できます。
- 研究者は、Radar の AI 生成テキストからビデオまで洞察を拡張し、言語モデルを使用してテキストまたはビデオを再定式化または変更し、システムがテキストまたはビデオに加えた編集の数を測定して、その信頼性を判断します。
つまり、DIVID の出現は、AI によって生成されたビデオ内の虚偽の情報に対抗するための新しい武器を提供し、そのオープンソース コードとデータセットのリリースは、この分野での将来の研究開発を促進し、より安全で信頼性の高いシステムの構築にも貢献します。ネットワーク環境。