「サイレントビデオ」の恥ずかしさに別れを告げてください！バイトAIサウンドエフェクト生成モデルSeedFoleyが発売され、Dreamsはワンクリックで大ヒット音の効果を生成します-AI記事

著者：Eve Cole 更新時間：2025-05-23 22:25:01

まだ短いビデオダビングが心配ですか？あなたは常に適切なバックグラウンドミュージックを見つけることができませんか？現在、Bytedanceは革新的なAIテクノロジー - Seedfoley Sound Effecter Generationモデルを開始しました。 SeedFoleyは、単純な操作だけで、プロのグレードのサウンドエフェクトをビデオにインテリジェントに一致させ、サイレントやサイレント映画からオーディオブロックバスターに即座に作品を作ることができます。このテクノロジーは、bytedanceの子会社であるビデオ作成プラットフォーム「A Dream」をすぐに発売し、すべてのユーザーがワンクリックでサウンドエフェクトを生成する魔法の機能を簡単に体験できるようになりました。

Seedfoleyのコアテクノロジーは、革新的なエンドツーエンドアーキテクチャにあり、ビデオの時空特性と強力な拡散生成モデルを巧みに組み合わせて、サウンドエフェクトとビデオコンテンツの高い同期を実現します。最初に、SeedFoleyはビデオでフレーム抽出分析を実行し、各フレームの重要な情報を抽出し、ビデオエンコーダーを介してビデオコンテンツを深く解釈して、そのアクションとシーンを理解します。次に、この情報は条件空間に投影され、効果音の生成の方向を提供します。サウンドエフェクトの生成プロセス中、Seedfoleyは改善された拡散モデルフレームワークを採用して、ビデオコンテンツに基づいて完全に一致するサウンドエフェクトソリューションをインテリジェントに生成します。

AIが音の芸術をよりよく理解できるようにするために、Seedfoleyはトレーニングプロセス中に多数の音声と音楽関連のタグを学び、サウンドエフェクトと非音効果を区別し、より正確な効果音の生成を実現することができます。さらに、SeedFoleyは、数秒の短いビデオであろうと数分の長いビデオであろうと、さまざまな長さのビデオ入力を処理することもできますが、簡単に対処でき、サウンドの精度、同期、ビデオコンテンツと一致するという点で業界をリードするレベルに達しました。

Seedfoleyのビデオエンコーダは、高速と遅い機能の組み合わせを使用して、高フレームレートでビデオの微妙なアクションをキャプチャし、低フレームレートでビデオのセマンティック情報を抽出します。高速と遅いこの組み合わせは、重要なモーション特性を保持するだけでなく、コンピューティングコストを効果的に削減し、低消費電力と高性能の完全なバランスをとることもできます。このテクノロジーを通じて、SeedFoleyは、低いコンピューティングリソースの下で8FPSフレームレベルのビデオ機能抽出を実現し、ビデオ内のすべてのアクションを正確に配置することができます。

オーディオ特性評価モデルに関しては、SeedFoleyは元の波形を入力として使用し、エンコード後に1Dオーディオ特性評価を取得します。従来のMeer Spectrumモデルと比較して、この方法はオーディオ再構成と生成モデリングにおいてより多くの利点があります。高周波情報の完全な保持を確保するために、Seedfoleyのオーディオサンプリングレートは32Kと高く、1秒あたりのオーディオは32のオーディオ潜在的特性評価を抽出し、オーディオのタイミング解像度を効果的に改善し、生成されたサウンドエフェクトをより繊細で現実的にします。

Seedfoleyのオーディオ表現モデルは、2段階の共同トレーニング戦略も採用しています。最初の段階では、オーディオ表現の位相情報がマスク戦略を使用して剥がされ、廃止モデルの最適化目標として廃止された潜在的な表現が使用されます。第2段階では、フェーズ情報は、オーディオデコーダーを使用して、最も現実的な状態にサウンドを復元するために、dephasing表現から再構築されます。この段階的な戦略により、拡散モデルによる表現の予測の難しさが効果的に減少し、最終的に高品質のオーディオの潜在的な表現の生成と回復を実現します。

拡散モデルの観点から、SeedFoleyは拡散トランスフォーマーフレームワークを選択し、確率パスの連続マッピング関係を最適化することにより、ガウスノイズ分布からターゲットオーディオ表現スペースへの正確な確率の一致を達成しました。マルコフ連鎖サンプリングに依存している従来の拡散モデルと比較して、SeedFoleyは連続変換パスを構築することにより推論ステップの数を効果的に削減し、推論コストを大幅に削減し、サウンドエフェクトの生成をより速く効率的にします。

Seedfoleyの誕生は、ビデオコンテンツとオーディオ生成の深い統合を示しています。ビデオレベルの視覚情報を正確に抽出し、マルチフレーム画像情報に関する洞察により、ビデオのボーカルの主題とアクションシーンを正確に識別できます。リズムの強い感覚を持つ音楽の瞬間であろうと、映画の緊張したプロットであろうと、Seedfoleyはポイントを正確に特定し、没入型で現実的な体験を作成できます。さらに驚くべきことは、Seedfoleyがアクションサウンドエフェクトと周囲のサウンドエフェクトをインテリジェントに区別し、ビデオの物語の緊張と感情的な伝達効率を大幅に改善できることです。

現在、AI Sound Effect関数はIMENGプラットフォームで正式に起動されています。ユーザーはIMENGを使用してビデオを生成し、AI Sound Effect関数を選択して、ワンクリックで3つのプロフェッショナルなサウンドエフェクトソリューションを生成するだけです。 AIビデオの作成、ライフビデオブログ、短編映画の制作、ゲームの制作など、Seedfoleyは、プロのサウンドエフェクトを使用して高品質のビデオを簡単に作成するのに役立ちます。