Downcodes エディターのレポート: アドビとミシガン大学は協力して、MultiFoley と呼ばれる AI サウンドエフェクト生成システムを開発しました。このシステムは、テキストプロンプト、オーディオまたはビデオのサンプルを通じて映画やビデオの吹き替えサウンドエフェクトを生成でき、ポストプロダクションの効率を大幅に向上させます。このシステムは複数の入力方法をサポートしており、猫の鳴き声をライオンの咆哮に変えるなど、さまざまな音を変換できます。高帯域幅のオーディオ出力品質と正確なビデオ同期は、ユーザーテストで非常に高い評価を受けています。
最近、アドビの研究チームとミシガン大学の研究者が共同で、映画やビデオの吹き替え効果音を生成してポストプロダクションを支援できる人工知能システム「MultiFoley」を開発しました。
MultiFoley は、ユーザーがテキスト プロンプト、リファレンス オーディオまたはビデオのサンプルを通じて音響効果を作成できるという点で革新的です。デモンストレーションでは、このシステムは、ビデオ映像と完全に同期して、猫の鳴き声をライオンの咆哮に変換したり、タイプライターの音をピアノの音に変換したりすることさえできました。
MultiFoley のオーディオ出力品質は 48kHz の高帯域幅に達します。これは主に、研究者がトレーニングのためにインターネット上のビデオやプロの音響効果ライブラリを使用しているためです。以前のシステムとは異なり、MultiFoley は、複数の入力方法 (テキスト、オーディオ、ビデオ参照) を初めて同じモデルに統合します。これは、視覚特性を 8 フレーム/秒で分析し、40 Hz のオーディオ サンプリング レートに一致するように増幅することで機能し、生成されたオーディオがビデオと確実に同期していることを保証します。

テストでは、MultiFoley は、オーディオとビデオの同期、およびサウンドエフェクトとテキストの説明の一致において良好なパフォーマンスを示し、平均同期精度は 0.8 秒で、従来のシステムで一般的な 1 秒以上の遅延よりも大幅に優れていました。ユーザー調査によると、参加者の 85.8% がセマンティック一貫性の点で MultiFoley が 2 番目に優れていると評価し、94.5% がその同期効果を好んでいました。

MultiFoley は強力な可能性を示していますが、研究チームは、トレーニング データが比較的小さいため、使用できる音響効果の種類が制限されるなど、現時点でのいくつかの制限も指摘しています。同時に、このシステムには複数の音響効果を同時に生成する際に一定の困難もあります。研究チームはソースコードとモデルを間もなく公開する予定だ。
Adobe は自社製品に MultiFoley を組み込むことを発表していませんが、この技術は Adobe Premiere Pro ビデオ編集ソフトウェアの既存の人工知能機能とよく適合しており、サウンド デザイン プロセスにおいて個々のクリエイターや制作会社に利便性をもたらすことが期待されています。
ハイライト:
? MultiFoley は、Adobe とミシガン大学が共同開発した AI サウンドエフェクト生成システムで、さまざまな入力方法でサウンドエフェクトを生成できます。
? このシステムのオーディオ出力品質は 48kHz に達し、平均同期精度は 0.8 秒で、従来のサウンドエフェクトシステムよりも優れています。
ユーザー調査によると、MultiFoley は意味の一貫性と効果音の同期性の両方で高い評価を受けています。
全体として、MultiFoley の登場はサウンドエフェクト制作に新たな可能性をもたらし、その効率的かつ正確なパフォーマンスと便利な操作性は、将来のサウンドエフェクト制作プロセスを変えることが期待されています。そのソースコードとモデルのリリース、そして Adobe 製品への応用を楽しみに待ちましょう。