Отчет редактора Downcodes: Adobe и Мичиганский университет совместно разработали систему генерации звуковых эффектов на основе искусственного интеллекта под названием MultiFoley, которая может генерировать звуковые эффекты дублирования в фильмах и видео с помощью текстовых подсказок, аудио- или видеопримеров, что значительно повышает эффективность постобработки. Система поддерживает несколько методов ввода и может преобразовывать разные звуки, например мяуканье кошки в рык льва. Качество вывода звука с высокой пропускной способностью и точная синхронизация видео получили чрезвычайно высокие оценки в пользовательских тестах.
Недавно исследовательская группа Adobe и исследователи из Мичиганского университета совместно разработали систему искусственного интеллекта под названием MultiFoley. Эта система может генерировать звуковые эффекты дублирования в фильмах и видео для облегчения постобработки.
MultiFoley является инновационным, поскольку позволяет пользователям создавать звуковые эффекты с помощью текстовых подсказок, справочных аудио- или видеопримеров. В ходе демонстраций система даже смогла преобразовать кошачье мяуканье в рык льва, а звуки пишущей машинки — в фортепианные ноты, и все это в идеальной синхронизации с видеозаписью.
Качество вывода звука MultiFoley достигает высокой полосы пропускания 48 кГц, что в основном связано с использованием исследователями видео и библиотек профессиональных звуковых эффектов в Интернете для обучения. В отличие от предыдущих систем, MultiFoley впервые объединяет несколько методов ввода — текста, аудио и видео — в одну и ту же модель. Он работает, анализируя визуальные характеристики со скоростью 8 кадров в секунду и усиливая их, чтобы они соответствовали частоте дискретизации звука 40 Гц, гарантируя, что сгенерированный звук остается тесно синхронизированным с видео.

В тестах MultiFoley показал хорошие результаты при синхронизации аудио и видео и сопоставлении звуковых эффектов с текстовыми описаниями со средней точностью синхронизации 0,8 секунды, что значительно лучше, чем типичная задержка более одной секунды в традиционных системах. Исследование пользователей показало, что 85,8% участников оценили MultiFoley на втором месте по семантической согласованности, а 94,5% предпочли его эффект синхронизации.

Хотя MultiFoley продемонстрировал большой потенциал, исследовательская группа также указала на некоторые текущие ограничения, такие как относительно небольшой объем обучающих данных, что ограничивает разнообразие звуковых эффектов, которые он может использовать. В то же время система также имеет определенные трудности с созданием нескольких одновременных звуковых эффектов. Исследовательская группа планирует в ближайшее время опубликовать исходный код и модель.
Хотя Adobe не объявила о включении MultiFoley в свои продукты, эта технология хорошо сочетается с существующими возможностями искусственного интеллекта в программном обеспечении для редактирования видео Adobe Premiere Pro и, как ожидается, обеспечит удобство отдельным создателям и продюсерским компаниям в процессе звукового дизайна.
Выделять:
? MultiFoley — это система создания звуковых эффектов с использованием искусственного интеллекта, разработанная совместно Adobe и Мичиганским университетом. Она может генерировать звуковые эффекты с помощью различных методов ввода.
? Качество вывода звука этой системы достигает 48 кГц, а средняя точность синхронизации составляет 0,8 секунды, что лучше, чем у традиционных систем звуковых эффектов.
Исследования пользователей показывают, что MultiFoley получает высокие оценки как за смысловую согласованность, так и за синхронизацию звуковых эффектов.
В целом, появление MultiFoley открыло новые возможности для производства звуковых эффектов, и ожидается, что его эффективная, точная работа и удобное управление изменят будущий процесс производства звуковых эффектов. Будем с нетерпением ждать выхода его исходного кода и моделей, а также его применения в продуктах Adobe.