Попрощайтесь с смущением "Silent Video"! Byte AI Sound Effect Generation Model SeedFoley, и мечты генерируют звуковые эффекты блокбастера с одним кликом - статьи искусственного интеллекта

Автор：Eve Cole Время обновления：2025-05-23 22:25:01

Все еще беспокоитесь о коротком видео, дуббинг? Вы всегда не можете найти правильную фоновую музыку? Теперь Bytedance запустила революционную технологию ИИ - модель генерации звукового эффекта SeedFoley, которая полностью решила проблемы звукового эффекта при создании видео. С простой операцией Seedfoley может разумно соответствовать звуковым эффектам профессионального класса с вашими видео, мгновенно делая ваши работы от молчаливых и тихих фильмов до аудио-блокбастеров. Эта технология быстро запустила платформу для создания видео «Dream», дочернюю компанию Bytedance, позволяя каждому пользователю легко испытать магическую функцию генерации звуковых эффектов одним щелчком.

Основная технология Seedfoley заключается в ее революционной сквозной архитектуре, которая умно сочетает в себе пространственные характеристики видео с мощной моделью генерации диффузии для достижения высокой синхронизации звуковых эффектов и видеоконтента. Во -первых, SeedFoley будет выполнять анализ экстракции кадров на видео, извлекать ключевую информацию каждого кадра, а затем глубоко интерпретировать видеоконтент через видеокодер видео, чтобы понять действия и сцены в нем. Затем эта информация проецируется в условное пространство, обеспечивая направление для генерации звукового эффекта. Во время процесса генерации звукового эффекта SeedFoley принимает улучшенную структуру диффузионной модели для разумного генерации решения звукового эффекта, которое идеально соответствует ему на основе видеоконтента.

Чтобы позволить ИИ лучше понять искусство звука, Seedfoley выучил большое количество тегов, связанных с голосом и музыкой во время тренировочного процесса, позволяя ему отличать звуковые эффекты от несущественных эффектов и достичь более точного генерации звуковых эффектов. Кроме того, SeedFoley также может обрабатывать видео входы различной длины, будь то короткое видео из нескольких секунд или длинное видео на несколько минут, оно может легко справиться с ним, и оно достигло ведущего в отрасли уровня с точки зрения точности звука, синхронизации и сопоставления с видеоконтентом.

Video Encoder Seedfoley использует комбинацию быстрых и медленных функций для захвата тонких действий в видео с высокой частотой кадров и извлечения семантической информации видео с низкой частотой кадров. Эта комбинация быстрого и медленного не только сохраняет ключевые характеристики движения, но и эффективно снижает вычислительные затраты, достигая идеального баланса между низким энергопотреблением и высокой производительностью. Благодаря этой технологии SeedFoley может реализовать извлечение видео-функции на уровне кадра в рамках в рамках низких вычислительных ресурсов, точно располагая каждое действие в видео.

С точки зрения модели характеристики аудио, SeedFoley использует исходную форму волны в качестве входного и полученного 1D -характеристики аудио -характеристики после кодирования. По сравнению с традиционной моделью спектра MEER этот метод имеет больше преимуществ в реконструкции аудио и моделировании генерации. Чтобы обеспечить полное сохранение высокочастотной информации, скорость выборки SeedFoley достигает 32K, а звук в секунду может извлекать 32-потенциальные характеристики аудио-потенциала, эффективно улучшая разрешение времени аудио и делает сгенерированные звуковые эффекты более деликатными и реалистичными.

Модель аудио представления Seedfoley также принимает двухэтапную стратегию совместной обучения. На первом этапе информация о фазе в представлении звука разряжается с использованием стратегии маски, а демонстрация демонстрации потенциала используется в качестве цели оптимизации диффузионной модели. На втором этапе информация о фазе реконструируется из представления дефазирования с использованием аудиокодера для восстановления звука в его наиболее реалистичное состояние. Эта пошаговая стратегия эффективно снижает сложность прогнозирования представлений с помощью диффузионной модели и в конечном итоге реализует генерацию и восстановление потенциальных представлений высококачественного аудио.

С точки зрения диффузионной модели, SeedFoley выбрал структуру диффузии -трансформатора и достиг точного сопоставления вероятности от распространения шума гауссов в целевое пространство представления звука путем оптимизации отношения непрерывного отображения на пути вероятности. По сравнению с традиционной диффузионной моделью, которая опирается на выборку цепи марковки, SeedFoley эффективно снижает количество шагов вывода, построив путь непрерывного трансформации, значительно снижает стоимость вывода и делает генерацию звука быстрее и эффективнее.

Рождение Seedfoley отмечает глубокую интеграцию видеоконтента и генерации звука. Он может точно извлечь визуальную информацию на уровне видео кадра и точно определить вокальные предметы и сцены действий в видео, понимая многокачественную информацию о изображении. Будь то музыкальные моменты с сильным чувством ритма или напряженными сюжетами в фильме, Seedfoley может точно определить точки и создать захватывающий и реалистичный опыт. Что еще более удивительно, так это то, что SeedFoley также может разумно различать звуковые эффекты действия и эффекты окружающей среды, значительно улучшая повествовательное напряжение и эффективность эмоциональной передачи видео.

Теперь функция AI Sound Effect была официально запущена на платформе Imeng. Пользователям необходимо использовать только Imeng для генерации видео и выбора функции звукового эффекта AI, чтобы генерировать 3 профессиональных решения звуковых эффектов за один клик. Независимо от того, является ли это созданием видео с искусственным интеллектом, Life Vlog, производством короткометражных фильмов или производства игры, SeedFoley может помочь вам легко создать высококачественные видео с профессиональными звуковыми эффектами, чтобы ваши работы могли мгновенно звучать!