아직 짧은 비디오 더빙에 대해 걱정하십니까? 항상 올바른 배경 음악을 찾을 수 없습니까? 이제 Bytedance는 혁신적인 AI 기술인 Seedfoley Sound Effect Generation Model을 시작하여 비디오 생성의 사운드 효과 문제를 완전히 해결했습니다. 간단한 운영만으로 Seedfoley는 전문가 등급 음향 효과를 비디오에 지능적으로 일치시킬 수 있으므로 조용하고 조용한 영화에서 오디오 블록버스터에 이르기까지 작업을 즉시 작동시킬 수 있습니다. 이 기술은 Bytedance의 자회사 인 비디오 제작 플랫폼 "A Dream"을 신속하게 출시하여 모든 사용자가 한 번의 클릭으로 음향 효과를 생성하는 마법의 기능을 쉽게 경험할 수 있습니다.

Seedfoley의 핵심 기술은 혁신적인 엔드 투 엔드 아키텍처에 있으며, 비디오의 시공간 특성을 강력한 확산 생성 모델과 영리하게 결합하여 음향 효과 및 비디오 컨텐츠의 높은 동기화를 달성합니다. 먼저 SeedFoley는 비디오에서 프레임 추출 분석을 수행하고 각 프레임의 주요 정보를 추출한 다음 비디오 인코더를 통해 비디오 컨텐츠를 깊이 해석하여 작업 및 장면을 이해합니다. 그런 다음이 정보는 조건부 공간으로 투사되어 음향 효과 생성 방향을 제공합니다. 사운드 효과 생성 프로세스 동안 SeedFoley는 개선 된 확산 모델 프레임 워크를 채택하여 비디오 컨텐츠를 기반으로 완벽하게 일치하는 사운드 효과 솔루션을 지능적으로 생성합니다.

AI가 소리의 기술을 더 잘 이해할 수 있도록 Seedfoley는 훈련 과정에서 많은 음성 및 음악 관련 태그를 배웠으며, 사운드 효과와 음향 효과를 구별하고보다 정확한 음향 효과 생성을 달성 할 수 있습니다. 또한 SeedFoley는 몇 초의 짧은 비디오이든 몇 분의 긴 비디오이든 쉽게 처리 할 수 있으며, 사운드 정확도, 동기화 및 비디오 컨텐츠와 일치하는 측면에서 업계 최고의 수준에 도달했습니다.
SeedFoley의 비디오 인코더는 빠른 속도와 느린 기능의 조합을 사용하여 비디오에서 미묘한 액션을 높은 프레임 속도로 캡처하고 비디오의 의미 론적 정보를 낮은 프레임 속도로 추출합니다. 빠르고 느린이 조합은 주요 모션 특성을 유지할뿐만 아니라 컴퓨팅 비용을 효과적으로 줄여서 저전력 소비와 고성능 사이의 완벽한 균형을 달성합니다. 이 기술을 통해 SeedFoley는 낮은 컴퓨팅 리소스에서 8FPS 프레임 레벨 비디오 기능 추출을 실현하여 비디오의 모든 작업을 정확하게 배치 할 수 있습니다.
오디오 특성화 모델 측면에서 SeedFoley는 원래 파형을 입력으로 사용하고 인코딩 후 1D 오디오 특성화를 얻습니다. 기존의 Meer 스펙트럼 모델과 비교할 때이 방법은 오디오 재구성 및 생성 모델링에서 더 많은 장점이 있습니다. 고주파 정보의 완전한 유지를 보장하기 위해 Seedfoley의 오디오 샘플링 속도는 32k만큼 높으며 초당 오디오는 32 개의 오디오 잠재적 특성화를 추출하여 오디오의 타이밍 해상도를 효과적으로 개선하고 생성 된 사운드 효과를보다 섬세하고 현실적으로 만듭니다.

Seedfoley의 오디오 표현 모델은 또한 2 단계 공동 교육 전략을 채택합니다. 첫 번째 단계에서, 오디오 표현의 위상 정보는 마스크 전략을 사용하여 제거되며, 탈출 기반 전위 표현은 확산 모델의 최적화 목표로 사용됩니다. 두 번째 단계에서, 위상 정보는 오디오 디코더를 사용하여 사운드를 가장 현실적인 상태로 복원하는 탈피 표현으로부터 재구성된다. 이 단계별 전략은 확산 모델에 의한 표현을 예측하는 데 어려움을 효과적으로 줄이고 궁극적으로 고품질 오디오의 잠재적 표현의 생성 및 복원을 실현합니다.
확산 모델 측면에서 Seedfoley는 확산 변수 프레임 워크를 선택했으며 확률 경로에서 연속 매핑 관계를 최적화하여 가우스 노이즈 분포에서 대상 오디오 표현 공간으로의 정확한 확률을 달성했습니다. Markov 체인 샘플링에 의존하는 전통적인 확산 모델과 비교하여 Seedfoley는 연속 변환 경로를 구성하여 추론 단계의 수를 효과적으로 줄이고 추론 비용을 크게 줄이며 음향 효과를 더 빠르고 효율적으로 만듭니다.
Seedfoley의 탄생은 비디오 컨텐츠와 오디오 생성의 깊은 통합을 나타냅니다. 비디오 프레임 레벨 시각 정보를 정확하게 추출하고 멀티 프레임 사진 정보에 대한 통찰력으로 비디오에서 보컬 주제 및 액션 장면을 정확하게 식별 할 수 있습니다. 강한 리듬 감각을 가진 음악적 순간이든 영화의 시제 음모에 관계없이 Seedfoley는 정확하게 지점을 정확하게 찾아 내고 몰입감 있고 현실적인 경험을 만들 수 있습니다. 더 놀라운 것은 Seedfoley가 액션 음향 효과와 주변 음향 효과를 지능적으로 구별하여 비디오의 이야기 긴장과 정서적 전염 효율성을 크게 향상시킬 수 있다는 것입니다.
이제 AI 사운드 효과 기능이 IMENG 플랫폼에서 공식적으로 시작되었습니다. 사용자는 IMENG 만 사용하여 비디오를 생성하고 AI 사운드 효과 기능을 선택하여 한 번의 클릭으로 3 개의 전문 음향 효과 솔루션을 생성해야합니다. AI Video Creation, Life Vlog, 단편 영화 제작 또는 게임 제작이든 Seedfoley는 전문적인 사운드 효과로 고품질의 비디오를 쉽게 만들 수 있도록하여 작업이 즉시 사운드를 만들 수 있습니다!