다운코드 편집자 보고서: Adobe와 University of Michigan은 텍스트 프롬프트, 오디오 또는 비디오 예제를 통해 영화와 비디오에서 더빙 음향 효과를 생성하여 후반 작업 효율성을 크게 향상시킬 수 있는 MultiFoley라는 AI 음향 효과 생성 시스템을 개발하기 위해 협력했습니다. 이 시스템은 다양한 입력 방법을 지원하며 고양이의 야옹 소리와 같은 다양한 소리를 사자의 포효로 변환할 수 있습니다. 고대역폭 오디오 출력 품질과 정밀한 비디오 동기화는 사용자 테스트에서 매우 높은 평가를 받았습니다.
최근 Adobe 연구팀과 미시간 대학 연구진은 MultiFoley라는 인공 지능 시스템을 공동 개발했습니다. 이 시스템은 영화와 비디오에 더빙 음향 효과를 생성하여 후반 작업을 지원합니다.
MultiFoley는 사용자가 텍스트 프롬프트, 참조 오디오 또는 비디오 예제를 통해 사운드 효과를 만들 수 있다는 점에서 혁신적입니다. 시연에서 시스템은 심지어 고양이의 야옹 소리를 사자의 포효로, 타자기 소리를 피아노 음으로 변환할 수 있었으며 모두 비디오 영상과 완벽하게 동기화되었습니다.
MultiFoley의 오디오 출력 품질은 48kHz의 높은 대역폭에 도달하는데, 이는 주로 연구원들이 교육을 위해 인터넷에서 비디오 및 전문 음향 효과 라이브러리를 사용했기 때문입니다. 이전 시스템과 달리 MultiFoley는 최초로 텍스트, 오디오, 비디오 참조 등 다양한 입력 방법을 동일한 모델에 통합했습니다. 초당 8프레임으로 시각적 특성을 분석하고 40Hz 오디오 샘플링 속도와 일치하도록 증폭하여 생성된 오디오가 비디오와 긴밀하게 동기화되도록 보장합니다.

테스트에서 MultiFoley는 오디오와 비디오를 동기화하고 사운드 효과를 텍스트 설명과 일치시키는 데 있어 평균 0.8초의 동기화 정확도로 우수한 성능을 발휘했습니다. 이는 기존 시스템의 일반적인 1초 이상의 지연보다 훨씬 뛰어납니다. 사용자 조사에 따르면 참가자의 85.8%는 의미적 일관성 측면에서 MultiFoley가 두 번째로 우수하다고 평가했으며, 94.5%는 동기화 효과를 선호했습니다.

MultiFoley는 강력한 잠재력을 보여주었지만, 연구팀은 상대적으로 작은 훈련 데이터로 인해 사용할 수 있는 음향 효과의 다양성이 제한되는 등 현재의 몇 가지 한계도 지적했습니다. 동시에, 시스템은 여러 동시 음향 효과를 생성하는 데에도 특정 어려움이 있습니다. 연구팀은 곧 소스코드와 모델을 공개할 계획이다.
아직 어도비가 자사 제품에 MultiFoley를 포함한다고 발표한 것은 아니지만, 이 기술은 어도비 프리미어 프로(Adobe Premiere Pro) 영상 편집 소프트웨어의 기존 인공지능 기능과 잘 맞아떨어지며, 사운드 디자인 과정에서 개인 창작자와 제작사에 편의성을 가져다 줄 것으로 기대된다.
가장 밝은 부분:
? MultiFoley는 Adobe와 University of Michigan이 공동으로 개발한 AI 음향 효과 생성 시스템으로, 다양한 입력 방법을 통해 음향 효과를 생성할 수 있습니다.
? 이 시스템의 오디오 출력 품질은 48kHz에 달하며 평균 동기화 정확도는 0.8초로 기존 음향 효과 시스템보다 우수합니다.
사용자 연구에 따르면 MultiFoley는 의미론적 일관성과 음향 효과의 동기화 측면에서 높은 평가를 받았습니다.
결론적으로 MultiFoley의 등장은 음향효과 제작에 새로운 가능성을 가져왔으며, MultiFoley의 효율적이고 정밀한 성능과 편리한 조작은 향후 음향효과 제작 프로세스를 변화시킬 것으로 예상됩니다. 소스 코드와 모델이 출시되고 Adobe 제품에 적용되기를 기대해 보겠습니다.