Informes del editor de Downcodes: Adobe y la Universidad de Michigan han colaborado para desarrollar un sistema de generación de efectos de sonido de IA llamado MultiFoley, que puede generar efectos de sonido de doblaje en películas y videos a través de indicaciones de texto, ejemplos de audio o video, lo que mejora en gran medida la eficiencia de la posproducción. El sistema admite múltiples métodos de entrada y puede convertir diferentes sonidos, como el maullido de un gato en el rugido de un león. Su calidad de salida de audio de gran ancho de banda y su precisa sincronización de vídeo han recibido calificaciones extremadamente altas en las pruebas de usuarios.
Recientemente, el equipo de investigación de Adobe e investigadores de la Universidad de Michigan desarrollaron conjuntamente un sistema de inteligencia artificial llamado MultiFoley. Este sistema puede generar efectos de sonido de doblaje en películas y videos para ayudar en la postproducción.
MultiFoley es innovador porque permite a los usuarios crear efectos de sonido a través de indicaciones de texto, ejemplos de audio o video de referencia. En las demostraciones, el sistema incluso pudo convertir el maullido de un gato en el rugido de un león, o sonidos de una máquina de escribir en notas de piano, todo en perfecta sincronización con el video.
La calidad de salida de audio de MultiFoley alcanza un alto ancho de banda de 48 kHz, lo que se debe principalmente al uso que los investigadores hacen de vídeos y bibliotecas de efectos de sonido profesionales en Internet para su formación. A diferencia de los sistemas anteriores, MultiFoley integra múltiples métodos de entrada (referencias de texto, audio y vídeo) en el mismo modelo por primera vez. Funciona analizando las características visuales a 8 cuadros por segundo y amplificándolas para que coincidan con la frecuencia de muestreo de audio de 40 Hz, asegurando que el audio generado permanezca estrechamente sincronizado con el video.

En las pruebas, MultiFoley tuvo un buen desempeño en la sincronización de audio y video y en la comparación de efectos de sonido con descripciones de texto, con una precisión de sincronización promedio de 0,8 segundos, significativamente mejor que el retraso típico de más de un segundo en los sistemas tradicionales. La investigación de usuarios mostró que el 85,8% de los participantes calificaron a MultiFoley como superior al segundo mejor en términos de consistencia semántica, mientras que el 94,5% prefirió su efecto de sincronización.

Aunque MultiFoley ha demostrado un gran potencial, el equipo de investigación también señaló algunas limitaciones actuales, como los datos de entrenamiento relativamente pequeños, que limitan la variedad de efectos de sonido que puede utilizar. Al mismo tiempo, el sistema también tiene ciertas dificultades a la hora de generar múltiples efectos de sonido simultáneos. El equipo de investigación planea publicar pronto el código fuente y el modelo.
Aunque Adobe no ha anunciado la inclusión de MultiFoley en sus productos, la tecnología encaja bien con las capacidades de inteligencia artificial existentes en el software de edición de video Adobe Premiere Pro y se espera que brinde comodidad a los creadores individuales y a las compañías de producción en el proceso de diseño de sonido.
Destacar:
MultiFoley es un sistema de generación de efectos de sonido con IA desarrollado conjuntamente por Adobe y la Universidad de Michigan. Puede generar efectos de sonido a través de una variedad de métodos de entrada.
La calidad de salida de audio de este sistema alcanza los 48 kHz y la precisión de sincronización promedio es de 0,8 segundos, lo que es mejor que los sistemas de efectos de sonido tradicionales.
Los estudios de usuarios muestran que MultiFoley recibe altas calificaciones tanto por la coherencia semántica como por la sincronización de los efectos de sonido.
Con todo, la aparición de MultiFoley ha traído nuevas posibilidades a la producción de efectos de sonido, y se espera que su desempeño eficiente y preciso y su operación conveniente cambien el proceso de producción de efectos de sonido en el futuro. Esperemos con ansias la publicación de su código fuente y sus modelos, así como su aplicación en los productos de Adobe.