Rapports de l'éditeur de codes de téléchargement : Adobe et l'Université du Michigan ont collaboré pour développer un système de génération d'effets sonores IA appelé MultiFoley, qui peut générer des effets sonores de doublage dans des films et des vidéos via des invites textuelles, des exemples audio ou vidéo, améliorant ainsi considérablement l'efficacité de la post-production. Le système prend en charge plusieurs méthodes de saisie et peut convertir différents sons, comme le miaulement d'un chat en rugissement d'un lion. Sa qualité de sortie audio à large bande passante et sa synchronisation vidéo précise ont reçu des notes extrêmement élevées lors des tests utilisateurs.
Récemment, l'équipe de recherche d'Adobe et des chercheurs de l'Université du Michigan ont développé conjointement un système d'intelligence artificielle appelé MultiFoley. Ce système peut générer des effets sonores de doublage dans les films et les vidéos pour faciliter la post-production.
MultiFoley est innovant dans la mesure où il permet aux utilisateurs de créer des effets sonores via des invites textuelles, des exemples audio ou vidéo de référence. Lors des démonstrations, le système était même capable de convertir le miaulement d'un chat en rugissement de lion ou les sons d'une machine à écrire en notes de piano, le tout en parfaite synchronisation avec la séquence vidéo.
La qualité de sortie audio de MultiFoley atteint une bande passante élevée de 48 kHz, ce qui est principalement dû à l'utilisation par les chercheurs de vidéos et de bibliothèques d'effets sonores professionnelles sur Internet pour la formation. Contrairement aux systèmes précédents, MultiFoley intègre pour la première fois plusieurs méthodes de saisie - références texte, audio et vidéo - dans le même modèle. Il fonctionne en analysant les caractéristiques visuelles à 8 images par seconde et en les amplifiant pour correspondre au taux d'échantillonnage audio de 40 Hz, garantissant ainsi que l'audio généré reste étroitement synchronisé avec la vidéo.

Lors des tests, MultiFoley a bien réussi à synchroniser l'audio et la vidéo et à faire correspondre les effets sonores avec les descriptions textuelles, avec une précision de synchronisation moyenne de 0,8 seconde, nettement meilleure que le délai typique de plus d'une seconde dans les systèmes traditionnels. Les recherches auprès des utilisateurs ont montré que 85,8 % des participants ont jugé MultiFoley supérieur au deuxième meilleur en termes de cohérence sémantique, tandis que 94,5 % préféraient son effet de synchronisation.

Bien que MultiFoley ait montré un fort potentiel, l'équipe de recherche a également souligné certaines limites actuelles, telles que les données d'entraînement relativement petites, qui limitent la variété des effets sonores qu'il peut utiliser. Dans le même temps, le système rencontre également certaines difficultés pour générer plusieurs effets sonores simultanés. L'équipe de recherche prévoit de publier prochainement le code source et le modèle.
Bien qu'Adobe n'ait pas annoncé l'inclusion de MultiFoley dans ses produits, la technologie s'intègre bien aux capacités d'intelligence artificielle existantes du logiciel de montage vidéo Adobe Premiere Pro et devrait apporter plus de commodité aux créateurs individuels et aux sociétés de production dans le processus de conception sonore.
Souligner:
? MultiFoley est un système de génération d'effets sonores IA développé conjointement par Adobe et l'Université du Michigan. Il peut générer des effets sonores via diverses méthodes de saisie.
? La qualité de sortie audio de ce système atteint 48 kHz et la précision de synchronisation moyenne est de 0,8 seconde, ce qui est mieux que les systèmes d'effets sonores traditionnels.
Les études d'utilisateurs montrent que MultiFoley reçoit des notes élevées tant pour la cohérence sémantique que pour la synchronisation des effets sonores.
Dans l'ensemble, l'émergence de MultiFoley a apporté de nouvelles possibilités à la production d'effets sonores, et ses performances efficaces et précises ainsi que son fonctionnement pratique devraient changer le futur processus de production d'effets sonores. Attendons avec impatience la sortie de son code source et de ses modèles, ainsi que son application dans les produits Adobe.