Dites au revoir à l'embarras de la "vidéo silencieuse"! Octet AI Effet Sound Generation Model Seedfoley est lancé et les rêves génèrent des effets sonores à succès en un seul clic - AI Articles

Auteur：Eve Cole Date de mise à jour：2025-05-23 22:25:01

Toujours inquiet pour le doublage vidéo court? Êtes-vous toujours incapable de trouver la bonne musique de fond? Maintenant, ByTedance a lancé une technologie d'IA révolutionnaire - le modèle de génération d'effet sonores Seedfoley, qui a complètement résolu les problèmes d'effet sonore dans la création de vidéos. Avec juste une opération simple, SeedFoley peut correspondre intelligemment les effets sonores de qualité professionnelle à vos vidéos, ce qui fait vos œuvres instantanément à partir de films silencieux et silencieux aux blockbusters audio. Cette technologie a rapidement lancé la plate-forme de création vidéo "A Dream", une filiale de ByTedance, permettant à chaque utilisateur de vivre facilement la fonction magique de la génération d'effets sonores en un seul clic.

La technologie de base de SeedFoley réside dans son architecture révolutionnaire de bout en bout, qui combine intelligemment les caractéristiques de l'espace-temps de la vidéo avec un puissant modèle de génération de diffusion pour obtenir une synchronisation élevée des effets sonores et du contenu vidéo. Tout d'abord, SeedFoley effectuera une analyse d'extraction de trame sur la vidéo, extraire les informations clés de chaque trame, puis interprétera profondément le contenu vidéo via l'encodeur vidéo pour comprendre les actions et les scènes. Ensuite, ces informations sont projetées dans l'espace conditionnel, fournissant une direction pour la génération d'effet sonores. Au cours du processus de génération d'effet sonores, SeedFoley adopte un cadre de modèle de diffusion amélioré pour générer intelligemment une solution d'effet sonore qui l'assortit parfaitement en fonction du contenu vidéo.

Afin de permettre à l'IA de mieux comprendre l'art du son, Seedfoley a appris un grand nombre d'étiquettes liées à la voix et à la musique pendant le processus de formation, ce qui lui permet de distinguer les effets sonores des effets non sonores et d'obtenir une génération d'effets sonores plus précis. De plus, SeedFoley peut également gérer les entrées vidéo de différentes longueurs, que ce soit une courte vidéo de quelques secondes ou une longue vidéo de quelques minutes, elle peut facilement y faire face, et elle a atteint un niveau de pointe en termes de précision sonore, de synchronisation et de correspondance avec le contenu vidéo.

L'encodeur vidéo de SeedFoley utilise une combinaison de caractéristiques rapides et lentes pour capturer des actions subtiles dans la vidéo à des fréquences d'images élevées et extraire les informations sémantiques de la vidéo à faible fréquence d'images. Cette combinaison de rapide et de lent conserve non seulement les caractéristiques de mouvement clés, mais aussi efficacement réduit les coûts informatiques, atteignant un équilibre parfait entre une faible consommation d'énergie et des performances élevées. Grâce à cette technologie, SeedFoley peut réaliser l'extraction de fonctionnalités vidéo au niveau du cadre 8FPS sous des ressources informatiques faibles, positionnant avec précision chaque action de la vidéo.

En termes de modèle de caractérisation audio, SeedFoley utilise la forme d'onde d'origine comme entrée et obtient une caractérisation audio 1D après codage. Par rapport au modèle traditionnel du spectre MEER, cette méthode présente plus d'avantages dans la reconstruction audio et la modélisation de génération. Afin d'assurer la rétention complète des informations à haute fréquence, le taux d'échantillonnage audio de Seedfoley est aussi élevé que 32k, et l'audio par seconde peut extraire 32 caractérisations potentielles de l'audio, améliorant efficacement la résolution de synchronisation de l'audio et rendre les effets sonores générés plus délicats et réalistes.

Le modèle de représentation audio de SeedFoley adopte également une stratégie de formation conjointe en deux étapes. Dans la première étape, les informations de phase dans la représentation audio sont supprimées à l'aide d'une stratégie de masque, et la représentation du potentiel déphasé est utilisée comme objectif d'optimisation du modèle de diffusion. Dans la deuxième étape, les informations de phase sont reconstruites à partir de la représentation de déphasage à l'aide d'un décodeur audio pour restaurer le son à son état le plus réaliste. Cette stratégie étape par étape réduit efficacement la difficulté de prédire les représentations par le modèle de diffusion et réalise finalement la génération et la restauration des représentations potentielles de l'audio de haute qualité.

En termes de modèle de diffusion, SeedFoley a choisi le cadre de diffusion de transformateurs et a atteint une correspondance précise de probabilité de la distribution du bruit gaussien à l'espace de représentation audio cible en optimisant la relation de cartographie continue sur le chemin de probabilité. Par rapport au modèle de diffusion traditionnel qui repose sur l'échantillonnage de la chaîne de Markov, Seedfoley réduit efficacement le nombre d'étapes d'inférence en construisant un chemin de transformation continu, réduit considérablement le coût d'inférence et rend la génération d'effet sonore plus rapide et plus efficace.

La naissance de Seedfoley marque l'intégration profonde du contenu vidéo et de la génération audio. Il peut extraire avec précision les informations visuelles au niveau du cadre vidéo et identifier avec précision le sujet vocal et les scènes d'action de la vidéo par un aperçu des informations d'image multi-trames. Qu'il s'agisse de moments musicaux avec un fort sentiment de rythme ou les parcelles tendue du film, Seedfoley peut identifier avec précision les points et créer une expérience immersive et réaliste. Ce qui est encore plus surprenant, c'est que Seedfoley peut également distinguer intelligemment les effets sonores d'action et les effets sonores ambiants, améliorant considérablement la tension narrative et l'efficacité de transmission émotionnelle de la vidéo.

Maintenant, la fonction d'effet sonore AI a été officiellement lancée sur la plate-forme IMENG. Les utilisateurs n'ont qu'à utiliser l'iMeng pour générer des vidéos et sélectionner la fonction d'effet sonore AI pour générer 3 solutions d'effets sonores professionnels en un seul clic. Qu'il s'agisse de la création vidéo de l'IA, du vlog de vie, de la production de courts métrages ou de la production de jeux, SeedFoley peut vous aider à créer facilement des vidéos de haute qualité avec des effets sonores professionnels, afin que vos œuvres puissent instantanément sonner!