Ainda preocupado com a dublagem de vídeo curto? Você sempre é incapaz de encontrar a música de fundo certa? Agora, a Bytedance lançou uma tecnologia revolucionária de IA - o modelo de geração de efeitos sonoros do Seedfoley, que resolveu completamente os problemas de efeito sonoro na criação de vídeo. Com apenas uma operação simples, o Seedfoley pode combinar de maneira inteligente os efeitos sonoros de grau profissional com seus vídeos, tornando seus trabalhos instantaneamente de filmes silenciosos e silenciosos a blockbusters de áudio. Essa tecnologia lançou rapidamente a plataforma de criação de vídeo "A Dream", uma subsidiária da Bytedance, permitindo que todos os usuários experimentem facilmente a função mágica de gerar efeitos sonoros com um clique.

A tecnologia principal da Seedfoley reside em sua revolucionária arquitetura de ponta a ponta, que combina inteligentemente as características do espaço do vídeo com um poderoso modelo de geração de difusão para obter alta sincronização de efeitos sonoros e conteúdo de vídeo. Primeiro, o Seedfoley executará a análise de extração de quadros no vídeo, extrairá informações importantes de cada quadro e interpretará profundamente o conteúdo do vídeo através do codificador de vídeo para entender as ações e cenas nele. Em seguida, essas informações são projetadas no espaço condicional, fornecendo orientação para a geração de efeitos sonoros. Durante o processo de geração de efeitos sonoros, o Seedfoley adota uma estrutura de modelo de difusão aprimorada para gerar de maneira inteligente uma solução de efeito sonoro que a combina perfeitamente com base no conteúdo do vídeo.

Para permitir que a IA compreenda melhor a arte do som, o Seedfoley aprendeu um grande número de tags relacionadas à voz e da música durante o processo de treinamento, permitindo distinguir efeitos sonoros dos efeitos não somos e obter uma geração de efeitos sonoros mais precisos. Além disso, o Seedfoley também pode lidar com entradas de vídeo de vários comprimentos, seja um pequeno vídeo de alguns segundos ou um vídeo longo de alguns minutos, pode lidar facilmente com isso e atingiu um nível líder do setor em termos de precisão, sincronização e correspondência com conteúdo de vídeo.
O codificador de vídeo da Seedfoley usa uma combinação de recursos rápidos e lentos para capturar ações sutis no vídeo em altas taxas de quadros e extrair as informações semânticas do vídeo a taxas baixas de quadros. Essa combinação de rápido e lento não apenas mantém as principais características do movimento, mas também reduz efetivamente os custos de computação, alcançando um equilíbrio perfeito entre o baixo consumo de energia e o alto desempenho. Através dessa tecnologia, o Seedfoley pode realizar a extração de recursos de vídeo em nível de quadro de 8fps sob recursos baixos de computação, posicionando com precisão todas as ações do vídeo.
Em termos de modelo de caracterização de áudio, o Seedfoley usa a forma de onda original como entrada e obtém a caracterização de áudio 1D após a codificação. Comparado com o modelo tradicional de espectro meer, esse método tem mais vantagens na reconstrução de áudio e na modelagem de geração. Para garantir a retenção completa de informações de alta frequência, a taxa de amostragem de áudio da Seedfoley é de tão alta quanto 32K e o áudio por segundo pode extrair 32 caracterizações potenciais de áudio, melhorando efetivamente a resolução de tempo do áudio e tornando os efeitos sonoros gerados mais delicados e realistas.

O modelo de representação de áudio da Seedfoley também adota uma estratégia de treinamento conjunta em dois estágios. Na primeira etapa, as informações de fase na representação de áudio são despojadas usando uma estratégia de máscara, e a representação potencial em defeta é usada como a meta de otimização do modelo de difusão. No segundo estágio, as informações de fase são reconstruídas a partir da representação de destaque usando um decodificador de áudio para restaurar o som ao seu estado mais realista. Essa estratégia passo a passo reduz efetivamente a dificuldade de prever representações pelo modelo de difusão e, finalmente, realiza a geração e a restauração de possíveis representações de áudio de alta qualidade.
Em termos de modelo de difusão, o Seedfoley escolheu a estrutura de difusão de formulário e alcançou uma probabilidade precisa corresponder da distribuição de ruído gaussiana ao espaço de representação de áudio alvo, otimizando a relação de mapeamento contínuo no caminho de probabilidade. Comparado com o modelo de difusão tradicional que depende da amostragem da cadeia de Markov, o Seedfoley reduz efetivamente o número de etapas de inferência, construindo um caminho de transformação contínuo, reduz bastante o custo de inferência e torna a geração de efeitos sonoros mais rápida e eficiente.
O nascimento de Seedfoley marca a profunda integração do conteúdo de vídeo e da geração de áudio. Ele pode extrair com precisão informações visuais no nível do vídeo e identificar com precisão as cenas de assunto e ação vocal no vídeo por informações sobre informações de imagem com vários quadros. Sejam momentos musicais com um forte senso de ritmo ou as parcelas tensas do filme, o Seedfoley pode identificar com precisão pontos de pontos e criar uma experiência imersiva e realista. O que é ainda mais surpreendente é que o Seedfoley também pode distinguir de forma inteligente entre os efeitos sonoros da ação e os efeitos sonoros do ambiente, melhorando significativamente a tensão narrativa e a eficiência da transmissão emocional do vídeo.
Agora, a função de efeito sonoro da AI foi lançada oficialmente na plataforma IMENG. Os usuários só precisam usar o Imeng para gerar vídeos e selecionar a função de efeito sonoro da IA para gerar três soluções profissionais de efeitos sonoros em um clique. Seja a criação de vídeo da IA, o vlog de vida, a produção de curtas-metragens ou a produção de jogos, o Seedfoley pode ajudá-lo a criar vídeos facilmente de alta qualidade com efeitos sonoros profissionais, para que seus trabalhos possam parecer instantaneamente!