Relatórios do editor de downcodes: Adobe e a Universidade de Michigan colaboraram para desenvolver um sistema de geração de efeitos sonoros de IA chamado MultiFoley, que pode gerar efeitos sonoros de dublagem em filmes e vídeos por meio de prompts de texto, exemplos de áudio ou vídeo, melhorando muito a eficiência da pós-produção. O sistema suporta vários métodos de entrada e pode converter diferentes sons, como o miado de um gato no rugido de um leão. Sua qualidade de saída de áudio de alta largura de banda e sincronização precisa de vídeo receberam classificações extremamente altas em testes de usuários.
Recentemente, a equipe de pesquisa da Adobe e pesquisadores da Universidade de Michigan desenvolveram em conjunto um sistema de inteligência artificial chamado MultiFoley. Esse sistema pode gerar efeitos sonoros de dublagem em filmes e vídeos para auxiliar na pós-produção.
MultiFoley é inovador porque permite aos usuários criar efeitos sonoros por meio de prompts de texto, referência de exemplos de áudio ou vídeo. Nas demonstrações, o sistema foi capaz até de converter o miado de um gato no rugido de um leão, ou sons de máquina de escrever em notas de piano, tudo em perfeita sincronia com o vídeo.
A qualidade de saída de áudio do MultiFoley atinge uma alta largura de banda de 48kHz, principalmente devido ao uso de vídeos e bibliotecas profissionais de efeitos sonoros na Internet pelos pesquisadores para treinamento. Ao contrário dos sistemas anteriores, o MultiFoley integra pela primeira vez vários métodos de entrada - referências de texto, áudio e vídeo - no mesmo modelo. Ele funciona analisando características visuais a 8 quadros por segundo e amplificando-as para corresponder à taxa de amostragem de áudio de 40 Hz, garantindo que o áudio gerado permaneça totalmente sincronizado com o vídeo.

Nos testes, o MultiFoley teve um bom desempenho na sincronização de áudio e vídeo e na correspondência de efeitos sonoros com descrições de texto, com uma precisão média de sincronização de 0,8 segundos, significativamente melhor do que o atraso típico de mais de um segundo em sistemas tradicionais. A pesquisa de usuários mostrou que 85,8% dos participantes classificaram o MultiFoley como superior ao segundo melhor em termos de consistência semântica, enquanto 94,5% preferiram seu efeito de sincronização.

Embora o MultiFoley tenha mostrado um forte potencial, a equipe de pesquisa também apontou algumas limitações atuais, como os dados de treinamento relativamente pequenos, que limitam a variedade de efeitos sonoros que pode usar. Ao mesmo tempo, o sistema também apresenta certas dificuldades em gerar múltiplos efeitos sonoros simultâneos. A equipe de pesquisa planeja lançar o código-fonte e o modelo em breve.
Embora a Adobe não tenha anunciado a inclusão do MultiFoley em seus produtos, a tecnologia se adapta bem aos recursos de inteligência artificial existentes no software de edição de vídeo Adobe Premiere Pro e espera-se que traga conveniência para criadores individuais e empresas de produção no processo de design de som.
Destaque:
?MultiFoley é um sistema de geração de efeitos sonoros de IA desenvolvido em conjunto pela Adobe e pela Universidade de Michigan. Ele pode gerar efeitos sonoros por meio de uma variedade de métodos de entrada.
? A qualidade de saída de áudio deste sistema atinge 48kHz e a precisão média de sincronização é de 0,8 segundos, o que é melhor do que os sistemas de efeitos sonoros tradicionais.
Estudos de usuários mostram que o MultiFoley recebe classificações altas tanto pela consistência semântica quanto pela sincronização dos efeitos sonoros.
Em suma, o surgimento do MultiFoley trouxe novas possibilidades para a produção de efeitos sonoros, e espera-se que seu desempenho eficiente e preciso e sua operação conveniente mudem o futuro processo de produção de efeitos sonoros. Aguardemos ansiosamente o lançamento de seu código-fonte e modelos, bem como sua aplicação em produtos Adobe.