Laporan editor Downcode: Adobe dan University of Michigan telah berkolaborasi untuk mengembangkan sistem pembuatan efek suara AI yang disebut MultiFoley, yang dapat menghasilkan efek suara dubbing dalam film dan video melalui perintah teks, contoh audio atau video, sehingga sangat meningkatkan efisiensi pasca produksi. Sistem ini mendukung berbagai metode masukan dan dapat mengubah suara yang berbeda, seperti suara mengeong kucing menjadi auman singa. Kualitas keluaran audio bandwidth tinggi dan sinkronisasi video yang presisi telah mendapat peringkat sangat tinggi dalam pengujian pengguna.
Baru-baru ini, tim peneliti Adobe dan peneliti dari University of Michigan bersama-sama mengembangkan sistem kecerdasan buatan yang disebut MultiFoley. Sistem ini dapat menghasilkan efek suara dubbing dalam film dan video untuk membantu pasca produksi.
MultiFoley inovatif karena memungkinkan pengguna membuat efek suara melalui perintah teks, referensi contoh audio atau video. Dalam demonstrasinya, sistem ini bahkan mampu mengubah suara mengeong kucing menjadi auman singa, atau suara mesin tik menjadi nada piano, semuanya selaras sempurna dengan rekaman video.
Kualitas keluaran audio MultiFoley mencapai bandwidth tinggi 48kHz, yang terutama disebabkan oleh penggunaan video dan perpustakaan efek suara profesional di Internet oleh para peneliti untuk pelatihan. Berbeda dengan sistem sebelumnya, MultiFoley mengintegrasikan beberapa metode input - referensi teks, audio dan video - ke dalam model yang sama untuk pertama kalinya. Ia bekerja dengan menganalisis karakteristik visual pada 8 frame per detik dan memperkuatnya agar sesuai dengan laju pengambilan sampel audio 40Hz, memastikan bahwa audio yang dihasilkan tetap tersinkronisasi dengan video.

Dalam pengujian, MultiFoley berkinerja baik dalam menyinkronkan audio dan video serta mencocokkan efek suara dengan deskripsi teks, dengan akurasi sinkronisasi rata-rata 0,8 detik, jauh lebih baik daripada penundaan umum lebih dari satu detik pada sistem tradisional. Riset pengguna menunjukkan bahwa 85,8% peserta menilai MultiFoley lebih unggul daripada yang terbaik kedua dalam hal konsistensi semantik, sementara 94,5% lebih menyukai efek sinkronisasinya.

Meskipun MultiFoley telah menunjukkan potensi yang kuat, tim peneliti juga menunjukkan beberapa keterbatasan saat ini, seperti data pelatihan yang relatif kecil, yang membatasi variasi efek suara yang dapat digunakan. Pada saat yang sama, sistem juga mengalami kesulitan tertentu dalam menghasilkan beberapa efek suara secara bersamaan. Tim peneliti berencana untuk segera merilis kode sumber dan modelnya.
Meskipun Adobe belum mengumumkan penyertaan MultiFoley ke dalam produknya, teknologi tersebut sangat cocok dengan kemampuan kecerdasan buatan yang ada pada perangkat lunak pengeditan video Adobe Premiere Pro dan diharapkan dapat memberikan kemudahan bagi masing-masing pencipta dan perusahaan produksi dalam proses desain suara.
Menyorot:
? MultiFoley adalah sistem penghasil efek suara AI yang dikembangkan bersama oleh Adobe dan Universitas Michigan. Sistem ini dapat menghasilkan efek suara melalui berbagai metode masukan.
? Kualitas keluaran audio sistem ini mencapai 48kHz, dan akurasi sinkronisasi rata-rata adalah 0,8 detik, lebih baik daripada sistem efek suara tradisional.
Studi pengguna menunjukkan bahwa MultiFoley menerima peringkat tinggi untuk konsistensi semantik dan sinkronisasi efek suara.
Secara keseluruhan, kemunculan MultiFoley telah membawa kemungkinan-kemungkinan baru dalam produksi efek suara, dan kinerjanya yang efisien dan presisi serta pengoperasian yang mudah diharapkan akan mengubah proses produksi efek suara di masa depan. Mari kita nantikan rilis kode sumber dan modelnya, serta penerapannya pada produk Adobe.