รายงานตัวแก้ไข Downcodes: อะโดบีและมหาวิทยาลัยมิชิแกนได้ร่วมมือกันพัฒนาระบบสร้างเอฟเฟกต์เสียง AI ที่เรียกว่า MultiFoley ซึ่งสามารถสร้างเอฟเฟกต์เสียงพากย์ในภาพยนตร์และวิดีโอผ่านข้อความแจ้ง ตัวอย่างเสียงหรือวิดีโอ ซึ่งช่วยปรับปรุงประสิทธิภาพหลังการผลิตได้อย่างมาก ระบบรองรับวิธีการป้อนข้อมูลหลายวิธีและสามารถแปลงเสียงต่างๆ ได้ เช่น เสียงร้องของแมวให้เป็นเสียงคำรามของสิงโต คุณภาพเอาต์พุตเสียงที่มีแบนด์วิธสูงและการซิงโครไนซ์วิดีโอที่แม่นยำได้รับคะแนนที่สูงมากในการทดสอบโดยผู้ใช้
เมื่อเร็วๆ นี้ ทีมวิจัยของ Adobe และนักวิจัยจากมหาวิทยาลัยมิชิแกนได้ร่วมกันพัฒนาระบบปัญญาประดิษฐ์ที่เรียกว่า MultiFoley ระบบนี้สามารถสร้างเอฟเฟกต์เสียงพากย์ในภาพยนตร์และวิดีโอเพื่อช่วยในขั้นตอนหลังการถ่ายทำ
MultiFoley เป็นนวัตกรรมใหม่ที่ช่วยให้ผู้ใช้สามารถสร้างเอฟเฟกต์เสียงผ่านข้อความแจ้งเตือน ตัวอย่างเสียงหรือวิดีโออ้างอิง ในการสาธิต ระบบยังสามารถแปลงเสียงร้องของแมวให้เป็นเสียงคำรามของสิงโต หรือเสียงเครื่องพิมพ์ดีดให้เป็นโน้ตเปียโน ทั้งหมดนี้ซิงค์กับฟุตเทจวิดีโอได้อย่างสมบูรณ์แบบ
คุณภาพเอาต์พุตเสียงของ MultiFoley มีแบนด์วิธสูงถึง 48kHz ซึ่งสาเหตุหลักมาจากการใช้วิดีโอและไลบรารีเอฟเฟกต์เสียงระดับมืออาชีพบนอินเทอร์เน็ตสำหรับการฝึกอบรมของนักวิจัย ต่างจากระบบก่อนหน้านี้ MultiFoley ผสานรวมวิธีการป้อนข้อมูลหลายวิธี - การอ้างอิงข้อความ เสียง และวิดีโอ - ไว้ในรุ่นเดียวกันเป็นครั้งแรก ทำงานโดยการวิเคราะห์ลักษณะภาพที่ 8 เฟรมต่อวินาที และขยายสัญญาณให้ตรงกับอัตราการสุ่มตัวอย่างเสียง 40Hz ทำให้มั่นใจได้ว่าเสียงที่สร้างขึ้นจะยังคงซิงโครไนซ์กับวิดีโออย่างแน่นหนา

ในการทดสอบ MultiFoley ทำงานได้ดีในการซิงโครไนซ์เสียงและวิดีโอ และจับคู่เอฟเฟกต์เสียงกับคำอธิบายข้อความ โดยมีความแม่นยำในการซิงโครไนซ์โดยเฉลี่ย 0.8 วินาที ซึ่งดีกว่าความล่าช้าทั่วไปที่มากกว่าหนึ่งวินาทีในระบบดั้งเดิมอย่างมาก การวิจัยผู้ใช้แสดงให้เห็นว่า 85.8% ของผู้เข้าร่วมให้คะแนน MultiFoley เหนือกว่าอันดับสองในแง่ของความสอดคล้องของความหมาย ในขณะที่ 94.5% ชอบเอฟเฟกต์การซิงโครไนซ์ของมัน

แม้ว่า MultiFoley จะแสดงศักยภาพที่แข็งแกร่ง แต่ทีมวิจัยยังชี้ให้เห็นข้อจำกัดบางประการในปัจจุบัน เช่น ข้อมูลการฝึกอบรมที่ค่อนข้างน้อย ซึ่งจำกัดเอฟเฟกต์เสียงที่หลากหลายที่สามารถใช้ได้ ในเวลาเดียวกัน ระบบยังมีปัญหาบางประการในการสร้างเอฟเฟกต์เสียงหลายรายการพร้อมกัน ทีมวิจัยวางแผนที่จะเผยแพร่ซอร์สโค้ดและโมเดลเร็วๆ นี้
แม้ว่าอะโดบีจะไม่ได้ประกาศการรวม MultiFoley เข้ากับผลิตภัณฑ์ของตน แต่เทคโนโลยีนี้ก็เข้ากันได้ดีกับความสามารถด้านปัญญาประดิษฐ์ที่มีอยู่ในซอฟต์แวร์ตัดต่อวิดีโอ Adobe Premiere Pro และคาดว่าจะมอบความสะดวกสบายให้กับผู้สร้างแต่ละรายและบริษัทผู้ผลิตในกระบวนการออกแบบเสียง
ไฮไลท์:
? MultiFoley เป็นระบบสร้างเอฟเฟกต์เสียง AI ที่พัฒนาโดย Adobe และมหาวิทยาลัยมิชิแกน โดยสามารถสร้างเอฟเฟกต์เสียงได้หลากหลายวิธี
คุณภาพเสียงของระบบนี้สูงถึง 48kHz และความแม่นยำในการซิงโครไนซ์โดยเฉลี่ยอยู่ที่ 0.8 วินาที ซึ่งดีกว่าระบบเอฟเฟกต์เสียงแบบเดิม
การศึกษาผู้ใช้แสดงให้เห็นว่า MultiFoley ได้รับการจัดอันดับสูงทั้งในด้านความสอดคล้องของความหมายและการซิงโครไนซ์เอฟเฟกต์เสียง
โดยรวมแล้ว การเกิดขึ้นของ MultiFoley ได้นำมาซึ่งความเป็นไปได้ใหม่ๆ ในการผลิตเอฟเฟกต์เสียง และประสิทธิภาพที่มีประสิทธิภาพและแม่นยำ รวมถึงการใช้งานที่สะดวกสบาย คาดว่าจะเปลี่ยนกระบวนการผลิตเอฟเฟกต์เสียงในอนาคต ให้เราตั้งตารอที่จะเปิดตัวซอร์สโค้ดและโมเดล รวมถึงแอปพลิเคชันในผลิตภัณฑ์ Adobe