Adobe Research 和西北大學攜手打造了一款革命性的AI 系統-Sketch2Sound。這款系統能夠將簡單的語音模仿和文字描述轉化為專業級的音效,為聲音設計產業帶來了前所未有的效率提升。它分析語音的響度、音色和音調,並結合文字描述,產生使用者所需的聲音效果。其獨特的上下文理解能力更是令人驚嘆,例如,簡單的「森林氛圍」配合鳥叫聲的模仿,系統便能自動生成逼真的鳥鳴,無需額外指令。 Sketch2Sound 也支援音樂創作,使用者只需哼唱節奏並輸入樂器名稱,系統就能自動搭配音高和節奏,產生對應的鼓點模式。
此系統會分析語音輸入的三個關鍵元素:響度、音色(決定聲音的明亮程度)和音調。然後,系統會將這些特徵與文字描述結合,以產生所需的聲音。
影片:García 等人,Adobe Research
Sketch2Sound 的有趣之處在於它能夠理解上下文。例如,如果有人輸入“森林氛圍”並發出短促的聲音,系統會自動識別出這些聲音應該是鳥叫聲- 而無需特定指令。
同樣的智能也適用於音樂。在創建鼓點模式時,使用者可以輸入“低音鼓、小鼓”,然後使用低音和高音哼唱節奏。系統會自動將低音鼓放在低音上,將小鼓放在高音上。
為專業人士提供精細控制研究團隊內建了特殊的過濾技術,讓使用者可以調整控制生成聲音的精確度。聲音設計師可以根據自己的需求選擇精確、細緻的控製或更輕鬆、近似的方法。
這種靈活性使得Sketch2Sound 對於擬音師(為電影和電視節目製作音效的專業人士)來說特別有價值。他們無需操縱物理物件來發出聲音,而是可以透過語音和文字描述更快地創建效果。
研究人員指出,輸入錄音的空間音訊特性有時會以不想要的方式影響生成的聲音,但他們正在努力解決這個問題。 Adobe 尚未宣布Sketch2Sound 何時或是否會成為商業產品。
Sketch2Sound 的出現,無疑將大幅提升聲音設計的效率與便利性,為影視、遊戲等產業帶來新的創作可能性。雖然目前仍處於研發階段,但其潛力已不容忽視,未來發展值得期待。