多模態AI重新定義人機互動方式

作者：Eve Cole 更新時間：2025-03-17 12:00:04

未來的人工智慧（AI）什麼樣？想像一下，只要簡單一個指令，它們就能領悟並執行複雜的任務；它們還能透過視覺捕捉使用者的表情和動作，判斷其情緒狀態。這不再是好萊塢科幻電影中的場景，而是正逐步走進現實的「多模態AI」。

根據美國《富比士》網站近日報道，元宇宙平台公司、OpenAI以及Google公司等巨頭，都推出了各自的多模態AI系統，正不遺餘力地加大對此類系統的研發投資，力求提高各種模態內容輸出的精確度，進而改善AI與使用者的互動體驗。

多模態AI標誌著一種範式改變。它將深刻改變許多產業的面貌，並重塑數位世界的格局。

賦予AI“多重感官”功能

人類是如何了解世界的？我們依賴視覺、聽覺和觸覺等多種感官，從無數來源接收資訊。人腦將這些紛繁複雜的資料模式融合，繪製出一幅生動的現實「畫卷」。

IBM公司官網這樣定義多模態AI：能整合和處理來自多種模態（資料類型）的機器學習模型，這些模態包括文字、圖像、音訊、視訊等形式的輸入。就像賦予AI一整套感官，使它能從多個角度感知並理解輸入的訊息。

這種跨越不同模態理解和創建資訊的能力，超越先前專注於整合和處理特定資料來源的單模態AI，贏得了各大科技巨頭的青睞。

在今年的行動通訊大會上，高通將其開發的多模態大模型首次部署在安卓手機上。用戶無論是輸入照片，或是語音等訊息，都能與ai助理順暢交流。例如，使用者可以拍一張美食照片向AI助理提問：這些食材都是什麼？能做出什麼菜？每道菜的熱量是多少？ AI助理能基於照片訊息，給出詳細的答案。

今年5月，OpenAI發布了多模態模型GPT-4o，其支援文字、音訊和影像的任意組合輸入和輸出。隨後，Google也於隔天推出了最新的多模態AI產品Gemini 1.5 Pro。

9月25日，元宇宙平台公司發布了最新的開源大語言模型Llama 3.2。該公司執行長馬克·祖克柏在主題演講中表示，這是該公司首個開源多模態模型，可同時處理文字和視覺數據，標誌著AI在理解更複雜應用場景方面取得了重大進展。

悄然推動各領域變革

多模態AI正悄悄改變著多個領域的面貌。

在醫療保健領域，IBM旗下「沃森健康」正對病人的影像學數據、病歷文本和基因數據進行綜合分析，幫助醫生更準確地診斷疾病，並有力支持醫生為病人制定個人化治療方案。

創意產業也正在經歷一場變革。數位行銷專家和電影製片人正藉助這項技術打造客製化內容。試想，只需一個簡單的提示或概念，AI系統就能編撰出引人入勝的劇本，生成故事板（即一系列插圖排列在一起組成的視覺化故事）、創作配樂，甚至製作出初步場景剪輯。

教育和訓練領域也在多模態AI輔助下朝向個人化學習邁進。美國紐頓公司開發的自適應學習平台能利用多模態AI，深入分析學生的學習行為、表情和語音，即時調整教學內容和難度。實驗數據顯示，這種方法能將學生的學習效率提高40%。

客戶服務也是多模態AI系統令人興奮的應用之一。聊天機器人不僅能回應文字查詢，還能理解客戶的語調，分析客戶的臉部表情，並以適當的語言和視覺化線索回應。這種更接近人類的交流有望徹底改變企業與客戶的互動方式。

仍需克服技術倫理挑戰

但多模態AI發展也面臨許多挑戰。

AI顧問公司「隱空間」創辦人亨瑞·艾德爾表示，多模態AI的強大之處在於能夠整合多種資料類型。然而，如何有效整合這些數據仍是一個技術難題。

此外，多模態AI模型在運作過程中往往需要消耗大量算力資源，這無疑增加了其應用成本。

更值得注意的是，多模態資料包含更多個人資訊。當多模態AI系統能輕易辨識人臉、聲音甚至情緒狀態時，如何確保個人隱私得到尊重與保護？又該如何採取有效措施，防止其被用於創建「深度偽造」或其他誤導性內容？這些都是值得深思的問題。