北京航空航天大學和南洋理工大學的研究團隊對GPT-4o模型進行了全面的安全性評估,該研究透過上萬次的API查詢,涵蓋文字、圖像和音訊三種模態,旨在揭示GPT- 4o模型在多模態環境下的安全漏洞。研究結果顯示,雖然GPT-4o在文字越獄攻擊方面有所改進,但新引入的音訊模態帶來了新的安全挑戰,且其整體多模態安全性不如前代模型GPT-4V。該研究對GPT-4o模型的安全性和未來發展方向提供了寶貴的參考,也強調了多模態大模型安全研究的重要性。
站長之家(ChinaZ.com)6月12日消息:北航和南洋理工的聯合研究團隊對GPT-4o模型進行了深入的安全性測試。透過上萬次的API查詢,研究人員對GPT-4o的文字、影像、音訊三種模態進行了安全性評估。研究發現,儘管GPT-4o在文本越獄攻擊的安全性上有所提升,但新引入的語音模態增加了新的攻擊面,且整體多模態安全性不如前一代模型GPT-4V。
主要發現:
文本模態安全性提升,但存在遷移風險:GPT-4o對文本越獄攻擊的抵抗力有所增強,但攻擊者仍可透過多模態形式進行攻擊。
音訊模態帶來新的安全挑戰:新引入的音訊模態可能為越獄攻擊提供了新的途徑。
多模態安全性不足:GPT-4o在多模態層面的安全性表現不如GPT-4V,顯示新模型在整合不同模態時可能有安全漏洞。
實驗方法:
使用了4000+初始文字查詢、8000+回應判斷和16000+次API查詢。
評估了基於單模態和多模態的開源越獄資料集,包括AdvBench、RedTeam-2K、SafeBench和MM-SafetyBench。
測試了7種越獄方法,包括基於模板的方法、GCG、AutoDAN、PAP和BAP等。

評估指標:
攻擊成功率(ASR)作為主要評估指標,反映了模型被越獄的難易度。
實驗結果:
在純文字模態下,GPT-4o在沒有攻擊的情況下安全水準低於GPT-4V,但在攻擊條件下表現出更高的安全性。
音訊模態的安全性較高,直接將文字轉換為音訊難以越獄GPT-4o。
多模態安全性測試顯示,GPT-4o在某些場景下比GPT-4V更容易受到攻擊。
結論與建議:
研究團隊強調,儘管GPT-4o在多模態能力上有所提升,但其安全性問題不容忽視。他們建議社群提高對多模態大模型安全風險的認識,並優先考慮制定對齊策略和緩解技術。此外,由於多模態越獄資料集的缺乏,研究人員呼籲建立更全面的多模態資料集,以更準確地評估模型的安全性。
論文網址:https://arxiv.org/abs/2406.06302
專案地址:https://github.com/NY1024/Jailbreak_GPT4o
總而言之,該研究對GPT-4o的多模態安全性進行了深入分析,為大模型安全研究提供了重要的參考,也呼籲加強多模態安全數據集的建設和安全策略的製定,以應對未來多模態大模型可能面臨的安全挑戰。