北杭大学と南洋理工大学の研究チームは、GPT-4o モデルの包括的なセキュリティ評価を実施し、テキスト、画像、音声の 3 つのモダリティをカバーする数万の API クエリを使用しました。マルチモーダル環境における 4o モデルのセキュリティの脆弱性。研究結果によると、GPT-4o はテキスト脱獄攻撃を改善しましたが、新たに導入されたオーディオ モダリティが新たなセキュリティ課題をもたらし、全体的なマルチモーダル セキュリティは前世代モデル GPT-4V ほど優れていないことが示されています。この研究は、GPT-4o モデルのセキュリティと今後の開発の方向性について貴重な参考資料を提供するとともに、マルチモーダル大規模モデルのセキュリティ研究の重要性も強調しています。
6 月 12 日の ChinaZ.com からのニュース: 北杭大学と南洋工業大学の共同研究チームは、GPT-4o モデルで徹底したセキュリティ テストを実施しました。研究者らは、数万の API クエリを通じて、GPT-4o の 3 つのモード (テキスト、画像、オーディオ) のセキュリティ評価を実施しました。この調査では、GPT-4o はテキスト脱獄攻撃に対するセキュリティを向上させているものの、新たに導入された音声モードにより新たな攻撃対象領域が追加され、全体的なマルチモーダル セキュリティは前世代モデル GPT-4V ほど良くないことが判明しました。
主な調査結果:
テキスト モーダルのセキュリティは改善されましたが、移行のリスクがあります。テキスト ジェイルブレイク攻撃に対する GPT-4o の耐性は強化されましたが、攻撃者は依然としてマルチモーダル フォームを通じて攻撃する可能性があります。
オーディオ モードはセキュリティに新たな課題をもたらします: 新しく導入されたオーディオ モードは、ジェイルブレイク攻撃に新たな手段を提供する可能性があります。
不十分なマルチモーダル セキュリティ: マルチモーダル レベルでの GPT-4o のセキュリティ パフォーマンスは GPT-4V ほど良くありません。これは、新しいモデルには、さまざまなモダリティを統合するときにセキュリティの脆弱性がある可能性があることを示しています。
実験方法:
4000 以上の初期テキスト クエリ、8000 以上の応答判定、16000 以上の API クエリが使用されました。
AdvBench、RedTeam-2K、SafeBench、MM-SafetyBench など、シングルモダリティおよびマルチモダリティに基づくオープンソースの脱獄データセットが評価されます。
テンプレートベースの方法、GCG、AutoDAN、PAP、BAP などを含む 7 つの脱獄方法がテストされました。

評価指標:
主な評価指標としての攻撃成功率 (ASR) は、モデルのジェイルブレイクの難易度を反映します。
実験結果:
プレーン テキスト モードでは、GPT-4o は攻撃がなければ GPT-4V よりもセキュリティ レベルが低くなりますが、攻撃が発生した場合にはより高いセキュリティを示します。
オーディオ モードはより安全であり、テキストをオーディオに直接変換することで GPT-4o を脱獄するのは困難です。
マルチモーダル セキュリティ テストでは、特定のシナリオでは GPT-4o が GPT-4V よりも攻撃に対して脆弱であることが示されています。
結論と推奨事項:
研究チームは、GPT-4oはマルチモーダル機能を向上させたが、セキュリティ問題は無視できないと強調した。彼らは、コミュニティがマルチモーダル大規模モデルのセキュリティ リスクについての認識を高め、調整戦略と緩和技術の開発を優先することを推奨しています。さらに、マルチモーダル脱獄データセットが不足しているため、研究者らは、モデルのセキュリティをより正確に評価するために、より包括的なマルチモーダル データセットの確立を求めています。
論文アドレス: https://arxiv.org/abs/2406.06302
プロジェクトアドレス: https://github.com/NY1024/Jailbreak_GPT4o
全体として、この研究は GPT-4o のマルチモーダル セキュリティの詳細な分析を提供し、大規模モデルのセキュリティ研究に重要な参考資料を提供するとともに、マルチモーダル セキュリティ データ セットの構築と定式化の強化も求めています。大規模なマルチモーダル モデルで起こり得るセキュリティ上の課題に対処するためのセキュリティ戦略。