Das Forschungsteam der Beihang University und der Nanyang Technological University führte eine umfassende Sicherheitsbewertung des GPT-4o-Modells durch. Die Studie verwendete Zehntausende API-Abfragen, die drei Modalitäten von Text, Bild und Audio abdeckten, um das GPT-4o-Modell aufzudecken. Sicherheitslücken von 4o-Modellen in multimodalen Umgebungen. Forschungsergebnisse zeigen, dass GPT-4o zwar Verbesserungen bei Text-Jailbreak-Angriffen erzielt hat, die neu eingeführte Audiomodalität jedoch neue Sicherheitsherausforderungen mit sich bringt und die multimodale Sicherheit insgesamt nicht so gut ist wie die des Vorgängermodells GPT-4V. Diese Forschung liefert wertvolle Hinweise zur Sicherheit und zukünftigen Entwicklungsrichtung des GPT-4o-Modells und unterstreicht auch die Bedeutung multimodaler Sicherheitsforschung für große Modelle.
Neuigkeiten von ChinaZ.com vom 12. Juni: Das gemeinsame Forschungsteam der Beihang-Universität und des Nanyang Institute of Technology führte einen ausführlichen Sicherheitstest für das GPT-4o-Modell durch. Anhand Zehntausender API-Abfragen führten die Forscher eine Sicherheitsbewertung der drei Modi von GPT-4o durch: Text, Bild und Audio. Die Studie ergab, dass GPT-4o zwar die Sicherheit gegen Text-Jailbreak-Angriffe verbessert hat, der neu eingeführte Sprachmodus jedoch eine neue Angriffsfläche bietet und die multimodale Sicherheit insgesamt nicht so gut ist wie beim Modell GPT-4V der vorherigen Generation.
Wichtigste Erkenntnisse:
Die modale Textsicherheit wurde verbessert, es besteht jedoch ein Migrationsrisiko: Die Widerstandsfähigkeit von GPT-4o gegen Text-Jailbreak-Angriffe wurde verbessert, Angreifer können jedoch weiterhin über multimodale Formen angreifen.
Der Audiomodus bringt neue Sicherheitsherausforderungen mit sich: Der neu eingeführte Audiomodus bietet möglicherweise neue Möglichkeiten für Jailbreak-Angriffe.
Unzureichende multimodale Sicherheit: Die Sicherheitsleistung von GPT-4o auf multimodaler Ebene ist nicht so gut wie die von GPT-4V, was darauf hindeutet, dass das neue Modell möglicherweise Sicherheitslücken bei der Integration verschiedener Modalitäten aufweist.
Experimentelle Methode:
Es wurden mehr als 4.000 anfängliche Textabfragen, mehr als 8.000 Antworturteile und mehr als 16.000 API-Abfragen verwendet.
Es werden Open-Source-Jailbreaking-Datensätze basierend auf Einzelmodalität und Multimodalität ausgewertet, darunter AdvBench, RedTeam-2K, SafeBench und MM-SafetyBench.
Es wurden sieben Jailbreak-Methoden getestet, darunter vorlagenbasierte Methoden, GCG, AutoDAN, PAP und BAP usw.

Bewertungsindikatoren:
Die Angriffserfolgsrate (ASR) als Hauptbewertungsindikator spiegelt die Schwierigkeit des Jailbreaks des Modells wider.
Experimentelle Ergebnisse:
Im Klartextmodus hat GPT-4o ein niedrigeres Sicherheitsniveau als GPT-4V ohne Angriffe, weist jedoch unter Angriffsbedingungen eine höhere Sicherheit auf.
Der Audiomodus ist sicherer und es ist schwierig, GPT-4o durch direktes Konvertieren von Text in Audio zu jailbreaken.
Multimodale Sicherheitstests zeigen, dass GPT-4o in bestimmten Szenarien anfälliger für Angriffe ist als GPT-4V.
Schlussfolgerungen und Empfehlungen:
Das Forschungsteam betonte, dass GPT-4o zwar seine multimodalen Fähigkeiten verbessert habe, seine Sicherheitsprobleme jedoch nicht ignoriert werden könnten. Sie empfehlen, dass die Community das Bewusstsein für die Sicherheitsrisiken multimodaler Großmodelle schärft und der Entwicklung von Ausrichtungsstrategien und Risikominderungstechniken Vorrang einräumt. Darüber hinaus fordern Forscher aufgrund des Mangels an multimodalen Jailbreak-Datensätzen die Einrichtung umfassenderer multimodaler Datensätze, um die Sicherheit von Modellen genauer bewerten zu können.
Papieradresse: https://arxiv.org/abs/2406.06302
Projektadresse: https://github.com/NY1024/Jailbreak_GPT4o
Alles in allem bietet diese Studie eine eingehende Analyse der multimodalen Sicherheit von GPT-4o, stellt eine wichtige Referenz für die groß angelegte Modellsicherheitsforschung dar und fordert außerdem eine Stärkung des Aufbaus multimodaler Sicherheitsdatensätze und der Formulierung von Sicherheitsstrategien zur Bewältigung der Zukunft.