L'équipe de recherche de l'Université de Beihang et de l'Université technologique de Nanyang a mené une évaluation complète de la sécurité du modèle GPT-4o. L'étude a utilisé des dizaines de milliers de requêtes API, couvrant trois modalités de texte, d'image et d'audio, pour révéler le modèle GPT-4o. Failles de sécurité des modèles 4o dans les environnements multimodaux. Les résultats de la recherche montrent que bien que GPT-4o ait amélioré les attaques de jailbreak de texte, la nouvelle modalité audio apporte de nouveaux défis de sécurité, et sa sécurité multimodale globale n'est pas aussi bonne que celle du modèle de génération précédente GPT-4V. Cette recherche fournit une référence précieuse pour la sécurité et l’orientation future du développement du modèle GPT-4o, et souligne également l’importance de la recherche multimodale sur la sécurité des grands modèles.
Nouvelles de ChinaZ.com du 12 juin : L'équipe de recherche conjointe de l'Université de Beihang et de l'Institut de technologie de Nanyang a mené un test de sécurité approfondi sur le modèle GPT-4o. Grâce à des dizaines de milliers de requêtes API, les chercheurs ont mené une évaluation de la sécurité des trois modes de GPT-4o : texte, image et audio. L'étude a révélé que bien que GPT-4o ait amélioré la sécurité contre les attaques de jailbreak de texte, le mode vocal nouvellement introduit ajoute une nouvelle surface d'attaque et la sécurité multimodale globale n'est pas aussi bonne que celle du modèle de génération précédente GPT-4V.
Principales conclusions :
La sécurité modale du texte est améliorée, mais il existe un risque de migration : la résistance de GPT-4o aux attaques de jailbreak de texte a été améliorée, mais les attaquants peuvent toujours attaquer via des formes multimodales.
Le mode audio apporte de nouveaux défis en matière de sécurité : le mode audio nouvellement introduit peut offrir de nouvelles voies pour les attaques de jailbreak.
Sécurité multimodale insuffisante : les performances de sécurité de GPT-4o au niveau multimodal ne sont pas aussi bonnes que celles de GPT-4V, ce qui indique que le nouveau modèle peut présenter des vulnérabilités de sécurité lors de l'intégration de différentes modalités.
Méthode expérimentale :
Plus de 4 000 requêtes textuelles initiales, plus de 8 000 jugements de réponse et plus de 16 000 requêtes API ont été utilisés.
Des ensembles de données de jailbreak open source basés sur la modalité unique et la multimodalité sont évalués, notamment AdvBench, RedTeam-2K, SafeBench et MM-SafetyBench.
Sept méthodes de jailbreak ont été testées, notamment les méthodes basées sur des modèles, GCG, AutoDAN, PAP et BAP, etc.

Indicateurs d'évaluation :
Le taux de réussite de l'attaque (ASR), en tant qu'indicateur principal d'évaluation, reflète la difficulté du jailbreak du modèle.
Résultats expérimentaux :
En mode texte brut, GPT-4o a un niveau de sécurité inférieur à celui de GPT-4V sans attaques, mais présente une sécurité plus élevée dans des conditions d'attaque.
Le mode audio est plus sécurisé et il est difficile de jailbreaker GPT-4o en convertissant directement le texte en audio.
Les tests de sécurité multimodaux montrent que GPT-4o est plus vulnérable aux attaques que GPT-4V dans certains scénarios.
Conclusions et recommandations :
L’équipe de recherche a souligné que même si GPT-4o a amélioré ses capacités multimodales, ses problèmes de sécurité ne peuvent être ignorés. Ils recommandent que la communauté soit sensibilisée aux risques de sécurité des grands modèles multimodaux et donne la priorité au développement de stratégies d’alignement et de techniques d’atténuation. De plus, en raison du manque d’ensembles de données de jailbreak multimodaux, les chercheurs appellent à la création d’ensembles de données multimodaux plus complets pour évaluer plus précisément la sécurité des modèles.
Adresse papier : https://arxiv.org/abs/2406.06302
Adresse du projet : https://github.com/NY1024/Jailbreak_GPT4o
Dans l'ensemble, cette étude fournit une analyse approfondie de la sécurité multimodale de GPT-4o, constitue une référence importante pour la recherche sur la sécurité des grands modèles et appelle également au renforcement de la construction d'ensembles de données de sécurité multimodales et de la formulation de stratégies de sécurité pour faire face à l’avenir. Défis de sécurité possibles pour les grands modèles multimodaux.