El equipo de investigación de la Universidad de Beihang y la Universidad Tecnológica de Nanyang realizó una evaluación de seguridad integral del modelo GPT-4o. El estudio utilizó decenas de miles de consultas API, que cubrían tres modalidades de texto, imagen y audio, para revelar el modelo GPT-4o. Vulnerabilidades de seguridad de los modelos 4o en entornos multimodales. Los resultados de la investigación muestran que, aunque GPT-4o ha mejorado en los ataques de jailbreak de texto, la modalidad de audio recientemente introducida trae nuevos desafíos de seguridad y su seguridad multimodal general no es tan buena como la del modelo GPT-4V de la generación anterior. Esta investigación proporciona una referencia valiosa para la seguridad y la dirección de desarrollo futuro del modelo GPT-4o, y también enfatiza la importancia de la investigación de seguridad de modelos grandes multimodales.
Noticias de ChinaZ.com el 12 de junio: El equipo de investigación conjunto de la Universidad de Beihang y el Instituto de Tecnología de Nanyang realizó una prueba de seguridad en profundidad en el modelo GPT-4o. A través de decenas de miles de consultas API, los investigadores realizaron una evaluación de seguridad en los tres modos de GPT-4o: texto, imagen y audio. El estudio encontró que aunque GPT-4o ha mejorado la seguridad contra ataques de jailbreak de texto, el modo de voz recientemente introducido agrega una nueva superficie de ataque y la seguridad multimodal general no es tan buena como la del modelo GPT-4V de la generación anterior.
Hallazgos clave:
Se ha mejorado la seguridad modal de texto, pero existe riesgo de migración: se ha mejorado la resistencia de GPT-4o a los ataques de jailbreak de texto, pero los atacantes aún pueden atacar a través de formas multimodales.
El modo de audio plantea nuevos desafíos de seguridad: el modo de audio recientemente introducido puede proporcionar nuevas vías para ataques de jailbreak.
Seguridad multimodal insuficiente: el rendimiento de seguridad de GPT-4o a nivel multimodal no es tan bueno como el de GPT-4V, lo que indica que el nuevo modelo puede tener vulnerabilidades de seguridad al integrar diferentes modalidades.
Método experimental:
Se utilizaron más de 4000 consultas de texto iniciales, más de 8000 juicios de respuesta y más de 16000 consultas API.
Se evalúan conjuntos de datos de jailbreak de código abierto basados en modalidad única y multimodal, incluidos AdvBench, RedTeam-2K, SafeBench y MM-SafetyBench.
Se probaron siete métodos de jailbreak, incluidos métodos basados en plantillas, GCG, AutoDAN, PAP y BAP, etc.

Indicadores de evaluación:
La tasa de éxito del ataque (ASR), como principal indicador de evaluación, refleja la dificultad del jailbreak del modelo.
Resultados experimentales:
En modo de texto sin formato, GPT-4o tiene un nivel de seguridad más bajo que GPT-4V sin ataques, pero muestra una mayor seguridad en condiciones de ataque.
El modo de audio es más seguro y es difícil hacer jailbreak a GPT-4o convirtiendo directamente texto en audio.
Las pruebas de seguridad multimodal muestran que GPT-4o es más vulnerable a ataques que GPT-4V en ciertos escenarios.
Conclusiones y recomendaciones:
El equipo de investigación enfatizó que aunque GPT-4o ha mejorado sus capacidades multimodales, no se pueden ignorar sus problemas de seguridad. Recomiendan que la comunidad aumente la conciencia sobre los riesgos de seguridad de los grandes modelos multimodales y priorice el desarrollo de estrategias de alineación y técnicas de mitigación. Además, debido a la falta de conjuntos de datos multimodales de jailbreak, los investigadores exigen el establecimiento de conjuntos de datos multimodales más completos para evaluar con mayor precisión la seguridad de los modelos.
Dirección del artículo: https://arxiv.org/abs/2406.06302
Dirección del proyecto: https://github.com/NY1024/Jailbreak_GPT4o
En definitiva, este estudio proporciona un análisis en profundidad de la seguridad multimodal de GPT-4o, proporciona una referencia importante para la investigación de seguridad de modelos a gran escala y también pide fortalecer la construcción de conjuntos de datos de seguridad multimodal y la formulación. de estrategias de seguridad para afrontar el futuro. Posibles retos de seguridad para los grandes modelos multimodales.