Recientemente, los investigadores de la Universidad de Stanford y la Universidad de Hong Kong publicaron un artículo que descubrió una importante vulnerabilidad de seguridad en los agentes actuales de IA como Claude: son extremadamente vulnerables a los ataques emergentes. La investigación ha encontrado que una ventana emergente simple puede reducir significativamente la tasa de finalización de la tarea del agente de IA e incluso hacer que la tarea falle por completo. Esto ha planteado preocupaciones sobre los problemas de seguridad en aplicaciones prácticas de agentes de IA, especialmente cuando se les da más autonomía.
Recientemente, los investigadores de la Universidad de Stanford y la Universidad de Hong Kong han descubierto que los agentes actuales de IA (como Claude) son más susceptibles a las ventanas emergentes que a los humanos, e incluso su rendimiento ha disminuido significativamente cuando se enfrentan a pop-ups simples.

Según la investigación, cuando el agente de IA enfrenta una ventana emergente diseñada en un entorno experimental, la tasa promedio de éxito del ataque alcanza el 86%y reduce la tasa de éxito de la tarea en un 47%. Este descubrimiento ha provocado nuevas preocupaciones sobre la seguridad del agente de IA, especialmente cuando se les da más capacidad para realizar tareas de forma autónoma.
En este estudio, los científicos diseñaron una serie de ventanas emergentes adversas para probar la capacidad de respuesta del agente de IA. La investigación muestra que aunque los humanos pueden identificar e ignorar estas ventanas emergentes, los agentes de IA a menudo están tentados a incluso hacer clic en estas ventanas emergentes maliciosas, lo que hace que no completen sus tareas originales. Este fenómeno no solo afecta el rendimiento del agente de IA, sino que también puede traer riesgos de seguridad en las aplicaciones de la vida real.
El equipo de investigación utilizó las dos plataformas de prueba, Osworld y Visualwebarena, inyectó ventanas emergentes diseñadas y observó el comportamiento del agente de IA. Descubrieron que todos los modelos de IA involucrados en la prueba eran vulnerables. Para evaluar el efecto del ataque, los investigadores registraron la frecuencia de la ventana emergente del agente y su finalización de la tarea.
El estudio también explora el impacto del diseño de ventanas emergentes en la tasa de éxito del ataque. Al utilizar elementos convincentes e instrucciones específicas, los investigadores encontraron un aumento significativo en las tasas de éxito de los ataques. Aunque intentaron resistir el ataque al incitar al agente de IA a ignorar las ventanas emergentes o agregar logotipos de AD, los resultados no fueron ideales. Esto muestra que el mecanismo de defensa actual sigue siendo muy frágil para el agente de IA.
Las conclusiones del estudio destacan la necesidad de mecanismos de defensa más avanzados en el campo de la automatización para mejorar la resiliencia de los agentes de IA contra el malware y los ataques engañosos. Los investigadores recomiendan mejorar la seguridad de los agentes de IA a través de instrucciones más detalladas, mejorar la capacidad de identificar contenido malicioso e introducir la supervisión humana.
papel:
https://arxiv.org/abs/2411.02391
GitHub:
https://github.com/salt-nlp/popupattack
Puntos clave:
La tasa de éxito del ataque del agente de IA cuando se enfrenta a las ventanas emergentes es tan alta como 86%, que es más baja que la de los humanos.
La investigación ha encontrado que las medidas de defensa actuales son casi ineficaces para el agente de IA y la seguridad debe mejorarse con urgencia.
La investigación propone sugerencias de defensa, como mejorar la capacidad de los agentes para identificar contenido malicioso y supervisión humana.
Los resultados de la investigación plantean desafíos severos para la seguridad del agente de IA y también señalan la dirección para futuras investigaciones de seguridad de IA, es decir, es necesario desarrollar mecanismos de defensa más efectivos para proteger el agente de IA de ataques como ventanas emergentes maliciosas y garantizar que opera de manera segura y confiable. La investigación de seguimiento debe centrarse en cómo mejorar la capacidad del agente de IA para identificar contenido malicioso y cómo combinar de manera efectiva la supervisión manual.