Recentemente, pesquisadores da Universidade de Stanford e da Universidade de Hong Kong publicaram um artigo que descobriu uma grande vulnerabilidade de segurança em agentes atuais de IA, como Claude: eles são extremamente vulneráveis a ataques pop-up. A pesquisa descobriu que uma janela pop-up simples pode reduzir significativamente a taxa de conclusão da tarefa do agente de IA e até fazer com que a tarefa falhe completamente. Isso levantou preocupações sobre questões de segurança nas aplicações práticas dos agentes de IA, especialmente quando recebem mais autonomia.
Recentemente, pesquisadores da Universidade de Stanford e da Universidade de Hong Kong descobriram que os atuais agentes da IA (como Claude) são mais suscetíveis a pop-ups do que os humanos, e até o desempenho deles caiu significativamente ao enfrentar pop-ups simples.

Segundo a pesquisa, quando o agente da IA enfrenta uma janela pop-up projetada em um ambiente experimental, a taxa média de sucesso de ataque atinge 86%e reduz a taxa de sucesso da tarefa em 47%. Essa descoberta provocou novas preocupações sobre a segurança do agente de IA, especialmente quando elas têm mais capacidade de executar tarefas de forma autônoma.
Neste estudo, os cientistas projetaram uma série de pop-ups adversários para testar a capacidade de resposta do agente de IA. Pesquisas mostram que, embora os humanos possam identificar e ignorar esses pop-ups, os agentes de IA geralmente são tentados a clicar nesses pop-ups maliciosos, fazendo com que eles não concluam suas tarefas originais. Esse fenômeno não afeta apenas o desempenho do agente de IA, mas também pode trazer riscos de segurança em aplicações da vida real.
A equipe de pesquisa usou as duas plataformas de teste, Osworld e Visualwebarena, injetou pop-ups projetados e observou o comportamento do agente da IA. Eles descobriram que todos os modelos de IA envolvidos no teste eram vulneráveis. Para avaliar o efeito do ataque, os pesquisadores registraram a frequência da janela pop-up do agente e sua conclusão da tarefa.
O estudo também explora o impacto do design da janela pop-up na taxa de sucesso de ataques. Ao usar elementos atraentes e instruções específicas, os pesquisadores encontraram um aumento significativo nas taxas de sucesso de ataques. Embora tentassem resistir ao ataque levando o agente de IA a ignorar pop-ups ou adicionar logotipos de anúncios, os resultados não eram ideais. Isso mostra que o atual mecanismo de defesa ainda é muito frágil para o agente da IA.
As conclusões do estudo destacam a necessidade de mecanismos de defesa mais avançados no campo da automação para melhorar a resiliência dos agentes de IA contra malware e ataques enganosos. Os pesquisadores recomendam aprimorar a segurança dos agentes de IA por meio de instruções mais detalhadas, melhorando a capacidade de identificar conteúdo malicioso e introduzir a supervisão humana.
papel:
https://arxiv.org/abs/2411.02391
Github:
https://github.com/salt-nlp/popupattack
Pontos -chave:
A taxa de sucesso de ataque do agente da IA ao enfrentar pop-ups é tão alta quanto 86%, o que é menor que a dos humanos.
A pesquisa descobriu que as medidas de defesa atuais são quase ineficazes para o agente de IA e a segurança precisa ser melhorada com urgência.
A pesquisa propõe sugestões de defesa, como melhorar a capacidade dos agentes de identificar conteúdo malicioso e supervisão humana.
Os resultados da pesquisa representam desafios graves para a segurança do agente de IA e também apontam a direção para a futura pesquisa de segurança da IA, ou seja, é necessário desenvolver mecanismos de defesa mais eficazes para proteger o agente da IA de ataques como pop-ups maliciosos e garantir que opera com segurança e confiabilidade. A pesquisa de acompanhamento deve se concentrar em como melhorar a capacidade do agente de IA de identificar conteúdo malicioso e como combinar efetivamente a supervisão manual.