A equipe de pesquisa da Universidade Beihang e da Universidade Tecnológica de Nanyang conduziu uma avaliação abrangente de segurança do modelo GPT-4o. O estudo usou dezenas de milhares de consultas de API, abrangendo três modalidades de texto, imagem e áudio, para revelar o modelo GPT-4o. Vulnerabilidades de segurança de modelos 4o em ambientes multimodais. Os resultados da pesquisa mostram que, embora o GPT-4o tenha melhorado os ataques de jailbreak de texto, a modalidade de áudio recentemente introduzida traz novos desafios de segurança e sua segurança multimodal geral não é tão boa quanto o modelo da geração anterior GPT-4V. Esta pesquisa fornece uma referência valiosa para a segurança e a direção do desenvolvimento futuro do modelo GPT-4o, e também enfatiza a importância da pesquisa de segurança de grandes modelos multimodais.
Notícias do ChinaZ.com em 12 de junho: A equipe conjunta de pesquisa da Universidade Beihang e do Instituto de Tecnologia Nanyang conduziu um teste de segurança aprofundado no modelo GPT-4o. Por meio de dezenas de milhares de consultas à API, os pesquisadores conduziram uma avaliação de segurança nos três modos do GPT-4o: texto, imagem e áudio. O estudo descobriu que, embora o GPT-4o tenha melhorado a segurança contra ataques de jailbreak de texto, o modo de voz recém-introduzido adiciona uma nova superfície de ataque e a segurança multimodal geral não é tão boa quanto o modelo da geração anterior GPT-4V.
Principais conclusões:
A segurança modal de texto foi melhorada, mas há risco de migração: a resistência do GPT-4o a ataques de jailbreak de texto foi aprimorada, mas os invasores ainda podem atacar por meio de formulários multimodais.
O modo de áudio traz novos desafios de segurança: O modo de áudio recém-introduzido pode fornecer novos caminhos para ataques de jailbreak.
Segurança multimodal insuficiente: O desempenho de segurança do GPT-4o no nível multimodal não é tão bom quanto o GPT-4V, indicando que o novo modelo pode ter vulnerabilidades de segurança ao integrar diferentes modalidades.
Método experimental:
Foram usadas mais de 4.000 consultas de texto iniciais, mais de 8.000 julgamentos de resposta e mais de 16.000 consultas de API.
Conjuntos de dados de jailbreak de código aberto baseados em modalidade única e multimodalidade são avaliados, incluindo AdvBench, RedTeam-2K, SafeBench e MM-SafetyBench.
Sete métodos de jailbreak foram testados, incluindo métodos baseados em modelos, GCG, AutoDAN, PAP e BAP, etc.

Indicadores de avaliação:
A Taxa de Sucesso de Ataque (ASR), como principal indicador de avaliação, reflete a dificuldade do modelo ser desbloqueado.
Resultados experimentais:
No modo de texto simples, o GPT-4o possui um nível de segurança inferior ao GPT-4V sem ataques, mas apresenta maior segurança sob condições de ataque.
O modo de áudio é mais seguro e é difícil fazer o jailbreak do GPT-4o convertendo diretamente texto em áudio.
Os testes de segurança multimodal mostram que o GPT-4o é mais vulnerável a ataques do que o GPT-4V em determinados cenários.
Conclusões e recomendações:
A equipa de investigação enfatizou que embora o GPT-4o tenha melhorado as suas capacidades multimodais, as suas questões de segurança não podem ser ignoradas. Recomendam que a comunidade aumente a consciencialização sobre os riscos de segurança dos grandes modelos multimodais e priorize o desenvolvimento de estratégias de alinhamento e técnicas de mitigação. Além disso, devido à falta de conjuntos de dados de jailbreak multimodais, os pesquisadores pedem o estabelecimento de conjuntos de dados multimodais mais abrangentes para avaliar com mais precisão a segurança dos modelos.
Endereço do artigo: https://arxiv.org/abs/2406.06302
Endereço do projeto: https://github.com/NY1024/Jailbreak_GPT4o
Em suma, este estudo fornece uma análise aprofundada da segurança multimodal do GPT-4o, fornece uma referência importante para pesquisas de segurança de grandes modelos e também apela ao fortalecimento da construção de conjuntos de dados de segurança multimodais e à formulação de estratégias de segurança para fazer face ao futuro. Possíveis desafios de segurança para grandes modelos multimodais.