O campo de segurança da IA causou um alvoroço recentemente, e a Adversa AI divulgou um relatório incrível sobre o mais recente modelo AI GROK3 em XAI. O relatório apontou que esse modelo de IA altamente esperado tem sérias vulnerabilidades de segurança que podem ser exploradas maliciosamente. Essa descoberta atraiu a atenção generalizada da comunidade de tecnologia na segurança da IA.
Após uma análise completa do modelo GROK3, a equipe de pesquisa de Adversa AI descobriu que o modelo é vulnerável a "ataques de jailbreak". Esse método de ataque pode ignorar as limitações de conteúdo do modelo, permitindo que o invasor obtenha informações extremamente sensíveis, incluindo, entre outros, conteúdo perigoso, como decepção infantil, manuseio corporal, extração de DMT e fabricação de bombas. Essa descoberta é chocante porque, uma vez que essas informações são obtidas por criminosos, pode causar sérios danos sociais.
O mais sério é que o CEO da Adversa AI, Alex Polyakov, revelou que a equipe de pesquisa também descobriu um novo vulnerabilidade de "vazamento imediato". Essa vulnerabilidade exporá os avisos completos do sistema do modelo GROK, fornecendo um modelo "plano de pensamento" para futuros atacantes. "O ataque do jailbreak permite que os invasores ignorem as restrições de conteúdo, enquanto o rápido vazamento lhes fornece informações importantes para entender como o modelo funciona", explicou Polyakov.
Além das vulnerabilidades acima, a equipe da ADVERSA AI também alertou que essas falhas de segurança poderiam permitir que os hackers assumam os sistemas de IA com recursos de agentes do usuário. Essa situação pode desencadear uma séria crise de segurança cibernética. Vale a pena notar que, embora o Grok3 tenha um bom desempenho no ranking de desempenho de grandes modelos de linguagem (LLM), é muito inferior a produtos semelhantes do OpenAI e antropia em termos de proteção de segurança. Os resultados dos testes de Adversa AI mostram que três dos quatro ataques de jailbreak contra Grok3 foram bem -sucedidos, enquanto os modelos OpenAI e antropia resistiram com sucesso a todos os ataques.
Essa descoberta levantou dúvidas sobre a direção do treinamento do modelo de IA. O GROK3 parece ser deliberadamente treinado para reforçar certas visões extremas de almíscar, como responder a opiniões sobre a mídia, Grok3 disse que "a maioria da mídia tradicional é lixo", que reflete a hostilidade de Musk à imprensa. Esse treinamento de tendência pode não apenas afetar a objetividade do modelo, mas também exacerbar os riscos de segurança.
Polyakov apontou ainda que o nível de segurança do GROK3 está mais próximo de alguns modelos de língua chinesa do que os padrões de segurança dos países ocidentais. "Esses novos modelos estão claramente buscando velocidade e não segurança", disse ele. Esse trade-off pode levar a sérias conseqüências e, se o Grok3 cair nas mãos dos criminosos, poderá causar perdas incomensuráveis.
Para ilustrar os riscos potenciais, Polyakov deu um exemplo específico: um proxy de IA com função de resposta automática pode ser manipulada por um invasor. Um invasor pode inserir código de jailbreak no email, instruindo o agente da IA a enviar links maliciosos para todos os CISOs (Diretor de Segurança da Informação). Se houver uma vulnerabilidade de jailbreak no modelo subjacente, o agente da IA executará cegamente esta instrução. Esse risco não é uma suposição teórica, mas uma ameaça real que o abuso de IA possa trazer.
Atualmente, as empresas de IA estão promovendo ativamente a aplicação comercial de agentes de IA. Por exemplo, o OpenAI lançou recentemente o recurso "Operador" para permitir que os agentes da IA executem tarefas de rede para os usuários. No entanto, esse recurso requer níveis de monitoramento extremamente altos, porque geralmente cometem erros e é difícil lidar com situações complexas livremente. Todos esses fenômenos levantaram preocupações sobre os futuros recursos de tomada de decisão dos modelos de IA.
Em resumo, as vulnerabilidades de segurança do modelo GROK3 expuseram desafios importantes enfrentados no desenvolvimento da IA. Ao perseguir a melhoria do desempenho da IA, como garantir a segurança, a confiabilidade e a ética do modelo se tornará uma questão -chave que o setor de IA deve resolver. Esse incidente também nos lembra que hoje, com o rápido desenvolvimento da tecnologia de IA, as medidas de proteção de segurança devem ser promovidas simultaneamente com a inovação tecnológica para evitar riscos potenciais e garantir o desenvolvimento saudável da tecnologia de IA.