OpenRedTeaming
Nossa pesquisa: contra o calcanhar de Aquiles: uma pesquisa sobre a equipe vermelha para modelos generativos [papel]
Obter uma compreensão abrangente de possíveis ataques a Genai e desenvolver salvaguardas robustas. Nós:
- Pesquise mais de 120 artigos, cobre o oleoduto da taxonomia de risco, estratégias de ataque, métricas de avaliação e referências a abordagens defensivas.
- Propor uma taxonomia abrangente de estratégias de ataque de LLM fundamentadas nas capacidades inerentes dos modelos desenvolvidos durante pré-treinamento e ajuste fino.
- Implementou mais de 30 mais de 30 métodos de equipes de automóveis.
Para se manter atualizado ou experimentar nossa ferramenta RedTeaming, assine nossa newsletter em nosso site ou junte -se a nós no Discord!
Últimos papéis sobre a equipe vermelha
Pesquisas, taxonomias e muito mais
Pesquisas
- Agentes pessoais LLM: Insights e pesquisa sobre a capacidade, eficiência e segurança [papel]
- Trustllm: confiabilidade em grandes modelos de idiomas [papel]
- Taxonomia de risco, mitigação e referência de avaliação de grandes sistemas de modelos de linguagem [papel]
- Desafios de segurança e privacidade de grandes modelos de idiomas: uma pesquisa [papel]
Pesquisas em ataques
- Teste robusto de resiliência do modelo de idioma de IA com novos avisos adversários [Paper]
- Não me ouça: entender e explorar os avisos de jailbreak de grandes modelos de idiomas [papel]
- Quebrando as defesas: uma pesquisa comparativa de ataques a grandes modelos de idiomas [papel]
- LLM Jailbreak Ataque versus Técnicas de Defesa - um estudo abrangente [artigo]
- Uma categorização precoce de ataques rápidos de injeção em grandes modelos de idiomas [papel]
- Avaliação abrangente de ataques de jailbreak contra LLMs [papel]
- "Faça qualquer coisa agora": caracterizando e avaliando solicitações de jailbreak in-the-wild em grandes modelos de idiomas [papel]
- Pesquisa de vulnerabilidades em grandes modelos de idiomas revelados por ataques adversários [papel]
- Ignore este título e hackaprompt: expondo vulnerabilidades sistêmicas do LLMS por meio de uma concorrência de hackers de escala global [Paper]
- Ataques e defesas adversárias em grandes modelos de idiomas: ameaças antigas e novas [papel]
- Trazendo LLMs para a desobediência: formalizar, analisar e detectar jailbreaks [papel]
- Invocar um demônio e vinculá -lo: uma teoria fundamentada da equipe do LLM Red em The Wild [Paper]
- Uma pesquisa abrangente de técnicas de ataque, implementação e estratégias de mitigação em grandes modelos de idiomas [papel]
- Além dos limites: uma pesquisa abrangente de ataques transferíveis aos sistemas de IA [papel]
- Além dos limites: uma pesquisa abrangente de ataques transferíveis aos sistemas de IA [papel]
Pesquisas sobre riscos
- Paisagens de segurança do Mapping LLM: uma proposta abrangente de avaliação de risco de partes interessadas [artigo]
- Protegendo grandes modelos de idiomas: ameaças, vulnerabilidades e práticas responsáveis [papel]
- Privacidade em grandes modelos de idiomas: ataques, defesas e direções futuras [papel]
- Além das salvaguardas: explorando os riscos de segurança do chatgpt [papel]
- Para modelos de linguagem generativa mais seguros: uma pesquisa sobre riscos, avaliações e melhorias de segurança [papel]
- Uso de LLMs para fins ilícitos: ameaças, medidas de prevenção e vulnerabilidades [papel]
- Do chatgpt ao AMAKEGPT: Impacto da IA generativa em segurança cibernética e privacidade [artigo]
- Identificando e mitigando vulnerabilidades em aplicativos integrados para LLM [Paper]
- O poder da IA generativa em segurança cibernética: oportunidades e desafios [papel]
Taxonomias
- Coercing LLMS para fazer e revelar (quase) qualquer coisa [papel]
- A história e os riscos de aprendizado de reforço e feedback humano [artigo]
- De chatbots a phishbots? - Prevenindo golpes de phishing criados usando ChatGPT, Google Bard e Claude [Paper]
- Chatgpt de jailbreak via engenharia rápida: um estudo empírico [artigo]
- Gerando ataques de phishing usando chatgpt [papel]
- Personalização dentro dos limites: uma estrutura de taxonomia e política de risco para o alinhamento de grandes modelos de idiomas com feedback personalizado [papel]
- Decepção da IA: uma pesquisa de exemplos, riscos e soluções em potencial [papel]
- Uma taxonomia de risco de segurança para grandes modelos de idiomas [papel]
Posições
- Tenda de vermelho para IA generativa: bala de prata ou teatro de segurança? [Papel]
- A ética da interação: mitigando ameaças à segurança no LLMS [Paper]
- Um porto seguro para avaliação da IA e equipes vermelhas [papel]
- Red Teaming Chatgpt via jailbreak: preconceito, robustez, confiabilidade e toxicidade [papel]
- A promessa e o perigo da inteligência artificial - a Violet Teaming oferece um caminho equilibrado para a frente [papel]
Fenômenos
- Segmento de equipes vermelhas qualquer modelo [papel]
- Um entendimento mecanicista dos algoritmos de alinhamento: um estudo de caso sobre DPO e toxicidade [papel]
- Fale fora de turno: Vulnerabilidade de segurança de grandes modelos de linguagem em diálogo multi-turbn [Paper]
- Compensações entre alinhamento e utilidade nos modelos de idiomas [papel]
- Avaliando a fragilidade do alinhamento de segurança por meio de podificação e modificações de baixo rank [papel]
- "É um jogo justo '', ou é? Examinando como os usuários navegam pelos riscos e benefícios de divulgação ao usar agentes de conversação baseados em LLM [papel]
- Explorando o comportamento programático do LLMS: uso duplo através de ataques de segurança padrão [papel]
- Os grandes modelos de idiomas podem mudar a preferência do usuário contraditória? [Papel]
- As redes neurais alinhadas estão alinhadas contraditórias? [Papel]
- Alinhamento falso: os LLMs estão realmente alinhados? [Papel]
- Análise de causalidade para avaliar a segurança de grandes modelos de idiomas [papel]
- Transferir ataques e defesas para grandes modelos de idiomas em tarefas de codificação [papel]
Estratégias de ataque
Conformidade de conclusão
- Aprendizagem imediata adversária de poucas fotos em modelos de linguagem de visão [papel]
- Contexto de seqüestro em grandes modelos multimodais [papel]
- Ótimo, agora escreva um artigo sobre isso: The Crescendo Multi-Turn LLM Jailbreak Attack [Paper]
- Badchain: cadeia de backdoor de pensamento solicitando grandes modelos de idiomas [papel]
- Vulnerabilidades universais em grandes modelos de idiomas: ataques de backdoor para aprendizado no contexto [papel]
- Esquece: substituição de instruções e moderação em grandes modelos de linguagem [papel]
- Modelos de linguagem grande com tendência vermelha usando a cadeia de enunciados para alinhamento de segurança [papel]
- Ataques de backdoor para aprendizado no contexto com modelos de idiomas [papel]
- Modelos de idiomas alinhados com jailbreak e guarda com apenas algumas demonstrações no contexto [papel]
- Analisando a tendência de resposta inerente do LLMS: Instruções do mundo real, dirigido por Jailbreak [Paper]
- Ignorando o treinamento de segurança dos LLMs de código aberto com ataques iniciantes [papel]
- Modelos de idiomas grandes de sequestro via aprendizado adversário no contexto [papel]
Indireção de instrução
- Sobre a robustez de grandes modelos multimodais contra ataques adversários de imagem [papel]
- A visão-llms pode se enganar com ataques tipográficos auto-gerados [papel]
- As imagens são o calcanhar de Aquiles de alinhamento: explorando vulnerabilidades visuais para modelos de linguagem multimodais com jailbreak [papel]
- FigStep: modelos de grande linguagem de visão de desbaste por meio de avisos visuais tipográficos [papel]
- Instructta: ataque direcionado de instrução para grandes modelos de linguagem de visão [papel]
- Abusando de imagens e sons para injeção de instrução indireta em LLMs multimodais [papel]
- Exemplos de adversários visuais Jailbreak alinhados grandes modelos de idiomas [papel]
- Jailbreak em pedaços: ataques adversários composicionais em modelos de idiomas multimodais [papel]
- Jogue o jogo de adivinhação com o LLM: ataque indiretos de jailbreak com pistas implícitas [papel]
- Fuzzllm: uma estrutura nova e universal de fuzzing para descobrir proativamente as vulnerabilidades de jailbreak em grandes modelos de idiomas [papel]
- GPTFUZKER: Red Teaming Language Models com prompts de jailbreak gerados automaticamente [Paper]
- Packer PROMPRADO: Deceando LLMs através de instruções de composição com ataques ocultos [papel]
- Deepinception: Hypnotize o grande modelo de linguagem para ser jailbreaker [papel]
- Um lobo em roupas de ovelha: os avisos de jailbreak aninhados generalizados podem enganar grandes modelos de idiomas facilmente [papel]
- Alinhamento de segurança nas tarefas da PNL: resumo fracamente alinhado como um ataque no contexto [papel]
- Sobrecarga cognitiva: modelos de idiomas grandes com jailbreak com pensamento lógico sobrecarregado [papel]
- O Audio é o calcanhar de Aquiles: Red Teaming Audio Grandes modelos multimodais [papel]
Generalização Glide
Idiomas
- Uma investigação entre idiomas em ataques de jailbreak em grandes modelos de idiomas [papel]
- A barreira do idioma: dissecando desafios de segurança dos LLMs em contextos multilíngues [papel]
- Ataques de sanduíche: Mistura Multi-Language ataque adaptativo ao LLMS [Paper]
- Ataque de backdoor à tradução multilíngue de máquina [papel]
- Desafios multilíngues de jailbreak em grandes modelos de idiomas [papel]
- Idiomas de baixo recurso Jailbreak GPT-4 [Paper]
Cifra
- Usando alucinações para ignorar o filtro do GPT4 [papel]
- O efeito da borboleta da alteração de avisos: como pequenas mudanças e jailbreaks afetam o desempenho do modelo de linguagem grande [papel]
- Fazendo -os perguntar e responder: modelos de idiomas com jailbreak em poucas consultas por meio de disfarce e reconstrução [papel]
- PRP: Propagando perturbações universais para atacar grandes modelos de linguagem Rails [Paper]
- O GPT-4 é inteligente demais para ser seguro: bate-papo furtivo com o LLMS via Cipher [Paper]
- Pontuação é importante! Ataque furtivo de backdoor para modelos de idiomas [papel]
Personificação
- Pé na porta: Entendendo o grande modelo de linguagem Jailbreaking via Cognitive Psychology [Paper]
- PSYSAFE: Uma estrutura abrangente para ataques, defesa e avaliação de base psicológica da segurança do sistema multi-agente [papel]
- Como Johnny pode convencer os LLMs a Jailbreak: repensando a persuasão para desafiar a segurança da IA, humanizando os LLMs [papel]
- Jailbreaks escaláveis e transferíveis de caixa preta para modelos de idiomas via modulação persona [papel]
- Quem é o chatgpt? Retrato psicológico da Benchmarking LLMS usando o Psychobench [Paper]
- Explorando grandes modelos de linguagem (LLMs) através de técnicas de engano e princípios de persuasão [papel]
Manipulação do modelo
Ataques de backdoor
- Shadowcast: ataques furtivos de envenenamento por dados contra modelos de linguagem da visão [papel]
- Agentes Sleeper: Treinando LLMs Deceptive que persistem através do treinamento de segurança [Paper]
- O que há em seus dados "seguros"?: Identificando dados benignos que quebram a segurança [papel]
- Ataques de envenenamento por dados a métodos de avaliação de políticas fora da política [papel]
- Badedit: Backdooring Language Models By Model Editing [Paper]
- Melhor dos venenos: atacando o RLHF injetando dados de preferência envenenada [Paper]
- Aprendendo a envenenar grandes modelos de idiomas durante o ajuste de instrução [papel]
- Explorando vulnerabilidades de backdoor de modelos de bate -papo [papel]
- Instruções como backdoors: vulnerabilidades de backdoor de ajuste de instrução para grandes modelos de idiomas [papel]
- Forçar modelos generativos a degenerar os: o poder dos ataques de envenenamento por dados [papel]
- Desalinhamento furtivo e persistente em grandes modelos de idiomas por meio de injeções de backdoor [papel]
- Ataque de ativação de backdoor: ataque de grandes modelos de idiomas usando a direção de ativação para alinhamento de segurança [papel]
- Sobre a exploração do aprendizado de reforço com feedback humano para grandes modelos de idiomas [papel]
- Mitigação de backdoor no tempo de teste para modelos de linguagem grande de caixa preta com demonstrações defensivas [papel]
- Universal Jailbreak Backdoors de feedback humano envenenado [artigo]
Riscos de ajuste fino
- LORA-AS-AN-ATACK! Piercing LLM Segurança no cenário de compartilhamento e jogo [papel]
- Desalinhamento emulado: o alinhamento de segurança para grandes modelos de idiomas pode sair pela culatra! [Papel]
- Lora Tuneing fino Descarga com eficiência o treinamento de segurança em llama 2-bate-papo 70B [papel]
- Badllama: Remoção barata de segurança Tuneamento fino da LLAMA 2-BAT 13B [Paper]
- Modelo de idioma Designação: Teclina vermelha paramétrica para expor danos e preconceitos ocultos [papel]
- Remoção de proteções RLHF no GPT-4 por meio de ajuste fino [papel]
- Sobre a segurança dos grandes modelos de idiomas de origem aberta: o alinhamento realmente os impede de serem mal utilizados? [Papel]
- Alinhamento de sombra: a facilidade de subverter modelos de linguagem alinhados com segurança [papel]
- Os modelos de linguagem alinhados de ajuste fina compromete a segurança, mesmo quando os usuários não pretendem! [Papel]
Atacar o pesquisador
Pesquisadores de sufixo
- Promping4Debugging: Modelos de difusão de texto para imagem de vermelho, encontrando prompts problemáticos [papel]
- Do ruído à clareza: Desvendando o sufixo adversário de grandes ataques de modelo de linguagem via tradução de incorporações de texto [papel]
- Ataques adversários rápidos nos modelos de linguagem em um minuto GPU [papel]
- Modelo de idioma baseado em gradiente Equipe Red [Paper]
- Ataques rápidos automáticos e universais de injeção contra grandes modelos de idiomas [papel]
- $ TEXTIT {linkPrompt} $ : Ataques adversários naturais e universais em modelos de idiomas rápidos [papel]
- EXEC neural: Aprender (e aprender) a execução gatilhos para ataques de injeção imediata [papel]
- LIVRADOS LIVENTES DE SEGURANÇA DE SEGURANÇA LIMENTOS DE PARECIMENTO COM ATANTES ADAPTTIVOS SIMPLES [PAPEM]
- Otimização rápida para o Jailbreaking LLMS via exploração subconsciente e ecopraxia [Paper]
- Autodan: ataques adversários baseados em gradiente interpretáveis em grandes modelos de idiomas [papel]
- Ataques adversários universais e transferíveis a modelos de linguagem alinhados [papel]
- Ajuste de promoção suave para grandes modelos de linguagem para avaliar o viés [papel]
- Trojllm: um ataque de Trojan de caixa preta em grandes modelos de idiomas [papel]
- Autodan: Gerando solicitações de jailbreak furtivas em grandes modelos de idiomas alinhados [papel]
Pesquisadores imediatos
Modelo de idioma
- Provocando comportamentos do modelo de linguagem usando modelos de linguagem reversa [papel]
(2023)
- Tudo em como você pede: método simples de caixa preta para ataques de jailbreak [papel]
- Ataques adversários ao GPT-4 via simples pesquisa aleatória [papel]
- Galto: distrair grandes modelos de idiomas para ataque automático de jailbreak [papel]
- Modelos de idiomas em equipes vermelhas com modelos de idiomas [papel]
- Um LLM pode se enganar: um ataque adversário imediato [papel]
- Modelos de idiomas grandes de caixa preta em vinte consultas [papel]
- Árvore dos Ataques: Jailbreaking Black-Box LLMS automaticamente [Papel]
- AART: Time vermelho-assistido de AAr com geração de dados diversificada para novos aplicativos alimentados por LLM [Paper]
- Dala: um ataque adversário baseado em distribuição de distribuição contra modelos de idiomas [papel]
- Jab: Procurando Adversário Conjunto e Aumentação da Crença [Artigo]
- Sem ofensa: provocando ofensividade dos modelos de idiomas [papel]
- Loft: Ajuste de proxy local para melhorar a transferibilidade de ataques adversários contra o modelo de linguagem grande [papel]
Decodificação
- Jailbreakbreak de fraco a forte em grandes modelos de idiomas [papel]
- Ataque a frio: Jailbreaking LLMs com furtividade e controlabilidade [papel]
Algoritmo genético
- Jailbreak semântico de espelho: algoritmo genético baseado no jailbreak contra llms de código aberto [papel]
- Open gergelim! Universal Black Box Jailbreak de grandes modelos de idiomas [papel]
Aprendizagem de reforço
- SneakyPrompt: modelos generativos de texto para imagem [papel]
- Red Teaming Game: uma estrutura de teórica de jogos para modelos de idiomas em equipes vermelhas [papel]
- Explore, estabeleça, explorar: Red Teaming Models de idiomas do zero [papel]
- Revelando a toxicidade implícita em grandes modelos de linguagem [papel]
Defesas
Defesas de tempo de treinamento
RlHf
- Ajuste de segurança configurável de modelos de idiomas com dados de preferência sintética [papel]
- Aprimorando a segurança do LLM via otimização de preferência direta restrita [papel]
- RLHF seguro: Aprendizagem de reforço seguro com o feedback humano [papel]
- Beavertails: Rumo ao melhor alinhamento de segurança do LLM por meio de um conjunto de dados de preferência humana [papel]
- Instrução mais segura: alinhando modelos de linguagem com dados de preferência automatizados [papel]
Afinação
- Safegen: Mitigando geração de conteúdo inseguro em modelos de texto para imagem [papel]
- Segurança Tuneamento fino (quase) sem custo: uma linha de base para a visão de grandes modelos de idiomas [papel]
- Desenvolvendo modelos de idiomas grandes e seguros - uma estrutura abrangente [papel]
- Imunização contra ataques prejudiciais de ajuste fino [papel]
- Mitigando o ataque de jailbreak fino com alinhamento aprimorado de backdoor [papel]
- Alinhamento dialético: resolvendo a tensão do 3H e as ameaças de segurança do LLMS [papel]
- A poda para proteção: aumentando a resistência ao jailbreak em LLMs alinhados sem ajuste fino [papel]
- A borracha: Defesa de Jailbreak em grandes modelos de idiomas por meio do Unlearning Conhecimento Divisão [Artigo]
- Duas cabeças são melhores que uma: Poe aninhado para uma defesa robusta contra multi-backdoors [Paper]
- Defendendo contra ataques de backdoor de envenenamento por peso para ajuste fino com eficiência de parâmetro [papel]
- Lhamas ajustados à segurança: lições de melhorar a segurança de grandes modelos de idiomas que seguem as instruções [papel]
- Defendendo contra ataques que quebram o alinhamento via LLM robustamente alinhado [Paper]
- Aprenda o que não aprender: para a segurança generativa em chatbots [papel]
- JATMO: Defesa de injeção imediata por Finetuning específico para tarefas [Paper]
Defesas de tempo de inferência
Solicitando
- Adashield: salvaguardando modelos de grandes linguagens multimodais de ataques baseados em estrutura via escudo adaptativo provocando [papel]
- Quebrar a quebra: Reinventando a defesa do LM contra ataques de jailbreak com auto-refinamento [papel]
- Sobre a salvaguarda orientada para grandes modelos de idiomas [papel]
- Promoção assinada: uma nova abordagem para evitar ataques imediatos de injeção contra aplicações integradas para LLM [Paper]
Xuchen Suo (2024)
- Análise de intenção faz do LLMS um bom defensor de jailbreak [papel]
- Defendendo contra ataques de injeção imediata indiretos com holofotes [papel]
- Garantindo saídas seguras e de alta qualidade: uma abordagem da biblioteca de orientações para modelos de idiomas [papel]
- Ataques generativos de injeção generativos guiados por metas em grandes modelos de idiomas [papel]
- STRUQ: Defendendo contra injeção imediata com consultas estruturadas [papel]
- Bob estudioso luta contra o jailbreak através de um pronta ajuste adversária [papel]
- Auto-guarda: capacite o LLM para proteger-se [papel]
- Usando o aprendizado no contexto para melhorar a segurança do diálogo [papel]
- Defendendo grandes modelos de idiomas contra ataques de jailbreak através da priorização de objetivos [papel]
- Bergeron: Combatendo ataques adversários através de uma estrutura de alinhamento baseada em consciência [Paper]
Conjunto
- Combatendo ataques adversários com debate multi-agente [papel]
- TrustaGent: Rumo a agentes baseados em LLM seguros e confiáveis por meio da Constituição do Agente [Artigo]
- AutodeFense: defesa de LLM multi-agente contra ataques de jailbreak [papel]
- Aprenda a disfarçar: Evite respostas de recusa em defesa do LLM por meio de um jogo de Disguiser de atacante multi-agente [Paper]
- Jailbreaker na prisão: Movendo defesa do alvo para grandes modelos de idiomas [papel]
Guardrails
INTERNAGEM DE SUBERÇÃO
- UFID: uma estrutura unificada para detecção de backdoor de nível de entrada em modelos de difusão [papel]
- Otimizador de prompt universal para geração de texto para imagem segura [papel]
- Olhos fechados, segurança em: Protegendo LLMs multimodais por transformação de imagem em texto [papel]
- Olhos fechados, segurança em: Protegendo LLMs multimodais por transformação de imagem em texto [papel]
- MLLM-Protetor: Garantindo a segurança da MLLM sem prejudicar o desempenho [papel]
- Mitigação de toxicidade adicionada em tempo de inferência para tradução multimodal e massivamente multilíngue [papel]
- Um método baseado em mutação para detecção de ataques de jailbreak de múltiplos modais [papel]
- Detecção e defesa contra ataques proeminentes a assistentes virtuais integrados para LLM pré-condicionados [Paper]
- SHIELDLM: Empodering LLMS como detectores de segurança alinhados, personalizáveis e explicáveis [papel]
- Defesa de tradução de ida e volta contra grandes ataques com jailbreak de idiomas [papel]
- BUFF GRADIOR: Detectando ataques de jailbreak em grandes modelos de idiomas, explorando paisagens de perdas de recusa [papel]
- Defendendo os avisos de jailbreak via jogo adversário no contexto [Paper]
- SPML: um DSL para defender modelos de linguagem contra ataques imediatos [papel]
- Classificador de segurança robusto para grandes modelos de idiomas: Escudo rápido adversário [papel]
- Controle da IA: Melhorando a segurança, apesar da subversão intencional [papel]
- MAATPHOR: Análise da variante automatizada para ataques de injeção imediata [papel]
Saída Guardrails
- Defendendo o LLMS contra ataques de jailbreak via backtranslation [artigo]
- Otimização imediata robusta para defender modelos de linguagem contra ataques de jailbreak [papel]
- Jailbreaking é melhor resolvido por definição [artigo]
- LLM Self Defense: Por Self Exocination, LLMs sabem que estão sendo enganados [Paper]
INPUT & SAUTRAIRRAILS
- Rigorllm: Projustres resilientes para grandes modelos de idiomas contra conteúdo indesejado [papel]
- Nemo Guardrails: um kit de ferramentas para aplicações LLM controláveis e seguras com trilhos programáveis [papel]
- Guarda de lhama: LLM Basey Input-output Saveguard para conversas humanas-AI [papel]
Defesas do sufixo adversário
- Defendendo grandes modelos de idiomas contra ataques de jailbreak via suavização semântica [papel]
- Certificando a segurança da LLM contra o impulsionamento adversário [papel]
- Defesas de linha de base para ataques adversários contra modelos de linguagem alinhados [papel]
- Detectar o modelo de linguagem ataques com perplexidade [papel]
- Smoothllm: defender grandes modelos de idiomas contra ataques de jailbreak [papel]
- Detecção de prompt adversários no nível do token com base em medidas de perplexidade e informações contextuais [papel]
Decodificando defesas
- Para a segurança e a utilidade, respostas equilibradas por meio de modelos de linguagem grande controlável [papel]
- Safedecoding: Defendendo contra ataques de jailbreak via decodificação com reconhecimento de segurança [papel]
Avaliações
Métricas de avaliação
Métricas de ataque
- Uma nova estrutura de avaliação para avaliar a resiliência contra ataques rápidos de injeção em grandes modelos de idiomas [papel]
- Attackeval: como avaliar a eficácia do atacante de jailbreak em grandes modelos de idiomas [papel]
- Dê uma olhada nisso! Repensando como avaliar o modelo de idioma jailbreak [papel]
Métricas de defesa
- Como (não) ético são as respostas centradas na instrução do LLMS? Inventando as vulnerabilidades dos guardares de segurança para consultas prejudiciais [papel]
- A arte da defesa: uma avaliação sistemática e análise das estratégias de defesa do LLM sobre segurança e excesso de defesa [papel]
Benchmarks de avaliação
- Jailbreakbench: um benchmark de robustez aberto para modelos de idiomas com jailbreak de grande porte [papel]
- Segurança PROMPTS: Uma revisão sistemática de conjuntos de dados abertos para avaliar e melhorar a grande segurança do modelo de linguagem [papel]
- De danos representacionais a danos à qualidade de serviço: um estudo de caso sobre salvaguardas de segurança da LLAMA 2 [papel]
- Salada-banco: um benchmark de segurança hierárquica e abrangente para grandes modelos de idiomas [papel]
- Uma forte rejeição para jailbreaks vazios [papel]
- Harmbench: uma estrutura de avaliação padronizada para equipes vermelhas automatizadas e recusa robusta [papel]
- Segurança: avaliando a segurança de grandes modelos de idiomas com questões de múltipla escolha [papel]
- Xstest: um conjunto de testes para identificar comportamentos de segurança exagerados em grandes modelos de linguagem [papel]
- Do-not-Answer: um conjunto de dados para avaliar salvaguardas no LLMS [Paper]
- Avaliação de segurança de modelos de grandes idiomas chineses [papel]
- Modelos de idiomas em equipes vermelhas para reduzir os danos: métodos, comportamentos de escala e lições aprendidas [papel]
- Conjunto de dados de dados: diversidade na avaliação da IA conversacional para segurança [papel]
- Jailbreak latente: um benchmark para avaliar a segurança e a robustez do texto de grandes modelos de idiomas [papel]
- Tensor Trust: Ataques de injeção pronta interpretáveis de um jogo online [Paper]
- Os LLMs podem seguir regras simples? [Papel]
- SimplesAfetytests: um conjunto de testes para identificar riscos críticos de segurança em grandes modelos de idiomas [papel]
- Benchmarking e defender contra ataques rápidos de injeção indireta em grandes modelos de idiomas [papel]
- SC-SAFETY: Uma pergunta de perguntas abertas de várias rodadas referência adversária de segurança para grandes modelos de idiomas em chinês [papel]
- Caminhando em uma corda bamba-avaliando grandes modelos de linguagem em domínios de alto risco [papel]
Aplicações
Domínios do aplicativo
Agente
- MM-SafetyBench: Uma referência para avaliação de segurança de grandes modelos de idiomas multimodais [papel]
- Agente Smith: uma única imagem pode jailbreak um milhão de agentes multimodais LLM exponencialmente rápido [Paper]
- Quantos unicórnios existem nesta imagem? Um benchmark de avaliação de segurança para Vision LLMS [papel]
- Em direção à equipe vermelha em tradução multimodal e multilíngue [papel]
- Jailbreakv-28k: Uma referência para avaliar a robustez de grandes modelos de idiomas multimodais contra ataques de jailbreak [papel]
- Red Teaming GPT-4V: O GPT-4V é seguro contra ataques de jailbreak uni/multimodal? [Papel]
- R-JUDACE: Consciência de risco de segurança de benchmarking para agentes LLM [papel]
- GPT em roupas de ovelha: o risco de GPTs personalizados [papel]
- Ferramenta de ferramentas: revelando questões de segurança de grandes modelos de idiomas no aprendizado de ferramentas em três estágios [papel]
- Uma casa trêmula de cartas? Mapeando ataques adversários contra agentes de idiomas [papel]
- Adoção rápida, riscos ocultos: o duplo impacto da personalização de modelos de linguagem grande [papel]
- Avaliação imediata de ataque e segurança orientada a objetivos para LLMS [papel]
- Identificando os riscos de agentes LM com uma caixa de areia em LM [papel]
- Cvalues: medindo os valores dos grandes modelos de idiomas chineses, da segurança à responsabilidade [papel]
- Explorando o romance GPT-4 APIs [artigo]
- Gênios do mal: investigando a segurança dos agentes baseados em LLM [papel]
- Avaliando riscos imediatos de injeção em mais de 200 GPTs personalizados [papel]
Programação
- Deceptprompt: Explorando a geração de código orientada por LLM via Instruções Adversárias de Linguagem Natural [Paper]
- O chatgpt envenenado encontra o trabalho para as mãos ociosas: explorando as práticas de codificação dos desenvolvedores com sugestões inseguras de modelos de IA envenenados [papel]
Riscos de aplicação
Injeção imediata
- Comportamento de dimensionamento da tradução da máquina com grandes modelos de linguagem sob ataques de injeção rápidos [papel]
- De injeções rápidas a ataques de injeção de SQL: Qual a proteção do seu aplicativo da Web integrado por LLM? [Papel]
- Não é o que você se inscreveu: comprometendo aplicativos integrados ao mundo real com injeção indireta de injeção [papel]
- Ataque de injeção imediata contra aplicações integradas para LLM [papel]
Extração imediata
- Jailbreaking GPT-4V por meio de ataques auto-adversários com os avisos do sistema [Paper]
- Roubar ataques de roubo contra grandes modelos de linguagem [papel]
- Extração imediata eficaz dos modelos de linguagem [papel]
Equipe Red multimodal
Estratégias de ataque
Conformidade de conclusão
- Aprendizagem imediata adversária de poucas fotos em modelos de linguagem de visão [papel]
- Contexto de seqüestro em grandes modelos multimodais [papel]
Indireção de instrução
- Sobre a robustez de grandes modelos multimodais contra ataques adversários de imagem [papel]
- As imagens são o calcanhar de Aquiles de alinhamento: explorando vulnerabilidades visuais para modelos de linguagem multimodais com jailbreak [papel]
- A visão-llms pode se enganar com ataques tipográficos auto-gerados [papel]
- Exemplos de adversários visuais Jailbreak alinhados grandes modelos de idiomas [papel]
- Jailbreak em pedaços: ataques adversários composicionais em modelos de idiomas multimodais [papel]
- Abusando de imagens e sons para injeção de instrução indireta em LLMs multimodais [papel]
- FigStep: modelos de grande linguagem de visão de desbaste por meio de avisos visuais tipográficos [papel]
- Instructta: ataque direcionado de instrução para grandes modelos de linguagem de visão [papel]
Atacar pesquisadores
Pesquisadores de imagem
- Ataque de difusão: alavancando difusão estável para ataque de imagem naturalista [papel]
- Sobre a robustez adversária dos modelos de fundação multimodal [papel]
- Quão robusto é o bardo do Google para ataques de imagem adversária? [Papel]
- Teste de ataques de backdoor em grandes modelos de idiomas multimodais [papel]
Pesquisadores de modalidade cruzados
- Ataque SA: Melhorando a transferibilidade adversária dos modelos de pré-treinamento em linguagem da visão por meio da auto-enugmentação [papel]
- MMA-Diffusion: ataque multimodal a modelos de difusão [papel]
- Melhorando a transferibilidade adversária de modelos de pré-treinamento em linguagem visual por meio de interação multimodal colaborativa [papel]
- Uma imagem vale 1000 mentiras: Transferibilidade de imagens adversárias entre os avisos em modelos de linguagem de visão [papel]
Outros
- SneakyPrompt: modelos generativos de texto para imagem [papel]
- Promping4Debugging: Modelos de difusão de texto para imagem de vermelho, encontrando prompts problemáticos [papel]
Defesa
Defesas de Guarda
- UFID: uma estrutura unificada para detecção de backdoor de nível de entrada em modelos de difusão [papel]
- Otimizador de prompt universal para geração de texto para imagem segura [papel]
- Olhos fechados, segurança em: Protegendo LLMs multimodais por transformação de imagem em texto [papel]
- Olhos fechados, segurança em: Protegendo LLMs multimodais por transformação de imagem em texto [papel]
- MLLM-Protetor: Garantindo a segurança da MLLM sem prejudicar o desempenho [papel]
- Mitigação de toxicidade adicionada em tempo de inferência para tradução multimodal e massivamente multilíngue [papel]
- Um método baseado em mutação para detecção de ataques de jailbreak de múltiplos modais [papel]
Outras defesas
- Safegen: Mitigando geração de conteúdo inseguro em modelos de texto para imagem [papel]
- Adashield: salvaguardando modelos de grandes linguagens multimodais de ataques baseados em estrutura via escudo adaptativo provocando [papel]
- Segurança Tuneamento fino (quase) sem custo: uma linha de base para a visão de grandes modelos de idiomas [papel]
Aplicativo
Agentes
- Red Teaming GPT-4V: O GPT-4V é seguro contra ataques de jailbreak uni/multimodal? [Papel]
- Jailbreakv-28k: Uma referência para avaliar a robustez de grandes modelos de idiomas multimodais contra ataques de jailbreak [papel]
- Agente Smith: uma única imagem pode jailbreak um milhão de agentes multimodais LLM exponencialmente rápido [Paper]
- MM-SafetyBench: Uma referência para avaliação de segurança de grandes modelos de idiomas multimodais [papel]
- Quantos unicórnios existem nesta imagem? Um benchmark de avaliação de segurança para Vision LLMS [papel]
- Para a equipe vermelha em tradução multimodal e multilíngue [papel]
Benchmarks
- Nibbler adversário: um método aberto de equipes vermelhas para identificar diversos danos na geração de texto a imagem [papel]
- Modelos de linguagem visual em equipes vermelhas [papel]
Citação
@article{lin2024achilles,
title={Against The Achilles' Heel: A Survey on Red Teaming for Generative Models},
author={Lizhi Lin and Honglin Mu and Zenan Zhai and Minghan Wang and Yuxia Wang and Renxi Wang and Junjie Gao and Yixuan Zhang and Wanxiang Che and Timothy Baldwin and Xudong Han and Haonan Li},
year={2024},
journal={arXiv preprint, arXiv:2404.00629},
primaryClass={cs.CL}
}