Ouverte
Notre enquête: contre le talon d'Achille: une enquête sur l'équipe rouge pour les modèles génératifs [papier]
Pour acquérir une compréhension complète des attaques potentielles contre Genai et développer des garanties robustes. Nous:
- Enquête sur 120 articles, couvrir le pipeline de la taxonomie des risques, des stratégies d'attaque, des mesures d'évaluation et des références aux approches défensives.
- Proposer une taxonomie complète des stratégies d'attaque LLM fondées sur les capacités inhérentes des modèles développés pendant la pré-entraînement et le réglage fin.
- Mis en œuvre plus de plus de plus de 30 méthodes d'équipe rouge automatique.
Pour rester à jour ou essayer notre outil Redteaming, veuillez vous abonner à notre newsletter sur notre site Web ou rejoindre nous sur Discord!
Derniers articles sur l'équipe rouge
Enquêtes, taxonomies et plus
Relevés
- Agents LLM personnels: idées et enquête sur la capacité, l'efficacité et la sécurité [document]
- Trustllm: fiabilité dans les modèles de grande langue [papier]
- Taxonomie des risques, atténuation et références d'évaluation des systèmes de modèles de langues importants [document]
- Défis de sécurité et de confidentialité des modèles de grandes langues: une enquête [document]
Enquêtes sur les attaques
- Test robuste de la résilience du modèle de langue IA avec de nouvelles invites contradictoires [papier]
- Ne m'écoutez pas: comprendre et explorer les invites en jailbreak de modèles de grands langues [papier]
- Briser les défenses: une enquête comparative des attaques contre des modèles de langues importants [document]
- LLM Attack jailbreak contre les techniques de défense - une étude complète [document]
- Une catégorisation précoce des attaques d'injection rapides sur des modèles de grands langues [papier]
- Évaluation complète des attaques de jailbreak contre les LLM [document]
- "Faites n'importe quoi maintenant": caractériser et évaluer les invites de jailbreak dans la volonté sur les modèles de gros langues [papier]
- Enquête sur les vulnérabilités dans les modèles de grande langue révélés par des attaques contradictoires [document]
- Ignorez ce titre et HackapRomppt: exposer les vulnérabilités systémiques de LLMS via une compétition de piratage invite à l'échelle mondiale [document]
- Attaques et défenses contradictoires dans les modèles de grande langue: anciennes et nouvelles menaces [document]
- Tricking LLMS dans la désobéissance: formaliser, analyser et détecter le jailbreaks [papier]
- Invoquez un démon et liez-le: une théorie fondée de la LLM rouge équipe dans la nature [papier]
- Une étude complète des techniques d'attaque, de la mise en œuvre et des stratégies d'atténuation dans les modèles de grandes langues [document]
- Au-delà des limites: une enquête complète des attaques transférables sur les systèmes d'IA [document]
- Au-delà des limites: une enquête complète des attaques transférables sur les systèmes d'IA [document]
Enquêtes sur les risques
- Mapping LLM Security Landscapes: une proposition complète d'évaluation des risques des parties prenantes [document]
- Sécuriser les grands modèles de langue: menaces, vulnérabilités et pratiques responsables [document]
- Confidentialité dans les modèles de grande langue: attaques, défenses et orientations futures [document]
- Au-delà des garanties: explorer les risques de sécurité de Chatgpt [papier]
- Vers des modèles de langage génératif plus sûrs: une enquête sur les risques de sécurité, les évaluations et les améliorations [papier]
- Utilisation des LLM à des fins illicites: menaces, mesures de prévention et vulnérabilités [document]
- De Chatgpt à ThreatGpt: Impact de l'IA générative dans la cybersécurité et la vie privée [document]
- Identification et atténuation des vulnérabilités dans les applications intégrées à LLM [document]
- La puissance de l'IA générative en cybersécurité: opportunités et défis [document]
Taxonomies
- COERCING LLMS à faire et à révéler (presque) tout [papier]
- L'histoire et les risques de l'apprentissage du renforcement et de la rétroaction humaine [document]
- Des chatbots à Phishbots? - Empêcher les escroqueries de phishing créées à l'aide de Chatgpt, Google Bard et Claude [papier]
- Jailbreaking Chatgpt via une ingénierie rapide: une étude empirique [document]
- Génération d'attaques de phishing à l'aide de chatppt [papier]
- Personnalisation dans les limites: une taxonomie des risques et un cadre politique pour l'alignement de modèles de langue importants avec des commentaires personnalisés [document]
- Déception de l'IA: une étude des exemples, des risques et des solutions potentielles [papier]
- Une taxonomie de risque de sécurité pour les modèles de langue importants [papier]
Positions
- L'équipe rouge pour Generative Ai: Silver Bulte ou Sécurité? [Papier]
- L'éthique de l'interaction: atténuation des menaces de sécurité dans les LLM [document]
- Un port de sécurité pour l'évaluation de l'IA et l'équipe rouge [papier]
- Red Teaming Chatgpt via le jailbreaking: biais, robustesse, fiabilité et toxicité [document]
- La promesse et le péril de l'intelligence artificielle - Violet Teaming offre un chemin équilibré à l'avance [Paper]
Phénomène
- Segment d'équipe rouge tout le modèle [papier]
- Une compréhension mécaniste des algorithmes d'alignement: une étude de cas sur le DPO et la toxicité [document]
- Parlez hors de tour: vulnérabilité de sécurité des modèles de grands langues dans le dialogue multi-tour [papier]
- Compromis entre l'alignement et l'utilité dans les modèles de langues [document]
- Évaluer la fragilité de l'alignement de sécurité via l'élagage et les modifications de faible rang [papier]
- "C'est un jeu équitable", ou est-ce? Examiner comment les utilisateurs naviguent sur les risques et les avantages de divulgation lors de l'utilisation d'agents conversationnels basés sur LLM [papier]
- Exploiter le comportement programmatique des LLMS: double utilisation via des attaques de sécurité standard [papier]
- Les modèles de grandes langues peuvent-ils modifier la préférence de l'utilisateur de manière adversaire? [Papier]
- Les réseaux de neurones alignés sont-ils alignés de manière adversaire? [Papier]
- Faux alignement: les LLM sont-ils vraiment bien alignés? [Papier]
- Analyse de la causalité pour évaluer la sécurité des modèles de grandes langues [document]
- Transférer des attaques et des défenses pour les modèles de gros langues sur les tâches de codage [papier]
Stratégies d'attaque
Conformité à l'achèvement
- Apprentissage inversaire adversaire à quelques coups sur les modèles de langue visuelle [papier]
- Contexte de détournement dans les grands modèles multimodaux [papier]
- Génial, écrivez maintenant un article à ce sujet: l'attaque de jailbreak de Crescendo multi-tour en crescendo [papier]
- BADCHAIN: Backdoor Chaîne de pensée invite pour les modèles de grands langues [Papier]
- Vulnérabilités universelles dans les modèles de grande langue: attaques de porte dérobée pour l'apprentissage en contexte [papier]
- Nevermind: Remplacement des instructions et modération dans les modèles de grande langue [Papier]
- Modèles de grande langue en équipe rouge utilisant une chaîne d'énoncés pour l'alignement de sécurité [papier]
- Attaques de porte dérobée pour l'apprentissage en contexte avec des modèles de langue [papier]
- Modèles linguistiques alignés par le jailbreak et la garde avec seulement quelques démonstrations en contexte [document]
- Analyse de la tendance de la réponse inhérente aux LLMS: jailbreaks axés sur les instructions réels [document]
- Contournant la formation en sécurité des LLM open source avec des attaques d'amorçage [papier]
- Détournement de grands modèles de langue via l'apprentissage adversaire dans le contexte [papier]
Indirection d'instructions
- Sur la robustesse des grands modèles multimodaux contre les attaques contradictoires de l'image [papier]
- Vision-llms peut se tromper avec des attaques typographiques auto-générées [papier]
- Les images sont d'Achille le talon d'alignement: exploitation des vulnérabilités visuelles pour les modèles de langue multimodale jailbreaking [papier]
- Figstep: Jailbreaking de grands modèles de langue de vision via des invites visuelles typographiques [papier]
- Instructta: attaque ciblée réglée par l'instruction pour les grands modèles de langue de vision [papier]
- Abuser des images et des sons pour l'injection d'instructions indirecte dans des LLM multimodales [papier]
- Exemples adversaires visuels des modèles de grande langue alignés par jailbreak [document]
- Jailbreak en morceaux: Attaques adversaires de composition contre les modèles de langage multimodal [papier]
- Jouez au jeu de devinettes avec LLM: Attaque de jailbreak indirecte avec des indices implicites [papier]
- Fuzzllm: un cadre fuzzing nouveau et universel pour découvrir de manière proactive les vulnérabilités de jailbreak dans les modèles de grande langue [papier]
- GPTFuzzer: Red Forced Formed Language Modèles avec des invites à jailbreak généré par automatiquement [Paper]
- Packer rapide: tromper les LLM par l'instruction de composition avec des attaques cachées [papier]
- Deepinception: hypnotiser le modèle de grande langue à être jailbreaker [papier]
- Un loup dans les vêtements de mouton: les invites de jailbreak imbriquées généralisées peuvent tromper facilement de grands modèles de langue [papier]
- Alignement de la sécurité dans les tâches NLP: résumé faiblement aligné en tant qu'attaque dans le contexte [document]
- Surcharge cognitive: des modèles de jailbreaks de grands langues avec une pensée logique surchargée [papier]
- Puzzles de puzzle: diviser des questions nocives pour jailbreaker des modèles de gros langues [papier]
- L'audio est le talon d'Achille: Red Teaming Audio Large Multimodal Models [Paper]
Généralisation de la généralisation
Langues
- Une enquête transversale sur les attaques de jailbreak dans les modèles de grande langue [document]
- La barrière linguistique: disséquer les défis de sécurité des LLM dans des contextes multilingues [papier]
- Attaque de sandwich: Attaque adaptative du mélange multicangue sur LLMS [papier]
- Attaque de la porte dérobée contre la traduction machine multilingue [papier]
- Défis de jailbreak multilingue dans les modèles de grande langue [document]
- Langues à faible ressource jailbreak GPT-4 [papier]
Chiffrer
- Utilisation d'hallucinations pour contourner le filtre de GPT4 [papier]
- L'effet papillon de la modification des invites: comment les petits changements et les jailbreaks affectent les performances du modèle de langue grande [papier]
- Leur faire demander et répondre: jailbreaking de grands modèles de langue dans quelques requêtes via un déguisement et une reconstruction [papier]
- PRP: Propagation de perturbations universelles pour attaquer les rails de garde du modèle de grande langue [papier]
- GPT-4 est trop intelligent pour être en sécurité: chat furtif avec LLMS via Cipher [papier]
- La ponctuation est importante! Attaque de porte dérobée furtive pour les modèles de langue [papier]
Personnification
- Pied dans la porte: Comprendre le modèle de grande langue jailbreaking via la psychologie cognitive [document]
- PSYSAFE: Un cadre complet pour les attaques, la défense et l'évaluation basées sur la psychologie de la sécurité des systèmes multi-agents [document]
- Comment Johnny peut persuader les LLMS de les jailbreaker: repenser la persuasion de défier la sécurité de l'IA par l'humanisation des LLM [papier]
- Jailbreaks à boîte noire évolutive et transférable pour les modèles de langues via la modulation Persona [document]
- Qui est Chatgpt? Benchmarking LLMS de la représentation psychologique à l'aide de Psychobench [papier]
- Exploitation de modèles de langue importants (LLM) à travers des techniques de tromperie et des principes de persuasion [document]
Manipulation du modèle
Attaques de porte dérobée
- Shadowcast: Attaques d'empoisonnement aux données furtives contre les modèles de vision en langue visuelle [Papier]
- Agents dormeurs: entraînement des LLM trompeurs qui persistent grâce à l'entraînement en matière de sécurité [papier]
- Qu'y a-t-il dans vos données "sûres" ?: L'identification des données bénignes qui cassent la sécurité [papier]
- Attaques d'intoxication aux données contre les méthodes d'évaluation des politiques hors politique [Papier]
- BADEDIT: Modèles de grande langue en arrière par édition de modèle [papier]
- Best-of-Venom: attaquant RLHF en injectant les données de préférence empoisonnées [papier]
- Apprendre à empoisonner les grands modèles de langue pendant le réglage de l'instruction [papier]
- Explorer les vulnérabilités de porte dérobée des modèles de chat [papier]
- Instructions en tant que bornes: vulnérabilités de porte dérobée du réglage des instructions pour les grands modèles de langue [papier]
- Forcer des modèles génératifs à dégénérer ceux: la puissance des attaques d'empoisonnement des données [papier]
- Un non-alignement furtif et persistant sur les modèles de grande langue via des injections de porte dérobée [papier]
- Attaque d'activation de la porte dérobée: Attaquez de grands modèles de langage en utilisant la direction d'activation pour l'alignement de sécurité [papier]
- Sur l'exploitabilité de l'apprentissage du renforcement avec des commentaires humains pour les modèles de langue importants [document]
- Mitigation de la porte dérobée du temps de test pour les modèles de langue de grande boîte noire avec des démonstrations défensives [papier]
- Barnités de jailbreak universelles de la rétroaction humaine empoisonnée [papier]
Risques de réglage fin
- Lora-As-An-Attack! Piercing LLM Safety dans le scénario de partage et de jeu [papier]
- Désalignement émulé: l'alignement de sécurité pour les modèles de grands langues peut se retourner contre vous! [Papier]
- LORA Fine-Tuning annule efficacement l'entraînement en matière de sécurité en Llama 2-Chat 70b [papier]
- Badllama: Retrait à moindre coût Fonction de sécurité du lama 13b 2-Chat [papier]
- Modèle de langue Unalignement: équipe rouge paramétrique pour exposer les dommages et les biais cachés [papier]
- Retrait des protections RLHF dans GPT-4 via un réglage fin [papier]
- Sur la sécurité des modèles de grande langue open source: l'alignement les empêche-t-il vraiment d'être mal utilisés? [Papier]
- Alignement de l'ombre: la facilité de renversement des modèles de langage alignés en toute sécurité [papier]
- Les modèles de langage alignés à réglage fin compromettent la sécurité, même lorsque les utilisateurs n'ont pas l'intention de le faire! [Papier]
Chercheur d'attaque
Chercheurs de suffixes
- CRINCTING4Debugging: Modèles de diffusion de texte à l'image en équipe rouge en trouvant des invites problématiques [papier]
- Du bruit à la clarté: démêler le suffixe contradictoire d'attaques de modèles de gros langues via la traduction des incorporations de texte [papier]
- Attaques contradictoires rapides sur les modèles de langue dans une minute de GPU [papier]
- Modèle de langue basé sur le gradient Forme RED CONDUCTION [PAPIER]
- Attaques d'injection rapides automatiques et universelles contre les grands modèles de langue [papier]
- $ textit {linkprompt} $ : Attaques contradictoires naturelles et universelles sur des modèles de langage basés sur un invite [Papier]
- Exécutif neuronal: L'apprentissage (et l'apprentissage de) l'exécution déclenche des attaques d'injection rapides [papier]
- LLMS de premier plan aligné par la sécurité avec des attaques adaptatives simples [papier]
- Optimisation rapide pour le jailbreaking LLMS via l'exploitation subconsciente et l'échopraxie [document]
- Autodan: Attaques adversaires basées sur le gradient interprétable contre les grands modèles de langage [document]
- Attaques contradictoires universelles et transférables contre les modèles de langage aligné [Papier]
- Réglage à grande échelle pour les modèles de grands langues pour évaluer les biais [papier]
- Trojllm: Une attaque rapide de Troie à boîte noire sur des modèles de grands langues [papier]
- Autodan: la génération de jailbreaks furtifs invite à des modèles de gros langues alignés [document]
Chercheurs rapides
Modèle de langue
- Provoquer des comportements de modèle de langue en utilisant des modèles de langage inverse [papier]
(2023)
- Dans l'ensemble, la façon dont vous le demandez: méthode simple de boîte noire pour les attaques de jailbreak [papier]
- Attaques contradictoires sur GPT-4 via une simple recherche aléatoire [papier]
- Taste: distraire les grands modèles de langue pour l'attaque automatique de jailbreak [papier]
- Modèles de langage en équipe rouge avec des modèles de langue [papier]
- Un LLM peut se tromper: une attaque contradictoire basée sur la base [papier]
- Jailbreaking Black Box Modèles de grande langue dans vingt requêtes [papier]
- Tree des attaques: LLMS Black-Box Jailbreaking automatiquement [papier]
- AART: Équipe rouge assistée par AI avec une génération de données diversifiée pour les nouvelles applications alimentées par LLM [document]
- Dala: une attaque adversaire basée sur la distribution LORA contre les modèles de langue [papier]
- JAB: AUGMENTATION DES CHOSIFICATION DES COMPRISSAGES ET DE CROIRE [PAPIER]
- Aucune infraction prise: provoquer une offensivité des modèles de langues [papier]
- Loft: Fonction de proxy local pour améliorer la transférabilité des attaques contradictoires contre le modèle grand langage [document]
Décodage
- Jailbrement faible à fort sur les modèles de grande langue [document]
- Cold-Attack: LLMS jailbreaking avec furtivité et contrôlabilité [papier]
Algorithme génétique
- Mirror Semantic Jailbreak: un jailbreak basé sur l'algorithme génétique invite à des LLMs open source [papier]
- Ouvrez le sésame! Boîte noire universelle jailbreaking de grands modèles de langue [papier]
Apprentissage du renforcement
- SneakyProrompt: Modèles génératifs de texto jailbreaking [papier]
- Red Teaming Game: un cadre théorique de jeu pour les modèles de langage d'équipe rouge [papier]
- Explorer, établir, exploiter: modèles de langage en équipe rouge à partir de zéro [papier]
- Dévasser la toxicité implicite dans les modèles de grande langue [papier]
Défenses
Temps de formation défenses
Rlhf
- Réglage de sécurité configurable des modèles de langue avec des données de préférence synthétique [papier]
- Amélioration de la sécurité LLM via l'optimisation des préférences directes contrainte [papier]
- SAFE RLHF: Apprentissage de renforcement sûr de la rétroaction humaine [document]
- BEAVERTAILS: Vers l'amélioration de l'alignement de sécurité de LLM via un ensemble de données de réflexion humaine [papier]
- Instruct plus sûr: alignement des modèles de langage avec des données de préférence automatisées [papier]
Réglage fin
- Sauveghen: atténuer la génération de contenu dangereuse dans les modèles de texte à l'image [papier]
- Fonction de sécurité à la sécurité à (presque) sans coût: une base de référence pour la vision des modèles de langage grand [papier]
- Développer des modèles de grande langue sûrs et responsables - un cadre complet [document]
- Immunisation contre les attaques de réglage fin nuisibles [papier]
- Atténuer l'attaque de jailbreak à réglage fin avec un alignement amélioré de la porte dérobée [papier]
- Alignement dialectique: résolution de la tension de 3H et menaces de sécurité des LLM [papier]
- Élagage pour la protection: augmentation de la résistance au jailbreak dans les LLM alignées sans réglage fin [papier]
- Eraser: Débriller la défense dans les modèles de grande langue via des connaissances nocives désapprentissage [papier]
- Deux têtes valent mieux qu'un: Poe imbriqué pour une défense robuste contre les multiples-dos [papier]
- Défendre contre les attaques de porte dérobée de l'obligation de poids pour le réglage fin et économe en paramètres [papier]
- Llamas réglés par la sécurité: leçons de l'amélioration de la sécurité des modèles de grandes langues qui suivent les instructions [papier]
- Défendre contre les attaques révolutionnaires de l'alignement via LLM [papier] aligné robustement aligné
- Apprenez quoi ne pas apprendre: vers la sécurité générative dans les chatbots [papier]
- JATMO: Défense d'injection rapide par la fusion spécifique à la tâche [document]
Défenses de temps d'inférence
Incitation
- Adashield: Sauvegarde des modèles de langage multimodal à partir d'une attaque basée sur la structure via un bouclier adaptatif invitant [papier]
- Break the Breakout: réinventer la défense de LM contre les attaques de jailbreak avec l'auto-réinitiation [papier]
- Sur la sauvegarde invite pour les modèles de grands langues [papier]
- PROMPT SIGNÉ: Une nouvelle approche pour empêcher des attaques d'injection rapides contre les applications intégrées à LLM [document]
Xuchen Suo (2024)
- L'analyse de l'intention fait du LLMS un bon défenseur jailbreak [document]
- Défendre contre les attaques d'injection rapides indirectes avec des projecteurs [papier]
- Assurer des sorties sûres et de haute qualité: une approche de bibliothèque de lignes directrices pour les modèles de langage [document]
- Attaque d'injection rapide générative guidée par des objectifs sur de grands modèles de langue [papier]
- STRUQ: Défendre contre l'injection rapide avec des requêtes structurées [papier]
- Supporux Bob se bat contre le jailbreaking via un réglage contradictoire rapide [papier]
- Auto-garde: autonomiser le LLM pour se protéger [papier]
- Utiliser l'apprentissage dans le contexte pour améliorer la sécurité du dialogue [document]
- Défendre de grands modèles de langue contre les attaques jailbreakées par la hiérarchisation des objectifs [document]
- Bergeron: Combation d'attaques contradictoires à travers un cadre d'alignement basé sur la conscience [Papier]
Ensemble
- Combattre les attaques contradictoires avec un débat multi-agents [papier]
- Trustagent: vers des agents basés sur la LLM sûrs et dignes de confiance par le biais de l'agent Constitution [document]
- Autodefense: Défense LLM multi-agents contre les attaques de jailbreak [papier]
- Apprenez à déguiser: Évitez les réponses de refus dans la défense de LLM via un jeu d'attaquant multi-agents [Papier] [Papier]
- Jailbreaker en prison: Déplacement de la défense cible pour les modèles de grands langues [document]
Garde-corps
Gardien d'entrée
- UFID: un cadre unifié pour la détection de porte dérobée au niveau de l'entrée sur les modèles de diffusion [papier]
- Optimiseur invite universel pour la génération de texte à l'image sûre [papier]
- Les yeux fermés, sécurité sur: protection des LLM multimodales via une transformation de texte à texte [papier]
- Les yeux fermés, sécurité sur: protection des LLM multimodales via une transformation de texte à texte [papier]
- MLLM-Protector: Assurer la sécurité de MLLM sans nuire à la performance [papier]
- Ajout de l'atténuation de la toxicité au temps d'inférence pour la traduction multimodale et massivement multilingue [papier]
- Une méthode basée sur les mutations pour la détection d'attaque jailbreaking multimodale [document]
- Détection et défense contre les attaques importantes contre les assistants virtuels intégrés par LLM préconditionnés [document]
- SHIELDLM: REMOLER LLMS en tant que détecteurs de sécurité alignés, personnalisables et explicables [papier]
- Défense de la traduction aller-retour contre le modèle de grande langue Attaques jailbreakées [papier]
- Couchette de gradient: détecter les attaques de jailbreak sur des modèles de grands langues en explorant les paysages de perte de refus [papier]
- La défense de jailbreak invite via un jeu contradictoire en contexte [papier]
- SPML: un DSL pour défendre les modèles de langage contre les attaques rapides [papier]
- Classificateur de sécurité robuste pour les grands modèles de langue: Bouclier invite adversaire [papier]
- Contrôle de l'IA: Amélioration de la sécurité malgré la subversion intentionnelle [papier]
- MAATPHOR: Analyse des variantes automatisées pour les attaques d'injection rapides [papier]
Gardien de sortie
- Défendre LLMS contre les attaques de jailbreaks via Backtranslation [document]
- Une optimisation rapide robuste pour la défense des modèles de langue contre les attaques jailbreakées [papier]
- Le jailbreak est mieux résolu par définition [document]
- LLM Autofense: Par auto-examen, les LLM savent qu'ils sont trompés [papier]
Guard-rails d'entrée et de sortie
- Rigorllm: garde-corps résilient pour les modèles de grande langue contre le contenu indésirable [papier]
- NEMO Guar-rédacts: une boîte à outils pour les applications LLM contrôlables et sûrs avec des rails programmables [papier]
- LLAMA GURD: SAFEGUARD ENTRE-ETPUT-OUT-ENTRE-ENTRÉE pour les conversations humaines [Papier]
Défenses du suffixe adversaire
- Défendre de grands modèles de langue contre les attaques de jailbreak par lissage sémantique [papier]
- Certifier la sécurité LLM contre l'incidence contradictoire [papier]
- Défenses de base pour les attaques contradictoires contre les modèles de langage aligné [Papier]
- Détection des attaques du modèle de langue avec perplexité [papier]
- Smoothllm: Défendre de grands modèles de langue contre les attaques jailbreakées [papier]
- Détection invite adversaire au niveau du jeton basé sur des mesures de perplexité et des informations contextuelles [papier]
Décodage des défenses
- Vers la sécurité et les réponses équilibrées via des modèles de langage de grande langue contrôlables [papier]
- SAFEDECODING: Défendre contre les attaques de jailbreak via le décodage conscient de la sécurité [papier]
Évaluations
Mesures d'évaluation
Attaquer les mesures
- Un nouveau cadre d'évaluation pour évaluer la résilience contre les attaques d'injection rapides dans les modèles de gros langues [document]
- Attackeval: Comment évaluer l'efficacité de l'attaque de jailbreak sur des modèles de grandes langues [document]
- Jetez un œil à ça! Repenser comment évaluer le modèle de langue jailbreak [papier]
Métriques de défense
- Comment (non) éthique des réponses centrées sur l'instruction sont-elles des LLMS? Dévasser les vulnérabilités des garde-corps de sécurité aux requêtes nocives [papier]
- L'art de la défense: une évaluation systématique et une analyse des stratégies de défense LLM sur la sécurité et la surfensivité [papier]
Repères d'évaluation
- Jailbreakbench: une référence ouverte de robustesse pour les modèles de grande langue jailbreaking [papier]
- Sécurité Prorompt: une revue systématique des ensembles de données ouverts pour évaluer et améliorer la sécurité des modèles de langues [document]
- Des dommages à la représentation aux dommages de la qualité de service: une étude de cas sur les garanties de sécurité LLAMA 2 [papier]
- Salade Bench: une référence de sécurité hiérarchique et complète pour les modèles de gros langues [papier]
- Un rejet fort pour les jailbreaks vides [papier]
- Harmbench: un cadre d'évaluation standardisé pour une équipe rouge automatisée et un refus robuste [papier]
- Sécurité: évaluation de la sécurité des grands modèles de langage avec des questions à choix multiples [papier]
- XSTEST: une suite de tests pour identifier les comportements de sécurité exagérés dans les modèles de grande langue [papier]
- Do-Not-Answer: un ensemble de données pour évaluer les garanties dans LLMS [papier]
- Évaluation de la sécurité des modèles chinois de grande langue [document]
- Modèles de langage en équipe rouge Pour réduire les dommages: méthodes, comportements de mise à l'échelle et leçons apprises [papier]
- Ensemble de données sur les dés: diversité dans l'évaluation de l'IA conversationnelle pour la sécurité [document]
- Jailbreak latent: une référence pour évaluer la sécurité des textes et la robustesse des sorties des modèles de gros langues [papier]
- Tensor Trust: Attaques d'injection rapide interprétables d'un jeu en ligne [papier]
- Les LLM peuvent-ils suivre des règles simples? [Papier]
- SimpleSafetytests: une suite de tests pour identifier les risques de sécurité critiques dans les modèles de grande langue [papier]
- L'analyse comparative et la défense contre les attaques d'injection rapides indirectes sur des modèles de grands langues [papier]
- SC-SAPETY: Une question de sécurité contradictoire à questions ouvertes à plusieurs rondes pour les modèles de grandes langues en chinois [papier]
- Marcher une corde raide - Évaluer les modèles de grands langues dans des domaines à haut risque [papier]
Applications
Domaines d'application
Agent
- MM-SAPETYBENCH: Une référence pour l'évaluation de la sécurité des modèles de langage multimodal en grand [papier]
- Agent Smith: Une seule image peut jailbreaker un million d'agents LLM multimodaux exponentiellement rapidement [papier]
- Combien de licornes y a-t-il dans cette image? Une référence d'évaluation de la sécurité pour la vision LLMS [papier]
- Vers une équipe rouge dans une traduction multimodale et multilingue [papier]
- Jailbreakv-28K: une référence pour évaluer la robustesse des modèles multimodaux en grande langue contre les attaques de jailbreak [papier]
- Red fait équipe GPT-4V: le GPT-4V est-il sûr contre les attaques de jailbreak Uni / Multi-modal? [Papier]
- R-Judge: Sensibilisation au risque de sécurité récompensée pour les agents LLM [papier]
- GPT dans les vêtements de mouton: le risque de GPTS personnalisé [papier]
- Épée à outils: dévoiler les problèmes de sécurité des modèles de grands langues dans l'apprentissage des outils sur trois étapes [papier]
- Une maison tremblante de cartes? Mappage des attaques contradictoires contre les agents linguistiques [papier]
- Adoption rapide, risques cachés: le double impact de la personnalisation du modèle de grande langue [document]
- Évaluation des attaques rapides et sécurité axées sur les objectifs pour les LLM [papier]
- Identification des risques des agents LM avec un bac à sable émué par LM [papier]
- CVALUES: Mesurer les valeurs des modèles chinois de grande langue de la sécurité à la responsabilité [papier]
- Exploiter les nouvelles API GPT-4 [papier]
- Génies maléfiques: plonger dans la sécurité des agents basés sur LLM [papier]
- Évaluation des risques d'injection rapide dans plus de 200 GPT personnalisés [papier]
Programmation
- Deceptprompt: Exploiter la génération de code dirigée par LLM via des instructions sur le langage naturel contradictoire [papier]
- Chatgpt empoisonné trouve du travail pour les mains inactives: explorer les pratiques de codage des développeurs avec des suggestions non sécurisées de modèles d'IA empoisonnés [papier]
Risques d'application
Injection rapide
- Comportement de mise à l'échelle de la traduction automatique avec de grands modèles de langage sous des attaques d'injection rapides [papier]
- Des injections rapides vers les attaques d'injection SQL: quelle est la protection de votre application Web intégrée par LLM? [Papier]
- Pas ce que vous avez inscrit: compromettre les applications intégrées au monde réel avec une injection rapide indirecte [papier]
- Attaque d'injection rapide contre les applications intégrées à LLM [document]
Extraction rapide
- Jailbreaking GPT-4V via des attaques auto-adversaires avec des invites système [papier]
- Des attaques de vol rapide contre les grands modèles de langue [papier]
- Extraction provide efficace des modèles de langues [papier]
Équipe rouge multimodale
Stratégies d'attaque
Conformité à l'achèvement
- Apprentissage inversaire adversaire à quelques coups sur les modèles de langue visuelle [papier]
- Contexte de détournement dans les grands modèles multimodaux [papier]
Indirection d'instruction
- Sur la robustesse des grands modèles multimodaux contre les attaques contradictoires de l'image [papier]
- Les images sont d'Achille le talon d'alignement: exploitation des vulnérabilités visuelles pour les modèles de langue multimodale jailbreaking [papier]
- Vision-llms peut se tromper avec des attaques typographiques auto-générées [papier]
- Exemples adversaires visuels des modèles de grande langue alignés par jailbreak [document]
- Jailbreak en morceaux: Attaques adversaires de composition contre les modèles de langage multimodal [papier]
- Abuser des images et des sons pour l'injection d'instructions indirecte dans des LLM multimodales [papier]
- Figstep: Jailbreaking de grands modèles de langue de vision via des invites visuelles typographiques [papier]
- Instructta: attaque ciblée réglée par l'instruction pour les grands modèles de langue de vision [papier]
Attaquer les chercheurs
Chercheurs d'images
- Attaque de diffusion: tirant parti de diffusion stable pour l'image naturaliste attaquant [papier]
- Sur la robustesse adversaire des modèles de fondations multimodales [Papier]
- Dans quelle mesure le barde de Google est-il robuste aux attaques d'image adversaires? [Papier]
- Attaques de porte dérobée à temps de test contre les modèles de langue multimodale de grande langue [papier]
Cross Modality Searchers
- SA-Attack: Amélioration de la transférabilité contradictoire des modèles de pré-formation en langue visuelle via l'auto-auteur [Papier]
- DIFUSION MMA: Attaque multimodale contre les modèles de diffusion [Papier]
- Amélioration de la transférabilité adversaire des modèles de pré-formation en langue visuelle grâce à une interaction multimodale collaborative [Papier]
- Une image vaut 1000 mensonges: transférabilité des images contradictoires à travers les invites sur les modèles de vision [papier]
Autres
- SneakyProrompt: Modèles génératifs de texto jailbreaking [papier]
- CRINCTING4Debugging: Modèles de diffusion de texte à l'image en équipe rouge en trouvant des invites problématiques [papier]
Défense
Défenses de garde
- UFID: un cadre unifié pour la détection de porte dérobée au niveau de l'entrée sur les modèles de diffusion [papier]
- Optimiseur invite universel pour la génération de texte à l'image sûre [papier]
- Les yeux fermés, sécurité sur: protection des LLM multimodales via une transformation de texte à texte [papier]
- Les yeux fermés, sécurité sur: protection des LLM multimodales via une transformation de texte à texte [papier]
- MLLM-Protector: Assurer la sécurité de MLLM sans nuire à la performance [papier]
- Ajout de l'atténuation de la toxicité au temps d'inférence pour la traduction multimodale et massivement multilingue [papier]
- Une méthode basée sur les mutations pour la détection d'attaque jailbreaking multimodale [document]
Autres défenses
- Sauveghen: atténuer la génération de contenu dangereuse dans les modèles de texte à l'image [papier]
- Adashield: Sauvegarde des modèles de langage multimodal à partir d'une attaque basée sur la structure via un bouclier adaptatif invitant [papier]
- Fonction de sécurité à la sécurité à (presque) sans coût: une base de référence pour la vision des modèles de langage grand [papier]
Application
Agents
- Red fait équipe GPT-4V: le GPT-4V est-il sûr contre les attaques de jailbreak Uni / Multi-modal? [Papier]
- Jailbreakv-28K: une référence pour évaluer la robustesse des modèles multimodaux en grande langue contre les attaques de jailbreak [papier]
- Agent Smith: Une seule image peut jailbreaker un million d'agents LLM multimodaux exponentiellement rapidement [papier]
- MM-SAPETYBENCH: Une référence pour l'évaluation de la sécurité des modèles de langage multimodal en grand [papier]
- Combien de licornes y a-t-il dans cette image? Une référence d'évaluation de la sécurité pour la vision LLMS [papier]
- Vers une équipe rouge dans une traduction multimodale et multilingue [papier]
Repères
- Nibbler adversaire: une méthode ouverte en équipe rouge pour identifier les divers dommages dans la génération de texte à l'image [papier]
- Modèles de langage visuel en équipe rouge [papier]
Citation
@article{lin2024achilles,
title={Against The Achilles' Heel: A Survey on Red Teaming for Generative Models},
author={Lizhi Lin and Honglin Mu and Zenan Zhai and Minghan Wang and Yuxia Wang and Renxi Wang and Junjie Gao and Yixuan Zhang and Wanxiang Che and Timothy Baldwin and Xudong Han and Haonan Li},
year={2024},
journal={arXiv preprint, arXiv:2404.00629},
primaryClass={cs.CL}
}