Openrededeaming
Nuestra encuesta: contra el talón de Aquiles: una encuesta sobre equipo rojo para modelos generativos [papel]
Para obtener una comprensión integral de los posibles ataques contra Genai y desarrollar salvaguardas sólidas. Nosotros:
- Encuesta más de 120 documentos, cubre la tubería de la taxonomía de riesgos, las estrategias de ataque, las métricas de evaluación y los puntos de referencia a los enfoques defensivos.
- Proponga una taxonomía integral de las estrategias de ataque de LLM basadas en las capacidades inherentes de los modelos desarrollados durante el pretratenamiento y el ajuste fino.
- Implementó más de 30+ métodos de equipo automático de Auto Red.
Para mantenerse actualizado o probar nuestra herramienta RedTeaming, suscríbase a nuestro boletín en nuestro sitio web o únase a nosotros en Discord.
Últimos documentos sobre el equipo rojo
Encuestas, taxonomías y más
Encuestas
- Agentes personales de LLM: información y encuestas sobre la capacidad, eficiencia y seguridad [documento]
- Trustllm: confiabilidad en modelos de idiomas grandes [papel]
- Taxonomía de riesgos, mitigación y evaluación de referencia de sistemas de modelos de idiomas grandes [documento]
- Desafíos de seguridad y privacidad de modelos de idiomas grandes: una encuesta [documento]
Encuestas sobre ataques
- Prueba robusta de la resiliencia del modelo de idioma IA con nuevas indicaciones adversas [papel]
- No me escuches: Comprender y explorar indicaciones de jailbreak de modelos de idiomas grandes [papel]
- Desglosando las defensas: una encuesta comparativa de ataques a modelos de idiomas grandes [papel]
- LLM Jailbreak Attack versus Defense Techniques: un estudio integral [documento]
- Una categorización temprana de ataques de inyección inmediata en modelos de idiomas grandes [papel]
- Evaluación integral de ataques de jailbreak contra LLM [documento]
- "Do Anything Now": caracterizar y evaluar las indicaciones de jailbreak en los modelos de idiomas grandes [papel]
- Encuesta de vulnerabilidades en modelos de idiomas grandes revelados por ataques adversos [documento]
- Ignore este título y hackaprompt: Exposición de vulnerabilidades sistémicas de LLM a través de una competencia de piratería de inmediato a escala global [documento]
- Ataques y defensas adversas en modelos de idiomas grandes: amenazas antiguas y nuevas [papel]
- Engañar a LLMS en desobediencia: formalizar, analizar y detectar jailbreaks [documento]
- Invocar un demonio y bíntalo: una teoría fundamentada del equipo rojo LLM en el salvaje [Paper]
- Una encuesta integral de técnicas de ataque, implementación y estrategias de mitigación en modelos de idiomas grandes [documento]
- Más allá de los límites: una encuesta integral de ataques transferibles a los sistemas de IA [documento]
- Más allá de los límites: una encuesta integral de ataques transferibles a los sistemas de IA [documento]
Encuestas sobre riesgos
- Mapeo de paisajes de seguridad de Mapping LLM: una propuesta integral de evaluación de riesgos de los interesados [documento]
- Asegurar modelos de idiomas grandes: amenazas, vulnerabilidades y prácticas responsables [documento]
- Privacidad en modelos de idiomas grandes: ataques, defensas y direcciones futuras [documento]
- Más allá de las salvaguardas: explorar los riesgos de seguridad de chatgpt [papel]
- Hacia modelos de lenguaje generativo más seguros: una encuesta sobre riesgos de seguridad, evaluaciones y mejoras [documento]
- Uso de LLM para fines ilícitos: amenazas, medidas de prevención y vulnerabilidades [documento]
- Desde chatgpt a amenazinggpt: impacto de la IA generativa en ciberseguridad y privacidad [documento]
- Identificar y mitigar las vulnerabilidades en aplicaciones integradas en LLM [documento]
- El poder de la IA generativa en la ciberseguridad: oportunidades y desafíos [documento]
Taxonomías
- Coaccionando los LLM para hacer y revelar (casi) cualquier cosa [papel]
- La historia y los riesgos del aprendizaje de refuerzo y la retroalimentación humana [documento]
- De chatbots a phishbots? - Prevención de las estafas de phishing creadas con ChatGPT, Google Bard y Claude [Paper]
- Jailbreaking Chatgpt a través de la ingeniería rápida: un estudio empírico [documento]
- Generación de ataques de phishing usando chatgpt [papel]
- Personalización dentro de los límites: un marco de taxonomía de riesgos y políticas para la alineación de modelos de idiomas grandes con retroalimentación personalizada [documento]
- Decepción de IA: una encuesta de ejemplos, riesgos y posibles soluciones [documento]
- Una taxonomía del riesgo de seguridad para modelos de idiomas grandes [papel]
Posición
- Teaming rojo para IA generativa: ¿bala de plata o teatro de seguridad? [Papel]
- La ética de la interacción: mitigando las amenazas de seguridad en LLM [documento]
- Un puerto seguro para la evaluación de IA y el equipo rojo [papel]
- Chatgpt de equipo rojo a través de Jailbreaking: sesgo, robustez, confiabilidad y toxicidad [papel]
- La promesa y el peligro de la inteligencia artificial: Violet Teaming ofrece un camino equilibrado [papel]
Fenómenos
- Segmento de teatro rojo cualquier modelo [papel]
- Una comprensión mecanicista de los algoritmos de alineación: un estudio de caso sobre DPO y toxicidad [documento]
- Hable por turno: vulnerabilidad de seguridad de modelos de idiomas grandes en diálogo múltiple [papel]
- Las compensaciones entre la alineación y la ayuda en los modelos de idiomas [papel]
- Evaluar la fragilidad de la alineación de seguridad a través de la poda y las modificaciones de bajo rango [papel]
- "Es un juego justo", ¿o es? Examinando cómo los usuarios navegan por los riesgos y beneficios de la divulgación al usar agentes conversacionales basados en LLM [documento]
- Explotación del comportamiento programático de LLM: doble uso a través de ataques de seguridad estándar [papel]
- ¿Pueden los modelos de idiomas grandes cambiar la preferencia del usuario adversarmente? [Papel]
- ¿Están alineadas las redes neuronales alineadas adversas? [Papel]
- Alineación falsa: ¿Los LLM están realmente alineados bien? [Papel]
- Análisis de causalidad para evaluar la seguridad de los modelos de idiomas grandes [papel]
- Ataques de transferencia y defensas para modelos de idiomas grandes en tareas de codificación [papel]
Estrategias de ataque
Cumplimiento de finalización
- Aprendizaje adversario de pocos disparos en modelos en idioma de visión [papel]
- Contexto de secuestro en grandes modelos multimodales [papel]
- Genial, ahora escriba un artículo sobre eso: el Crescendo Multi-Turn LLM Jailbreak Attack [Paper]
- Badchain: solicitante de la cadena de pensamiento de la puerta trasera para los modelos de idiomas grandes [papel]
- Vulnerabilidades universales en modelos de idiomas grandes: ataques de puerta trasera para aprendizaje en contexto [papel]
- No importa: anulación de instrucciones y moderación en modelos de idiomas grandes [papel]
- Modelos de lenguaje grande de teatro rojo que usan una cadena de expresiones para alineación de seguridad [papel]
- Ataques de puerta trasera para aprendizaje en contexto con modelos de idiomas [papel]
- Jailbreak y guardia modelos de lenguaje alineados con solo unas pocas demostraciones en contexto [papel]
- Análisis de la tendencia de respuesta inherente de LLM: Jailbreak de instrucciones del mundo real [documento]
- Omitiendo el entrenamiento de seguridad de LLM de código abierto con ataques de cebado [papel]
- Silacando modelos de idiomas grandes a través del aprendizaje adversario en contexto [papel]
Indirección de instrucciones
- Sobre la robustez de los grandes modelos multimodales contra los ataques adversos de la imagen [papel]
- Vision-llms puede engañarse con ataques tipográficos autogenerados [papel]
- Las imágenes son el talón de alineación de Aquiles: explotación de vulnerabilidades visuales para modelos de lenguaje grande de jailbreaking [papel] [papel]
- Figstep: modelos de lenguaje de visión grande de Jilbreaking a través de indicaciones visuales tipográficas [papel]
- InstructTA: Ataque dirigido a instrucciones para grandes modelos de lenguaje de visión [papel]
- Abusar de imágenes y sonidos para la inyección de instrucciones indirectas en LLMS multimodal [papel]
- Ejemplos de adversario visual Jailbreak alineó modelos de lenguaje grande [papel]
- Jailbreak en piezas: ataques adversos compositivos en modelos de lenguaje multimodal [papel]
- Juega Game Game con LLM: Ataque indirecto de jailbreak con pistas implícitas [papel]
- Fuzzllm: un marco difuso novedoso y universal para descubrir proactivamente vulnerabilidades de jailbreak en modelos de idiomas grandes [papel]
- GPTFUZZER: Red Modelos de idiomas de equipo rojo con indicaciones de jailbreak generadas por auto
- Packer de inmediato: engañando LLM a través de la instrucción compositiva con ataques ocultos [papel]
- Deepinción: hipnotizar el modelo de lenguaje grande para ser jailbreaker [papel]
- Un lobo con ropa de oveja: las indicaciones generalizadas de jailbreak pueden engañar a los modelos de idiomas grandes fácilmente [papel]
- Alineación de seguridad en tareas de PNL: resumen débilmente alineado como un ataque en contexto [documento]
- Sobrecarga cognitiva: modelos de lenguaje grande de jailbreak con pensamiento lógico sobrecargado [papel]
- Rompecabezas: división de preguntas dañinas para Jailbreak Modelos de idiomas grandes [papel]
- Audio es el talón de Aquiles: modelos multimodales grandes de audio de equipo rojo [papel]
Generalización deslizamiento
Lenguas
- Una investigación en forma de lenguaje sobre ataques de jailbreak en modelos de idiomas grandes [papel]
- La barrera del idioma: diseccionar desafíos de seguridad de los LLM en contextos multilingües [papel]
- Ataque de sándwich: ataque adaptativo de mezcla múltiple en LLM [papel]
- Ataque de puerta trasera a traducción automática multilingüe [papel]
- Desafíos multilingües de jailbreak en modelos de idiomas grandes [papel]
- Idiomas de baja recursos Jailbreak GPT-4 [papel]
Cifrar
- Uso de alucinaciones para evitar el filtro de GPT4 [papel]
- El efecto de la mariposa de alterar las indicaciones: cómo los pequeños cambios y los jailbreaks afectan el rendimiento del modelo de lenguaje grande [papel]
- Haciéndoles preguntar y responder: modelos de lenguaje grande en jailbreak en pocas consultas a través del disfraz y la reconstrucción [documento]
- PRP: propagación de perturbaciones universales para atacar grandes rieles de protección de modelos de idioma [papel]
- GPT-4 es demasiado inteligente para estar seguro: chat sigiloso con LLM a través de cifrado [papel]
- ¡La puntuación es importante! Ataque de puerta trasera sigilosa para modelos de idiomas [papel]
Personificación
- Pie en la puerta: Comprender el modelo de lenguaje grande Jailbreaking a través de la psicología cognitiva [documento]
- PSYSAFE: un marco integral para el ataque, la defensa y la evaluación de la seguridad del sistema de múltiples agentes [documento]
- Cómo Johnny puede persuadir a LLMS para que los camine los haga: Repensar la persuasión para desafiar la seguridad de la IA humanizando LLMS [papel]
- Jailbreaks de caja negra escalable y transferible para modelos de idiomas a través de la modulación de la personalidad [papel]
- ¿Quién es chatgpt? Benchmarking La representación psicológica de LLMS utilizando Psychobench [Paper]
- Explotación de modelos de idiomas grandes (LLM) a través de técnicas de engaño y principios de persuasión [documento]
Manipulación del modelo
Ataques de puerta trasera
- Shadowcast: Attacos de envenenamiento de datos sigilosos contra modelos en idioma de visión [papel]
- Agentes durmientes: entrenamiento de LLM engañosos que persisten a través del entrenamiento de seguridad [papel]
- ¿Qué hay en sus datos "seguros"?: Identificar datos benignos que rompen la seguridad [papel]
- Ataques de envenenamiento de datos en métodos de evaluación de políticas fuera de política [documento]
- Badedit: Backdooring Modelos de idiomas grandes mediante edición de modelos [papel]
- Mejor de la venada: atacando a RLHF inyectando datos de preferencias envenenadas [documento]
- Aprender a envenenar modelos de lenguaje grande durante la sintonización de instrucciones [papel]
- Explorando vulnerabilidades de puerta trasera de modelos de chat [papel]
- Instrucciones como puertas traseras: vulnerabilidades de puerta trasera de ajuste de instrucciones para modelos de idiomas grandes [papel]
- Forzar modelos generativos a los degenerados: el poder de los ataques de envenenamiento de datos [documento]
- Unalineación sigilosa y persistente en modelos de idiomas grandes a través de inyecciones de puerta trasera [papel]
- Ataque de activación de puerta trasera: ataques modelos de lenguaje grandes utilizando la dirección de activación para alineación de seguridad [papel]
- Sobre la explotación del aprendizaje de refuerzo con retroalimentación humana para modelos de idiomas grandes [documento]
- Mitigación de la puerta trasera del tiempo de prueba para modelos de lenguaje grande de caja negra con demostraciones defensivas [papel]
- Puertas de jailbreak universal de retroalimentación humana envenenada [documento]
Riesgos de ajuste
- Lora-as-an-atacack! Piercing LLM Safety bajo el escenario de compartir y jugar [papel]
- Desalignación emulada: ¡La alineación de seguridad para modelos de idiomas grandes puede ser contraproducente! [Papel]
- Lora ajuste fino y desabrocha eficientemente el entrenamiento de seguridad en LLAMA 2-chat 70b [papel]
- Badllama: eliminar a bajo precio de seguridad de Llama 2-Chat 13b [papel]
- Modelo de lenguaje Unalineación: Teamé rojo paramétrico para exponer daños y sesgos ocultos [papel]
- Eliminar las protecciones de RLHF en GPT-4 a través del ajuste [papel]
- Sobre la seguridad de los modelos de idiomas grandes de código abierto: ¿la alineación realmente impide que se usen mal? [Papel]
- Alineación de sombras: la facilidad de subvertir modelos de lenguaje alineados de forma segura [papel]
- Los modelos de lenguaje alineados ajustados comprometen la seguridad, ¡incluso cuando los usuarios no tienen la intención! [Papel]
Buscador de ataque
Buscadores de sufijos
- Solicitar 4Debugging: modelos de difusión de texto a imagen de textura roja encontrando indicaciones problemáticas [papel]
- Desde el ruido hasta la claridad: desentrañar el sufijo adversario de los ataques del modelo de idioma grande a través de la traducción de incrustaciones de texto [papel]
- Ataques adversos rápidos en modelos de idiomas en un minuto de GPU [papel]
- Modelo de idioma basado en gradiente Red Teaming [Paper]
- Ataques de inyección inmediata automática y universal contra modelos de idiomas grandes [papel]
- $ textit {linkprompt} $ : Ataques de adversario natural y universal en modelos de idiomas basados en aviso [papel]
- Ejecutivo neural: aprendizaje (y aprendizaje de) desencadenadores de ejecución para ataques de inyección inmediata [papel]
- LLM alineados con jilipollas alineados con jailbreak con ataques adaptativos simples [papel]
- Optimización rápida para LLMS Jailbreak a través de la explotación subconsciente y la ecpraxia [documento]
- Autodan: ataques adversos basados en gradientes interpretables en modelos de idiomas grandes [papel]
- Ataques adversos universales y transferibles a modelos de idiomas alineados [papel]
- Ajuste de programación suave para modelos de idiomas grandes para evaluar el sesgo [papel]
- TROJLLM: un ataque rápido de troyano de caja negra en modelos de idiomas grandes [papel]
- Autodan: Generación de indicadores de jailbreak sigilosos en modelos de lenguaje grande alineados [papel]
Buscadores de inmediato
Modelo
- OBJETIVA DE COMPORTADORES DE MODELO DE LANGUA UTILIZADO Modelos de lenguaje inverso [papel]
(2023)
- Todo en cómo lo pides: método simple de caja negra para ataques de jailbreak [papel]
- Ataques adversos a GPT-4 a través de una búsqueda aleatoria simple [documento]
- Tastle: distrae modelos de idiomas grandes para el ataque automático de jailbreak [papel]
- Modelos de lenguaje de equipo rojo con modelos de idiomas [papel]
- Un LLM puede engañarse a sí mismo: un ataque adversario basado en un avance [documento]
- Jailbreaking Black Box Modelos de idiomas grandes en veinte consultas [papel]
- Árbol de ataques: LLMS de cajas negras jailbreak automáticamente [papel]
- AART: AI-AI-Red Teaming con diversa generación de datos para nuevas aplicaciones con alimentación de LLM [documento]
- Dala: un ataque adversario basado en la distribución con los modelos de idiomas [papel] basado en Lora [papel]
- JAB: incremento adversario conjunto y aumento de creencias [documento]
- Sin ofensa: provocar ofensiva de los modelos de idiomas [papel]
- Loft: proxy local ajustado para mejorar la transferibilidad de los ataques adversos contra el modelo de idioma grande [papel]
Descodificación
- Jailbreak de jail débil en modelos de idiomas grandes [papel]
- Ataca en frío: LLM de jailbreak con sigilo y controlabilidad [papel]
Algoritmo genético
- Jailbreak de espejo semántico: algoritmo genético a base de jailbreak indica contra LLMS de código abierto [papel]
- ¡Abrir sésamo! Jilbreaking de cajas de caja negra universal de modelos de idiomas grandes [papel]
Aprendizaje de refuerzo
- SneakyPrompt: Modelos generativos de texto a imagen de jailbreak [papel]
- Juego de equipo rojo: un marco teórico del juego para modelos de lenguaje de equipo rojo [papel]
- Explore, establezca, explote: modelos de lenguaje de equipo rojo desde cero [papel]
- Revelando la toxicidad implícita en modelos de idiomas grandes [papel]
Defensas
Defensas de tiempo de entrenamiento
RLHF
- Ajuste de seguridad configurable de modelos de lenguaje con datos de preferencia sintética [papel]
- Mejora de la seguridad de LLM a través de la optimización de preferencia directa restringida [documento]
- Safe RLHF: refuerzo seguro aprendiendo de retroalimentación humana [documento]
- Beaverails: Hacia una mejor alineación de seguridad de LLM a través de un conjunto de datos de preferencia humana [documento]
- Instrito más seguro: alineación de modelos de lenguaje con datos de preferencia automatizados [papel]
Sintonia FINA
- Salfra: mitigar la generación de contenido inseguro en modelos de texto a imagen [papel]
- Seguridad ajustado a (casi) sin costo: una línea de base para la visión de modelos de idiomas grandes [papel]
- Desarrollo de modelos de idiomas grandes seguros y responsables: un marco integral [documento]
- Inmunización contra ataques dañinos y ajustados [papel]
- Mitigando el ataque de jailbreak de ajuste con alineación mejorada de puerta trasera [papel]
- Alineación dialéctica: resolución de la tensión de 3H y amenazas de seguridad de LLM [papel]
- Poda de protección: aumento de la resistencia de jailbreak en LLM alineados sin ajustar [papel]
- Eraser: defensa de jailbreak en modelos de idiomas grandes a través de un conocimiento dañino por desaprender [documento]
- Dos cabezas son mejores que una: Poe anidada para una defensa robusta contra Multi-Backdoors [papel]
- Defender contra ataques de puerta trasera de posterior de peso para el ajuste fino de los parámetros [papel]
- Llamas sintonizadas con seguridad: lecciones de mejorar la seguridad de los modelos de idiomas grandes que siguen las instrucciones [papel]
- Defender contra ataques que rompen la alineación a través de LLM alineado con robusta [papel]
- Aprenda qué no aprender: hacia la seguridad generativa en los chatbots [papel]
- JATMO: defensa de inyección inmediata por fineting específica de tarea [documento]
Defensas de tiempo de inferencia
Incitación
- Adashield: salvaguardar modelos multimodales de lenguaje grande del ataque basado en la estructura a través de la solicitud de escudo adaptativo [papel]
- Romper la ruptura: reinventar la defensa de LM contra los ataques de jailbreak con auto-reinicio [papel]
- En la protección de aviso para modelos de idiomas grandes [papel]
- Firmado-ProMPT: un nuevo enfoque para evitar ataques de inyección rápidos contra aplicaciones integradas de LLM [documento]
Xuchen Suo (2024)
- El análisis de intención hace de LLM un buen defensor de jailbreak [documento]
- Defender contra ataques de inyección inmediata indirecta con la atención [papel]
- Asegurar salidas seguras y de alta calidad: un enfoque de biblioteca de directriz para modelos de idiomas [papel]
- Ataque de inyección rápida generativa guiada por objetivos en modelos de idiomas grandes [papel]
- STRUQ: Defender contra la inyección inmediata con consultas estructuradas [papel]
- Studious Bob se defiende contra Jailbreaking a través de una rápida afinación adversaria [papel]
- Selfguard: empodere a la LLM para salvaguardar a sí misma [papel]
- Uso de aprendizaje en contexto para mejorar la seguridad del diálogo [papel]
- Defender modelos de idiomas grandes contra ataques con jailbreak a través de la priorización de objetivos [documento]
- Bergeron: Combatir ataques adversos a través de un marco de alineación basado en la conciencia [documento]
Conjunto
- Combatir ataques adversos con debate de agente múltiple [documento]
- TrustAgent: hacia agentes basados en LLM seguros y confiables a través de la Constitución del Agente [Documento]
- AutodeFense: defensa LLM de múltiples agentes contra ataques de jailbreak [papel]
- Aprenda a disfrazar: evite las respuestas de rechazo en la defensa de LLM a través de un juego de atacantes de múltiples agentes disgustantes [papel]
- Jailbreaker en la cárcel: defensa objetivo en movimiento para modelos de idiomas grandes [papel]
Barandas
Barandas de entrada
- UFID: un marco unificado para la detección de puerta trasera a nivel de entrada en modelos de difusión [papel]
- Optimizador de inmediato universal para la generación segura de texto a imagen [documento]
- Ojos cerrados, seguridad: Protección de LLM multimodales a través de la transformación de imagen a texto [papel]
- Ojos cerrados, seguridad: Protección de LLM multimodales a través de la transformación de imagen a texto [papel]
- MLLM-Protector: garantizar la seguridad de MLLM sin dañar el rendimiento [papel]
- Mitigación de toxicidad agregada en un momento de inferencia para traducción multimodal y multilingüe masiva [papel]
- Un método basado en mutaciones para la detección de ataques de jailbreak de jail [documento] multimodal [documento]
- Detección y defensa contra ataques prominentes en asistentes virtuales preacondicionados de LLM [documento]
- ShieldLM: Empoderar LLMS como detectores de seguridad alineados, personalizables y explicables [documento]
- Defensa de traducción de ida y vuelta contra ataques de jailbreaking de modelo de idioma grande [papel]
- Postel de gradiente: Detección de ataques de jailbreak en modelos de idiomas grandes explorando los paisajes de pérdida de rechazo [papel]
- Defender el jailbreak indica a través del juego adversario en contexto [papel]
- SPML: un DSL para defender modelos de lenguaje contra ataques rápidos [papel]
- Clasificador de seguridad robusto para modelos de idiomas grandes: escudo de inmediato adversario [papel]
- Control de IA: Mejora de la seguridad a pesar de la subversión intencional [documento]
- Maatphor: Análisis de variante automatizado para ataques de inyección inmediata [papel]
Barandas de salida
- Defendiendo los LLM contra ataques de jailbreak a través de la retradicación [papel]
- Optimización rápida y robusta para defender modelos de lenguaje contra ataques de jailbreak [papel]
- Jailbreaking se resuelve mejor por definición [papel]
- LLM Autod Defense: por autoexamen, LLMS sabe que están siendo engañados [papel]
Barandas de entrada y salida
- Rigorllm: barandas resistentes para modelos de idiomas grandes contra contenido no deseado [papel]
- Nemo GuardRails: un conjunto de herramientas para aplicaciones LLM controlables y seguras con rieles programables [papel]
- Guardia de llama: protección de entrada-salida basada en LLM para conversaciones humanas-AI [documento]
Defensas de sufijo adversario
- Defender modelos de idiomas grandes contra ataques de jailbreak a través de un suavizado semántico [papel]
- Certificar la seguridad de LLM contra la solicitud adversa [papel]
- Defensas de línea de base para ataques adversos contra modelos de lenguaje alineados [papel]
- Detección de ataques del modelo de lenguaje con perplejidad [papel]
- Smoothllm: Defender modelos de idiomas grandes contra ataques con jailbreak [papel]
- Detección rápida de adversario a nivel de token basada en medidas de perplejidad e información contextual [documento]
Defensas de decodificación
- Hacia la seguridad y la ayuda respuestas equilibradas a través de modelos de lenguaje grande controlables [papel]
- Safedecoding: defensa contra ataques de jailbreak a través de la decodificación de seguridad [papel]
Evaluaciones
Métricas de evaluación
Métricos de ataque
- Un marco de evaluación novedoso para evaluar la resiliencia contra ataques de inyección rápidos en modelos de idiomas grandes [documento]
- Attackeval: cómo evaluar la efectividad de los atacantes de jailbreak en modelos de idiomas grandes [papel]
- ¡Míralo! Repensar cómo evaluar el modelo de idioma Jailbreak [documento]
Métricas de defensa
- ¿Cómo (un) ético son las respuestas centradas en la instrucción de LLM? Revelando las vulnerabilidades de las barandillas de seguridad a consultas dañinas [papel]
- El arte de la defensa: una evaluación y análisis sistemáticos de las estrategias de defensa de LLM sobre seguridad y exceso de defensa [documento]
Puntos de referencia de evaluación
- Jailbreakbench: un punto de referencia de robustez abierto para modelos de idiomas grandes Jailbreaking [papel]
- SafetyPrompts: una revisión sistemática de conjuntos de datos abiertos para evaluar y mejorar la seguridad del modelo de lenguaje grande [documento]
- Desde daños representativos hasta daños de calidad de servicio: un estudio de caso sobre las salvaguardas de seguridad de Llama 2 [documento]
- Ensalad Bench: un punto de referencia de seguridad jerárquico e integral para modelos de idiomas grandes [papel]
- Un buzo Strongject para jailbreaks vacíos [papel]
- Harmbench: un marco de evaluación estandarizado para el equipo rojo automatizado y la sólida negativa [papel]
- SafetyBench: evaluación de la seguridad de los modelos de idiomas grandes con preguntas de opción múltiple [papel]
- XST: un conjunto de pruebas para identificar comportamientos de seguridad exagerados en modelos de idiomas grandes [papel]
- Do-Not-Supper: un conjunto de datos para evaluar las salvaguardas en LLMS [papel]
- Evaluación de seguridad de los modelos chinos de idiomas grandes [documento]
- Modelos de lenguaje de equipo rojo para reducir los daños: métodos, comportamientos de escala y lecciones aprendidas [documento]
- Dices DataSet: Diversidad en evaluación de IA conversacional para la seguridad [papel]
- Jailbreak latente: un punto de referencia para evaluar la seguridad del texto y la robustez de salida de los modelos de idiomas grandes [papel]
- Tensor Trust: ataques de inyección inmediata interpretables de un juego en línea [documento]
- ¿Pueden los LLM seguir reglas simples? [Papel]
- SimplePleSafetyTests: un conjunto de pruebas para identificar riesgos de seguridad críticos en modelos de idiomas grandes [papel]
- Benchmarking y defensa contra ataques de inyección indirecta en modelos de idiomas grandes [papel]
- SC-Safety: un punto de referencia de seguridad con adversario de preguntas abiertas de ronda múltiple para modelos de idiomas grandes en chino [papel]
- Caminar una cuerda floja: evaluar modelos de idiomas grandes en dominios de alto riesgo [papel]
Aplicaciones
Dominio de la aplicación
Agente
- MM-SafetyBench: un punto de referencia para la evaluación de seguridad de modelos de lenguaje grande multimodal [papel]
- Agente Smith: una sola imagen puede jailbreak un millón de agentes multimodales de LLM exponencialmente rápido [papel]
- ¿Cuántos unicornios hay en esta imagen? Un punto de referencia de evaluación de seguridad para Vision LLMS [papel]
- Hacia el equipo rojo en traducción multimodal y multilingüe [papel]
- Jailbreakv-28K: un punto de referencia para evaluar la robustez de los modelos de lenguaje grande multimodal contra los ataques de jailbreak [papel]
- Red Teaming GPT-4V: ¿GPT-4V son seguros contra los ataques de jailbreak de uni/multimodal? [Papel]
- R-Judge: Conocimiento de riesgos de seguridad de evaluación comparativa para los agentes de LLM [papel]
- GPT en ropa de oveja: el riesgo de GPTS personalizados [papel]
- Espada de herramientas: presentación de problemas de seguridad de modelos de idiomas grandes en el aprendizaje de herramientas en tres etapas [papel]
- ¿Una casa de cartas temblorosa? Mapeo de ataques adversos contra agentes del idioma [papel]
- Adopción rápida, riesgos ocultos: el doble impacto de la personalización del modelo de lenguaje grande [documento]
- Ataque rápido y evaluación de seguridad orientado a objetivos para LLM [documento]
- Identificación de los riesgos de los agentes de LM con una caja de arena emulada por LM [papel]
- Valoras: Medición de los valores de los modelos de lenguaje grande chino desde la seguridad hasta la responsabilidad [documento]
- Explotación de API de novela GPT-4 [Paper]
- Genios malvados: profundizar en la seguridad de los agentes basados en LLM [documento]
- Evaluar los riesgos de inyección inmediata en más de 200 GPTS personalizados [documento]
Programación
- DeceptPrompt: Explotación de la generación de código basada en LLM a través de instrucciones de lenguaje natural adversario [documento]
- El chatgpt envenenado encuentra trabajo para las manos inactivas: explorar las prácticas de codificación de los desarrolladores con sugerencias inseguras de modelos de IA envenenados [papel]
Riesgos de aplicación
Inyección rápida
- Comportamiento de escala de la traducción automática con modelos de idiomas grandes bajo ataques de inyección inmediata [papel]
- Desde inyecciones rápidas hasta ataques de inyección SQL: ¿Qué tan protegido está su aplicación web integrada en LLM? [Papel]
- No es para lo que se ha registrado: comprometer aplicaciones integradas de World LLM con inyección indirecta de inmediato [papel]
- Ataque de inyección inmediata contra aplicaciones integradas en LLM [documento]
Extracción inmediata
- Jailbreaking GPT-4V a través de ataques autoadversos con indicaciones del sistema [papel]
- Attacos de robo rápido contra modelos de idiomas grandes [papel]
- Extracción rápida efectiva de los modelos de idiomas [papel]
Equipo rojo multimodal
Estrategias de ataque
Cumplimiento de finalización
- Aprendizaje adversario de pocos disparos en modelos en idioma de visión [papel]
- Contexto de secuestro en grandes modelos multimodales [papel]
Indirección de instrucciones
- Sobre la robustez de los grandes modelos multimodales contra los ataques adversos de la imagen [papel]
- Las imágenes son el talón de alineación de Aquiles: explotación de vulnerabilidades visuales para modelos de lenguaje grande de jailbreaking [papel] [papel]
- Vision-llms puede engañarse con ataques tipográficos autogenerados [papel]
- Ejemplos de adversario visual Jailbreak alineó modelos de lenguaje grande [papel]
- Jailbreak en piezas: ataques adversos compositivos en modelos de lenguaje multimodal [papel]
- Abusar de imágenes y sonidos para la inyección de instrucciones indirectas en LLMS multimodal [papel]
- Figstep: modelos de lenguaje de visión grande de Jilbreaking a través de indicaciones visuales tipográficas [papel]
- InstructTA: Ataque dirigido a instrucciones para grandes modelos de lenguaje de visión [papel]
Buscadores de ataques
Buscadores de imágenes
- Ataque de difusión: aprovechando la difusión estable para el ataque de imagen naturalista [papel]
- Sobre la robustez adversa de los modelos de base multimodal [papel]
- ¿Qué tan robusta es el bardo de Google a los ataques de imagen adversos? [Papel]
- Ataques de puerta trasera en el momento de la prueba en modelos de lenguaje grande multimodal [papel]
Buscadores de modalidad cruzada
- SA-Attack: Mejora de la transferibilidad adversaria de los modelos de pre-entrenamiento en idioma de visión a través de la autoaugmentación [documento]
- Difusión de MMA: ataque multimodal en modelos de difusión [papel]
- Mejora de la transferibilidad adversaria de los modelos de pre-entrenamiento de lenguaje visual a través de la interacción multimodal colaborativa [documento]
- Una imagen vale 1000 mentiras: transferibilidad de imágenes adversas a través de indicaciones en modelos en idioma de visión [papel]
Otros
- SneakyPrompt: Modelos generativos de texto a imagen de jailbreak [papel]
- Solicitar 4Debugging: modelos de difusión de texto a imagen de textura roja encontrando indicaciones problemáticas [papel]
Defensa
Defensas de la barandilla
- UFID: un marco unificado para la detección de puerta trasera a nivel de entrada en modelos de difusión [papel]
- Optimizador de inmediato universal para la generación segura de texto a imagen [documento]
- Ojos cerrados, seguridad: Protección de LLM multimodales a través de la transformación de imagen a texto [papel]
- Ojos cerrados, seguridad: Protección de LLM multimodales a través de la transformación de imagen a texto [papel]
- MLLM-Protector: garantizar la seguridad de MLLM sin dañar el rendimiento [papel]
- Mitigación de toxicidad agregada en un momento de inferencia para traducción multimodal y multilingüe masiva [papel]
- Un método basado en mutaciones para la detección de ataques de jailbreak de jail [documento] multimodal [documento]
Otras defensas
- Salfra: mitigar la generación de contenido inseguro en modelos de texto a imagen [papel]
- Adashield: salvaguardar modelos multimodales de lenguaje grande del ataque basado en la estructura a través de la solicitud de escudo adaptativo [papel]
- Seguridad ajustado a (casi) sin costo: una línea de base para la visión de modelos de idiomas grandes [papel]
Solicitud
Agentes
- Red Teaming GPT-4V: ¿GPT-4V son seguros contra los ataques de jailbreak de uni/multimodal? [Papel]
- Jailbreakv-28K: un punto de referencia para evaluar la robustez de los modelos de lenguaje grande multimodal contra los ataques de jailbreak [papel]
- Agente Smith: una sola imagen puede jailbreak un millón de agentes multimodales de LLM exponencialmente rápido [papel]
- MM-SafetyBench: un punto de referencia para la evaluación de seguridad de modelos de lenguaje grande multimodal [papel]
- ¿Cuántos unicornios hay en esta imagen? Un punto de referencia de evaluación de seguridad para Vision LLMS [papel]
- Hacia el equipo rojo en traducción multimodal y multilingüe [papel]
Puntos de referencia
- Nibbler adversario: un método de equipo rojo abierto para identificar daños diversos en la generación de texto a imagen [documento]
- Modelos de lenguaje visual de equipo rojo [papel]
Citación
@article{lin2024achilles,
title={Against The Achilles' Heel: A Survey on Red Teaming for Generative Models},
author={Lizhi Lin and Honglin Mu and Zenan Zhai and Minghan Wang and Yuxia Wang and Renxi Wang and Junjie Gao and Yixuan Zhang and Wanxiang Che and Timothy Baldwin and Xudong Han and Haonan Li},
year={2024},
journal={arXiv preprint, arXiv:2404.00629},
primaryClass={cs.CL}
}