OpenRedTeaming
Наш опрос: против пятки Ахилла: опрос о красной команде для генеративных моделей [Paper]
Чтобы получить всеобъемлющее понимание потенциальных атак на Геная и разработать надежные гарантии. Мы:
- Обследование более 120 статей, охватывает трубопровод от таксономии риска, стратегий атаки, показателей оценки и критериев к защитным подходам.
- Предложите комплексную таксономию стратегий атаки LLM, основанной на неотъемлемых возможностях моделей, разработанных во время предварительной подготовки и тонкой настройки.
- Реализовано более 30+ методов команды Auto Red.
Чтобы оставаться в курсе или попробовать наш инструмент Redteaming, подпишитесь на нашу рассылку на нашем веб -сайте или присоединяйтесь к нам на Discord!
Последние документы о красной команде
Опросы, таксономии и многое другое
Опросы
- Личные агенты LLM: понимание и обзор о возможностях, эффективности и безопасности [Paper]
- Trustllm: Достоверность в моделях крупных языков [Paper]
- Таксономия, смягчение и оценку рискованных систем моделей крупных языковых моделей [Paper]
- Проблемы безопасности и конфиденциальности крупных языковых моделей: опрос [Paper]
Опросы на атаки
- Надежное тестирование устойчивости к языке ИИ с новыми состязательными подсказками [Paper]
- Не слушайте меня: понимание и изучение подсказок джейлбрейка крупных языковых моделей [Paper]
- Разрушение защиты: сравнительный обзор атак на крупные языковые модели [Paper]
- LLM Treasbreak Attack по сравнению с методами защиты - всеобъемлющее исследование [Paper]
- Ранняя категоризация быстрой инъекционной атаки на крупные языковые модели [Paper]
- Комплексная оценка атак джейлбрейка против LLMS [Paper]
- «Делай что-нибудь сейчас»: характеризуя и оценивая подсказки в рамках джейлбрейка на крупных языковых моделях [Paper]
- Обследование уязвимостей в моделях крупных языков, выявленных в результате состязательных атак [Paper]
- Не обращайте внимания на этот заголовок и Hackaprompt: разоблачение системных уязвимостей LLM с помощью глобального шкалера для хакерской конкуренции [Paper]
- Адверские атаки и защита в больших языковых моделях: старые и новые угрозы [Paper]
- Объединение LLM в непослушание: формализация, анализ и обнаружение джейлбрейков [Paper]
- Вызвать демона и связывать его: обоснованную теорию Red Teaming LLM в дикой природе [Paper]
- Комплексный обзор методов атаки, реализации и стратегий смягчения в моделях крупных языков [Paper]
- За пределами границ: комплексный обзор передаваемых атак на системы искусственного интеллекта [бумага]
- За пределами границ: комплексный обзор передаваемых атак на системы искусственного интеллекта [бумага]
Опросы о рисках
- Картирование ландшафтов безопасности LLM: комплексное предложение по оценке рисков заинтересованных сторон [Paper]
- Обеспечение крупных языковых моделей: угрозы, уязвимости и ответственная практика [Paper]
- Конфиденциальность в крупных языковых моделях: атаки, защита и будущие направления [Paper]
- Помимо гарантий: изучение рисков безопасности Chatgpt [Paper]
- На пути к более безопасным генеративным языковым моделям: опрос о рисках безопасности, оценках и улучшениях [Paper]
- Использование LLM для незаконных целей: угрозы, меры профилактики и уязвимости [Paper]
- От Chatgpt до угрозы: влияние генеративного ИИ на кибербезопасность и конфиденциальность [Paper]
- Выявление и смягчение уязвимостей в приложениях, интегрированных LLM [Paper]
- Сила генеративного ИИ в кибербезопасности: возможности и проблемы [Paper]
Таксономии
- Принуждение LLMS для того, чтобы сделать (почти) все что угодно [бумага]
- История и риски обучения подкрепления и отзывов человека [Paper]
- От чат -ботов до фишботов? - Предотвращение фишинговых мошенничества, созданных с использованием CHATGPT, Google Bard и Claude [Paper]
- Jailbraing Chatgpt через быстрое инженер: эмпирическое исследование [Paper]
- Генерация фишинговых атак с использованием CHATGPT [Paper]
- Персонализация в пределах границ: база таксономии риска и политики для выравнивания крупных языковых моделей с персонализированной обратной связью [Paper]
- Обман AI: обзор примеров, рисков и потенциальных решений [Paper]
- Таксономия риска безопасности для моделей крупных языков [Paper]
Позиции
- Красная команда для генеративного ИИ: Серебряная пуля или театр безопасности? [Бумага]
- Этика взаимодействия: смягчение угроз безопасности в LLMS [Paper]
- Безопасная гавань для оценки ИИ и красной команды [бумага]
- Red Teaming Chatgpt через джейлбрейк: предвзятость, надежность, надежность и токсичность [Paper]
- Обещание и опасность искусственного интеллекта - Violet Teaming предлагает сбалансированный путь вперед [Paper]
Явления
- Сегмент красного команды что-нибудь модель [бумага]
- Механистическое понимание алгоритмов выравнивания: тематическое исследование DPO и токсичности [Paper]
- Говорите не так: уязвимость безопасности крупных языковых моделей в многократном диалоге [Paper]
- Компромисс между выравниванием и полезностью в языковых моделях [Paper]
- Оценка хрупкости выравнивания безопасности посредством обрезки и модификаций с низким рейтингом [Paper]
- «Это справедливая игра», или это? Изучение того, как пользователи ориентируются на риски и преимущества раскрытия при использовании разговорных агентов на основе LLM [Paper]
- Использование программного поведения LLMS: двойное использование через стандартные атаки безопасности [Paper]
- Могут ли крупные языковые модели изменить предпочтения пользователя на состязание? [Бумага]
- Выровнены ли выровненные нейронные сети сочетания? [Бумага]
- Поддельное выравнивание: действительно ли хорошо выровняются LLMS? [Бумага]
- Анализ причинности для оценки безопасности моделей крупных языков [Paper]
- Перенос атаки и защита для крупных языковых моделей по задачам кодирования [Paper]
Стратегии атаки
Завершение соответствия
- Несколько выстрела состязательного быстрого обучения на моделях языка зрения [Paper]
- Контекст захвата в крупных мультимодальных моделях [бумага]
- Отлично, теперь напишите статью об этом: атака Crescendo Multi-Turn LLM Jailbreak [Paper]
- ЗДАВА: Бэкдорная цепочка мыслей для больших языковых моделей [Paper]
- Универсальные уязвимости в крупных языковых моделях: атаки задних курсов для обучения в контексте [Paper]
- Неужели: переопределение инструкций и модерация в моделях крупных языков [Paper]
- Красные модели крупных языков с использованием цепочки высказываний для выравнивания безопасности [бумага]
- Бэкдор атаки для встроенного обучения с языковыми моделями [Paper]
- Анализ неотъемлемой тенденции ответа LLM: реальные инструкции, управляемые инструкциями [бумага]
- Обход обучения в области безопасности LLM с открытым исходным кодом с замыкающими атаками [Paper]
- Похищение крупных языковых моделей с помощью состязательного встроенного обучения [Paper]
Инструкция. Королевация
- О надежности крупных мультимодальных моделей против атак с состязанием изображения [Paper]
- Vision-Llms может обмануть себя самостоятельными типографскими атаками [Paper]
- Изображения являются ахиллесовой пятой выравнивания: использование визуальных уязвимостей для джейлбрейка мультимодальных крупных языковых моделей [Paper]
- FIGSTEP: джейлбрейка крупных моделей на языке зрения с помощью типографских визуальных подсказок [Paper]
- Инструктта: настраиваемая настройка атаки для больших моделей языка зрений [Paper]
- Злоупотребление изображениями и звуками для косвенной инструкции в мультимодальных LLMS [Paper]
- Визуальные состязательные примеры, выровнявшись с большими языковыми моделями [Paper]
- Джаклбрейк в частях: композиционные состязательные атаки на мультимодальные языковые модели [Paper]
- Играть в игру угадания с LLM: атака непрямой джейлбрейк с неявными подсказками [Paper]
- Fuzzllm: новая и универсальная рамка пузырьки для активного обнаружения уязвимостей джейлбрейка в моделях крупных языков [Paper]
- Gptfuzzer: Red Teaming крупные языковые модели с автоматическими подсказками для джейлбрейка [Paper]
- Приглашение Packer: обманывать LLM с помощью композиционного обучения со скрытыми атаками [Paper]
- Deepinception: загипнотизируйте большую языковую модель, чтобы быть Jailbreaker [Paper]
- Волк в овечьей одежде: обобщенные вложенные подсказки для джейлбрейка могут легко обмануть большие языковые модели [бумага]
- Выравнивание безопасности в задачах NLP: слабо выровненное суммирование как атака в контексте [Paper]
- Когнитивная перегрузка: джейлбрейка крупных языковых моделей с перегруженным логическим мышлением [бумага]
- Головоломки мозаики: разделение вредных вопросов на джейлбрейк крупных языковых моделей [бумага]
- Аудио - это ахиллесовый каблук: красные командные аудио -аудио большие мультимодальные модели [бумага]
Обобщение скользит
Языки
- Межгородное исследование атак джейлбрейка в крупных языковых моделях [Paper]
- Языковой барьер: рассеивать проблемы с безопасностью LLMS в многоязычных контекстах [бумага]
- Атака сэндвича: адаптивная атака с мультиязычной смесью на LLMS [Paper]
- Бэкдор Атака на многоязычный машинный перевод [бумага]
- Многоязычные проблемы с джейлбрейком в моделях крупных языков [бумага]
- Языки с низким ресурсом джейлбрейк GPT-4 [Paper]
Шифр
- Использование галлюцинаций для обхода фильтра GPT4 [бумага]
- Эффект бабочки изменения подсказок: как небольшие изменения и джейлбрейки влияют на производительность модели большой языка [бумага]
- Заставляя их спрашивать и ответить: джейлбрейка крупных языковых моделей в нескольких запросах с помощью маскировки и реконструкции [Paper]
- PRP: распространение универсальных возмущений, чтобы атаковать крупные языковые модели-модельные кадры [Paper]
- GPT-4 слишком умный, чтобы быть в безопасности: скрытый чат с LLMS через Cipher [Paper]
- Преступление имеет значение! Скрытная атака Backdoor для языковых моделей [Paper]
Олицетворение
- Нога в двери: Понимание модели большой языка, младшая трюка с помощью когнитивной психологии [Paper]
- PSYSAFE: Комплексная основа для психологической атаки, защиты и оценки безопасности многоагентной системы [Paper]
- Как Джонни может убедить LLMS в джейлбрейке: переосмысление убеждения бросить вызов безопасности ИИ, гуманизуя LLMS [Paper]
- Масштабируемые и переносимые джейлбрейки черного ящика для языковых моделей с помощью модуляции персоны [Paper]
- Кто такой чат? Психологическое изображение Benchmarking LLMS с использованием Psychobench [Paper]
- Использование крупных языковых моделей (LLMS) с помощью методов обмана и принципов убеждения [Paper]
Манипуляция модели
Бэкдор атаки
- Shadowcast: скрытные атаки отравления данных против моделей на языке зрения [Paper]
- Спящие агенты: тренировка обманчивых LLM, которые сохраняются посредством обучения безопасности [бумага]
- Что в ваших «безопасных» данных?
- Атаки отравления данных на методы оценки политики вне политики [Paper]
- Badedit: Backdoring крупные языковые модели под редактированием модели [бумага]
- Обучение отравлению больших языковых моделей во время настройки инструкций [бумага]
- Изучение уязвимостей Backdoor моделей чата [бумага]
- Инструкции в качестве бэкдоров: уязвимости настройки инструкций для моделей крупных языков [бумага]
- Принуждение генеративных моделей дегенерировать: сила атаки отравления данных [Paper]
- Скрытное и постоянное несоответствие на крупных языковых моделях с помощью инъекций Backdoor [Paper]
- Активация активации Backdoor: атаковать большие языковые модели с использованием рулевого управления активацией для выравнивания безопасности [бумага]
- Об эксплуатации обучения подкреплению с обратной связью с человеком для крупных языковых моделей [Paper]
- Смягчение смягчений с бэкдором для тестирования для больших языковых моделей черного ящика с защитными демонстрациями [Paper]
- Universal Jailbreak Backdoors от отравленных отзывов человека [Paper]
Точная настраиваемая риски
- Лора-как-атака! Piercing LLM Безопасность в рамках сценария обмена и игры [бумага]
- Эмулированное рассуждение: выравнивание безопасности для крупных языковых моделей может иметь неприятные последствия! [Бумага]
- Лора точно настраивание эффективно отменяет обучение безопасности в Llama 2-chat 70b [Paper]
- Badllama: дешево удаление безопасности с точной настройкой из Llama 2-chat 13b [бумага]
- Языковая модель. Неоплата: параметрическое красное командование, чтобы обнажить скрытый вред и смещения [Paper]
- Удаление защиты RLHF в GPT-4 через тонкую настройку [Paper]
- О безопасности больших языковых моделей с открытым исходным кодом: действительно ли выравнивание не будет использоваться в неправильном использовании? [Бумага]
- Выравнивание тени: легкость подрыва безопасно выравниваемых языковых моделей [Paper]
- Точная настройка выровненных языковых моделей ставит под угрозу безопасность, даже если пользователи не намерены! [Бумага]
Атака поисковика
Суффикс искатели
- Подсказка4Debugging: модели диффузии текста-изображения с красной командой путем нахождения проблемных подсказок [Paper]
- От шума до ясности: раскрыть состязательный суффикс крупных языковых модельных атак посредством перевода текстовых внедрений [Paper]
- Быстрые состязательные атаки на языковые модели в одной графической минуте [Paper]
- Языковая модель на основе градиента красная команда [бумага]
- Автоматические и универсальные оперативные атаки инъекции против крупных языковых моделей [бумага]
- $ textit {linkprompt} $ : Природные и универсальные состязательные атаки на быстрые языковые модели [Paper]
- Нейрон -исполнитель: обучение (и обучение) триггеров выполнения для быстрого инъекционного атаки [Paper]
- Крицбейство ведущие ведущие LLMS с простыми адаптивными атаками [Paper]
- Быстрая оптимизация для джейлбрейка LLM с помощью подсознательной эксплуатации и эхопраксии [Paper]
- Autodan: интерпретируемые состязательные атаки на основе градиента на крупные языковые модели [Paper]
- Универсальные и передаваемые состязательные атаки на выровненные языковые модели [Paper]
- Настройка мягкой программы для больших языковых моделей для оценки смещения [бумага]
- TROJLLM: Троянская пристройка черного ящика на крупные языковые модели [Paper]
- Autodan: генерирование скрытных подсказок джейлбрейка на выровненных крупных языковых моделях [Paper]
Быстрое искатели
Языковая модель
- Выявление языковой модели поведения с использованием моделей обратного языка [Paper]
(2023)
- Все в том, как вы просите об этом: простой метод черного ящика для атаки джейлбрейка [бумага]
- Актаксические атаки на GPT-4 с помощью простого случайного поиска [Paper]
- Tastle: отвлечь большие языковые модели для автоматической атаки джейлбрейка [бумага]
- Красные языковые модели с языковыми моделями [Paper]
- LLM может одурачить себя: быстрое состязательное атаку [Paper]
- Jailbraing Black Box Большие языковые модели в двадцати запросах [бумага]
- Дерево атак: Jailbraing Black-Box LLM автоматически [Paper]
- AART: A-A-Assisted Red Teaming с разнообразной генерацией данных для новых приложений LLM [Paper]
- Дала: состязательная атака на основе распределения, основанная на распределении на языковые модели [Paper]
- Джаб: совместное состязательное подсказка и увеличение убеждений [бумага]
- Без оскорблений: выявление оскорбления из языковых моделей [бумага]
- LOFT: Местный прокси-настройка для улучшения передачи состязательных атак против крупного языкового модели [Paper]
Декодирование
- Слабо-сильная джейлбрейка на больших языковых моделях [бумага]
- Холодная атака: джейлбрейка LLM с скрытной и управляемостью [бумага]
Генетический алгоритм
- Семантическое зеркальное джейлбрейк: подсказки для джейлбрейка на основе генетического алгоритма против LLMS с открытым исходным кодом [Paper]
- Открыть кунжут! Universal Black Box JailBriking из моделей крупных языков [бумага]
Подкрепление обучения
- SneakyPrompt: джейлбрейка генеративных моделей текста до изображения [Paper]
- Red Teaming Game: теоретичная игра для моделей Red Teaming Languing [Paper]
- Исследуйте, установите, эксплуатируйте: красные языковые модели с нуля [бумага]
- Раскрыть неявную токсичность в моделях крупных языков [бумага]
Защита
Обучение времени защиты
Rlhf
- Настраиваемая настройка безопасности языковых моделей с данными синтетического предпочтения [Paper]
- Повышение безопасности LLM посредством ограниченной оптимизации прямых предпочтений [Paper]
- Безопасный RLHF: безопасное подкрепление, обучение от обратной связи человека [Paper]
- Beavertails: к улучшению выравнивания безопасности LLM с помощью набора данных о том, как для людей с людьми [Paper]
- SAFER-НЕКОЗВАНИЕ: Выравнивание языковых моделей с автоматическими данными о предпочтениях [Paper]
Тонкая настройка
- Safegen: смягчение небезопасной генерации контента в моделях текста до изображения [Paper]
- Безопасность тонкая настройка при (почти) без затрат: базовая линия для моделей Vision Large Language [Paper]
- Разработка безопасных и ответственных крупных языковых моделей - комплексная структура [бумага]
- Иммунизация против вредных точных атак [бумага]
- Смягчение точной настройки атаки джейлбрейка с повышенным выравниванием Backdoor [Paper]
- Диалектическое выравнивание: разрешение напряжения 3H и угроз безопасности LLMS [Paper]
- Обрезка для защиты: повышение сопротивления джейлбрейка в выровненных LLM без точной настройки [бумага]
- Eraser: джейлбейка защита в крупных языковых моделях с помощью отключения вредных знаний [Paper]
- Две головы лучше, чем одна: вложенная POE для надежной защиты от мульти-бокдоров [Paper]
- Защита от атаки с личением веса за бэкдором для эффективной точной настройки параметров [бумага]
- LLMAS, настраиваемые на безопасность: уроки от повышения безопасности больших языковых моделей, которые следуют инструкциям [Paper]
- Защита от атаки с нарушениями выравнивания через надежно выровненную LLM [Paper]
- Узнайте, что не нужно учиться: к генеративной безопасности в чат -ботах [бумага]
- Jatmo: оперативная защита от инъекции с помощью конкретной задачи, созданной [бумага]
Время вывода защита
Подсказка
- Adashield: защита мультимодальных крупных языковых моделей от атаки на основе структуры посредством подсказки адаптивного щита [Paper]
- Разрыв прорыва: переосмысление защиты LM от атак джейлбрейка с самопозначением [Paper]
- На приглашении на основе защиты для больших языковых моделей [бумага]
- Подписанный PROMPT: новый подход для предотвращения оперативных атак в инъекциях против LLM-интегрированных приложений [Paper]
Suchens Suo (2024)
- Анализ намерения делает LLMS хорошим защитником джейлбрейка [Paper]
- Защита от косвенных оперативных атак инъекций при освещении [бумага]
- Обеспечение безопасных и высококачественных выводов: подход библиотеки руководящих средств для языковых моделей [Paper]
- Генеративная генеративная атака, направленная на целей, на крупные языковые модели [Paper]
- Struq: Защита от быстрого впрыска со структурированными запросами [бумага]
- Прилетний Боб, отбиваясь против джейлбрейка с помощью быстрого настройки состязания [бумага]
- Самоуверенность: расширить возможности LLM для защиты самого [Paper]
- Использование встроенного обучения для повышения безопасности диалога [бумага]
- Защита крупных языковых моделей от джейлбрейка атаки через приоритету цели [Paper]
- Бержерон: борьба состязательных атак через основу совести выравнивания [Paper]
Ансамбль
- Борьба с состязательными атаками с мультиагентными дебатами [Paper]
- Trustagent: для безопасных и заслуживающих доверия агентов LLM через конституцию агента [Paper]
- Autodefense: Multi-Agent LLM защита от атак джейлбрейка [Paper]
- Научитесь маскировать: избегайте отказа в защите LLM через многоагентную игру злоумышленника-дисгузера [Paper]
- Jailbreaker в тюрьме: движущаяся целевая защита для больших языковых моделей [Paper]
Ограждения
Входные ограждения
- UFID: унифицированная структура для обнаружения задних курсов на уровне ввода на диффузионных моделях [Paper]
- Универсальный оптимизатор подсказки для безопасного генерации текста до изображения [бумага]
- Глаза закрыты, безопасность на: защита мультимодальных LLM с помощью преобразования изображения в текст [Paper]
- Глаза закрыты, безопасность на: защита мультимодальных LLM с помощью преобразования изображения в текст [Paper]
- MLLM-Protector: обеспечение безопасности MLLM без ущерба производительности [бумага]
- Добавлено смягчение токсичности во время вывода для мультимодального и массового многоязычного перевода [бумага]
- Метод, основанный на мутациях для многомодального обнаружения атаки, джейлбрейка [Paper]
- Обнаружение и защита от выдающихся нападений на предварительно подготовленные LLM-интегрированные виртуальные помощники [Paper]
- Shieldlm: расширение возможностей LLM как выровненных, настраиваемых и объяснимых детекторов безопасности [бумага]
- Защита перевода в оба конца от крупных языковых модель
- Градиентная манжета: обнаружение атак джейлбрейка на крупные языковые модели путем изучения ландшафтов потери отказа [бумага]
- Защищение подсказки о джейлбрейке с помощью внутренней игры состязательной игры [Paper]
- SPML: DSL для защиты языковых моделей от быстрых атак [Paper]
- Надежный классификатор безопасности для больших языковых моделей: состязательный приглашенный щит [бумага]
- Управление ИИ: повышение безопасности, несмотря на преднамеренную подрывную деятельность [бумага]
- MAATPHOR: Автоматизированный анализ вариантов для быстрых атак впрыска [бумага]
Выходные ограждения
- Защита LLM от джейлбрейка атак через BackTranslation [Paper]
- Надежная оперативная оптимизация для защиты языковых моделей от джейлбрейка атаки [Paper]
- JailBrike лучше всего решены по определению [Paper]
- LLM Self Defense: By Self Embamination, LLM знают, что их обманывают [Paper]
Входные и выводы ограждения
- Firorllm: устойчивые ограждения за большие языковые модели против нежелательного контента [Paper]
- Nemo Guardrails: инструментарий для управляемых и безопасных применений LLM с программируемыми рельсами [бумага]
- Llama Guard: LLM-защита входного вывода для разговоров с человеком-AI [Paper]
Согласные суффиксы обороны
- Защита больших языковых моделей от атак джейлбрейка с помощью семантического сглаживания [Paper]
- Сертификация безопасности LLM против состязательного подсказки [бумага]
- Базовая защита для состязательных атак против выровненных языковых моделей [Paper]
- Обнаружение языковой модели атаки с недоумением [бумага]
- Smoothllm: защита больших языковых моделей от джейлбрейка атаки [Paper]
- Обнаружение подсказки на уровне токена на основе мер с недоумением и контекстной информации [Paper]
Декодирование защиты
- На пути к безопасности и полезности сбалансированные ответы через контролируемые крупные языковые модели [бумага]
- SAFEDECODING: Защита от атак джейлбрейка посредством декодирования по обеспечению безопасности [бумага]
Оценки
Показатели оценки
Показатели атаки
- Новая структура оценки для оценки устойчивости в отношении быстрых атак в инъекциях в моделях крупных языков [Paper]
- Аттакеваль: как оценить эффективность атаки в джейлбрейк на крупные языковые модели [Paper]
- Взгляните на это! Переосмыслить, как оценить языковую модель джейлбрейка [бумага]
Защитные метрики
- Насколько (ООН) этические реакции, ориентированные на инструкции LLMS? Раскрытие уязвимостей защитных ограждений для вредных запросов [бумага]
- Искусство защиты: систематическая оценка и анализ стратегий защиты LLM по безопасности и чрезмерной защите [Paper]
Оценка критерии
- Jailbreakbench: открытый эталон надежности для джейлбрейка крупных языковых моделей [бумага]
- SafetyPrompts: систематический обзор открытых наборов данных для оценки и улучшения безопасности модели крупного языка [Paper]
- От репрезентативного вреда до вреда качества обслуживания: тематическое исследование по обеспечению безопасности Llama 2 [Paper]
- Салат-пластин: иерархический и всесторонний эталон безопасности для крупных языковых моделей [бумага]
- Стронгератор для пустых джейлбрейков [бумага]
- Harmbench: стандартизированная структура оценки для автоматизированного красного команды и надежного отказа [бумага]
- SafetyBench: оценка безопасности моделей крупных языков с помощью вопросов с множественным выбором [Paper]
- XStest: тестовый набор для выявления преувеличенного поведения безопасности в моделях крупных языков [Paper]
- Не-ответный ответ: набор данных для оценки гарантий в LLMS [Paper]
- Оценка безопасности китайских моделей большого языка [бумага]
- Красные языковые модели для уменьшения вреда: методы, масштабирование поведения и извлеченные уроки [Paper]
- Набор данных в кубиках: разнообразие в разговорной оценке ИИ для безопасности [бумага]
- Скрытый джейлбрейк: эталон для оценки безопасности текста и мощности вывода крупных языковых моделей [Paper]
- Tensor Trust: интерпретируемые оперативные атаки впрыскивания из онлайн -игры [Paper]
- Могут ли LLMS следовать простым правилам? [Бумага]
- SimplesafetyTests: тестовый набор для определения критических рисков безопасности в моделях крупных языков [Paper]
- Брингеринг и защита от косвенных оперативных инъекционных атак на крупные языковые модели [Paper]
- SC SPATY: многоуровневый ориентированный контрольный эталон безопасности для крупных языковых моделей на китайском языке [Paper]
- Прогулка по канату-оценка больших языковых моделей в областях высокого риска [Paper]
Приложения
Прикладные домены
Агент
- MM-Safetybench: эталон для оценки безопасности мультимодальных крупных языковых моделей [Paper]
- Агент Смит: Одно изображение может джейлбрейк. Один миллион мультимодальных агентов LLM экспоненциально быстро [Paper]
- Сколько единорогов на этом изображении? Оценка безопасности для Vision LLMS [Paper]
- К красной команде в мультимодальном и многоязычном переводе [бумага]
- Jailbreakv-28K: эталон для оценки надежности мультимодальных крупных языковых моделей против атак джейлбрейка [Paper]
- Red Teaming GPT-4V: безопасны ли GPT-4V против атак Uni/Multi-Modal Jailbreak? [Бумага]
- R-судья: Брикопочека по безопасности безопасности для агентов LLM [Paper]
- GPT в овечьей одежде: риск индивидуальных GPT [бумага]
- Инструмент -срок: раскрыть проблемы безопасности крупных языковых моделей в обучении инструментам на трех этапах [Paper]
- Дрожащий карточный дом? Картирование состязательных атак против языковых агентов [бумага]
- Быстрое принятие, скрытые риски: двойное влияние настройки крупной языковой модели [Paper]
- Целевая ориентированная оперативная атака и оценка безопасности для LLMS [Paper]
- Определение рисков агентов LM с песочницей, созданной LM [Paper]
- CValues: измерение ценностей китайских моделей крупного языка от безопасности к ответственности [Paper]
- Используя новые API GPT-4 [Paper]
- Злые гения: углубление в безопасность агентов на основе LLM [Paper]
- Оценка оперативных рисков впрыска в 200+ пользовательских GPT [Paper]
Программирование
- DeceptPrompt: использование генерации кода, управляемого LLM, посредством инструкций с состязанием естественного языка [Paper]
- Отравленный CHATGPT находит работу для холодных рук: изучение практик кодирования разработчиков с небезопасными предложениями от отравленных моделей ИИ [Paper]
Риски применения
Быстрое впрыск
- Масштабирование поведения машинного перевода с большими языковыми моделями под быстрыми атаками впрыска [бумага]
- От быстрых инъекций до атак в инъекциях SQL: насколько защищено ваше веб-приложение, интегрированное LLM? [Бумага]
- Не то, на что вы подписались: компрометирование реальных интегрированных LLM-применений с косвенным ходом впрыска [бумага]
- Оперативная атака впрыска против LLM-интегрированных приложений [Paper]
Быстрое извлечение
- Jailbraing GPT-4V через самооплатежные атаки с помощью системных подсказок [Paper]
- Быстрое украсть атаки против крупных языковых моделей [бумага]
- Эффективное быстрое извлечение из языковых моделей [Paper]
Мультимодальная красная команда
Стратегии атаки
Завершение соответствия
- Несколько выстрела состязательного быстрого обучения на моделях языка зрения [Paper]
- Контекст захвата в крупных мультимодальных моделях [бумага]
Инструкция. Королевация
- О надежности крупных мультимодальных моделей против атак с состязанием изображения [Paper]
- Изображения являются ахиллесовой пятой выравнивания: использование визуальных уязвимостей для джейлбрейка мультимодальных крупных языковых моделей [Paper]
- Vision-Llms может обмануть себя самостоятельными типографскими атаками [Paper]
- Визуальные состязательные примеры, выровнявшись с большими языковыми моделями [Paper]
- Джаклбрейк в частях: композиционные состязательные атаки на мультимодальные языковые модели [Paper]
- Злоупотребление изображениями и звуками для косвенной инструкции в мультимодальных LLMS [Paper]
- FIGSTEP: джейлбрейка крупных моделей на языке зрения с помощью типографских визуальных подсказок [Paper]
- Инструктта: настраиваемая настройка атаки для больших моделей языка зрений [Paper]
Атака искателей
Изображения
- Диффузионная атака: использование стабильной диффузии для атаки натуралистического изображения [бумага]
- О состязательной надежности многомодальных моделей фундамента [Paper]
- Насколько надежны Google Bard к состязательным атакам изображения? [Бумага]
- Время испытания атаки на мультимодальные крупные языковые модели [бумага]
Поперечные модальности искатели
- SA-Attack: Улучшение передовой передачи моделей предварительной тренировки с состязанием посредством самостоятельной работы [Paper]
- ММА-диффузия: мультимодальная атака на диффузионные модели [бумага]
- Улучшение передовой переносимости состязания моделей предварительного обучения визуально-языка посредством совместного мультимодального взаимодействия [Paper]
- Изображение стоит 1000 Lies: передача состязательных изображений между подсказками на моделях языка зрения [Paper]
Другие
- SneakyPrompt: джейлбрейка генеративных моделей текста до изображения [Paper]
- Подсказка4Debugging: модели диффузии текста-изображения с красной командой путем нахождения проблемных подсказок [Paper]
Защита
Защита ограждения
- UFID: унифицированная структура для обнаружения задних курсов на уровне ввода на диффузионных моделях [Paper]
- Универсальный оптимизатор подсказки для безопасного генерации текста до изображения [бумага]
- Глаза закрыты, безопасность на: защита мультимодальных LLM с помощью преобразования изображения в текст [Paper]
- Глаза закрыты, безопасность на: защита мультимодальных LLM с помощью преобразования изображения в текст [Paper]
- MLLM-Protector: обеспечение безопасности MLLM без ущерба производительности [бумага]
- Добавлено смягчение токсичности во время вывода для мультимодального и массового многоязычного перевода [бумага]
- Метод, основанный на мутациях для многомодального обнаружения атаки, джейлбрейка [Paper]
Другая защита
- Safegen: смягчение небезопасной генерации контента в моделях текста до изображения [Paper]
- Adashield: защита мультимодальных крупных языковых моделей от атаки на основе структуры посредством подсказки адаптивного щита [Paper]
- Безопасность тонкая настройка при (почти) без затрат: базовая линия для моделей Vision Large Language [Paper]
Приложение
Агенты
- Red Teaming GPT-4V: безопасны ли GPT-4V против атак Uni/Multi-Modal Jailbreak? [Бумага]
- Jailbreakv-28K: эталон для оценки надежности мультимодальных крупных языковых моделей против атак джейлбрейка [Paper]
- Агент Смит: Одно изображение может джейлбрейк. Один миллион мультимодальных агентов LLM экспоненциально быстро [Paper]
- MM-Safetybench: эталон для оценки безопасности мультимодальных крупных языковых моделей [Paper]
- Сколько единорогов на этом изображении? Оценка безопасности для Vision LLMS [Paper]
- К красной команде в мультимодальном и многоязычном переводе [бумага]
Тесты
- Аккурсный Nibbler: открытый метод красного команды для определения разнообразных вредей в генерации текста до изображения [Paper]
- Модели визуального языка Red Teaming [Paper]
Цитирование
@article{lin2024achilles,
title={Against The Achilles' Heel: A Survey on Red Teaming for Generative Models},
author={Lizhi Lin and Honglin Mu and Zenan Zhai and Minghan Wang and Yuxia Wang and Renxi Wang and Junjie Gao and Yixuan Zhang and Wanxiang Che and Timothy Baldwin and Xudong Han and Haonan Li},
year={2024},
journal={arXiv preprint, arXiv:2404.00629},
primaryClass={cs.CL}
}