Став Коэн, Рон Биттон, Бен Насси
Технион - Израильский технологический институт, Cornell Tech, Intuit
Веб -сайт | YouTube видео | Arxiv Paper

Это исследование предназначено для того, чтобы изменить восприятие, касающееся джейлбрейка и::
Продемонстрируйте, что модель с джейлбрангенским Genai может нанести реальный вред для приложений на основе Genai и поощрять обсуждение необходимости предотвращения попыток Jailbrieking.
Раскрытие быстрого программного обеспечения, новая угроза для приложений с двигателем Genai, которая может быть применена путем джейлбрейка модели Genai.
Повышение осведомленности относительно того факта, что план и исполнительные архитектуры чрезвычайно уязвимы для приглашения. 
В этой статье мы утверждаем, что, хотя модель с джейлбрангеном Genai не представляет реальной угрозы конечным пользователям в разговорном искусственном интеллекте, она может нанести реальный вред для приложений с использованием Genai и облегчить новый тип атаки, которую мы называем Quick-ware.
Приглашенная программа использует пользовательские входы, чтобы джейлбрейк модель Genai, чтобы заставить/выполнять вредоносную деятельность в контексте приложения с двигателем Genai. Во -первых, мы вводим наивную реализацию быстрого программного обеспечения, которая ведет себя как вредоносное ПО, которое нацелена на план и выполняет архитектуры (он же, реагировать, вызовы функций). Мы показываем, что злоумышленники могут вызвать желаемый поток выполнения, создав пользовательский ввод, который создает желаемые выходы, учитывая, что логика приложения на мощении Genai известна злоумышленникам. Мы демонстрируем применение атаки DOS, которая запускает выполнение ассистента, способствующего Джинаю, ввести бесконечный цикл, который тратит деньги и вычислительные ресурсы на избыточные вызовы API в двигатель Genai, предотвращая предоставление приложения пользователю.
Далее мы представляем более сложную реализацию быстрого программного обеспечения, которую мы называем Advanced Prompendware Threat (APWT), которая нацелена на приложения на двигателе Genai, логика которых неизвестна злоумышленникам. Мы показываем, что злоумышленники могут создавать пользовательский ввод, который использует расширенные возможности ИИ в Genai Engine, чтобы запустить цепочку убийств во время вывода, состоящие из шести шагов, предназначенных для обострения привилегий, проанализировать контекст приложения, определение ценных активов, причин возможных вредоносных действий, определения одного из них и выполнения его. Мы демонстрируем применение APWT против чат-бота электронной коммерции с помощью Genai и показываем, что он может вызвать модификацию таблиц SQL, что потенциально приводит к несанкционированным скидкам по предметам, продаваемым пользователю
git clone https://github.com/StavC/PromptWares.git
cd ComPromptMizedПолучить ключи API для доступа к OpenAI и Google Services
Установите необходимые пакеты, используя следующую команду:
pip install -r requirements.txtСледующие два кодовых файла были преобразованы в формат Юпитера для улучшения читаемости и упрощения тестирования и экспериментов. Кроме того, мы включили в них больше документации и комментариев.
В нашем коде мы используем архитектуру Rewoo для реализации плана и выполнения системы через Langchain и основываем наш код на общедоступном коде из репозитория Langchain, вы можете найти более подробную информацию о плане и выполнить архитектуры в блоге Langchain.
Приглашенные входные данные -это пользовательские входы, которые предназначены для запуска вредоносной деятельности в рамках приложения, приготовленного на Джинаи, джейлбрейк-двигателя Genai и изменение потока выполнения приложения.
Следовательно, Quickwares считается вредоносным программным обеспечением с нулевым щелчком, и они не требуют, чтобы злоумышленник могло подчеркнуть целевое приложение Genai, применяемое заранее.
В соответствии с Apt-Dos вы найдете код, который создаст простого помощника на основе Genai, который уязвим для атаки DOS. Левый рисунок ниже иллюстрирует конечную машину плана, который выполняется помощником на основе Деная в ответ на электронное письмо, рядом с правильной цифрой, которая иллюстрирует схему DOS, которая реализована злоумышленником.
Для этого мы внедрили следующие инструменты:
findAvailableDateAndTime ( email ) # Find available date and time for a meeting
EmailReply ( email ) # Creates a reply to an email
EmailChecker ( email ) # Check if the email is safe to send
MakeEmailSafe ( email ) # Make the email safe to send if it is not
EmailSender ( email ) # Send the emailВы можете найти реализацию этих инструментов в ноутбуке Apt-DOS и расширить или изменить ее, чтобы включить больше инструментов и функций.
| Схема DOS | Конечный штат Машина плана |
|---|---|
![]() | ![]() |
Advanced Prompleware Wehte (APWT) представляет собой более сложную реализацию быстрого программного обеспечения, которая нацелена на приложения на мощности Genai, логика которых неизвестна злоумышленникам.
В отличие от наивной реализации быстрого программного обеспечения, APWT использует расширенные возможности AI двигателя Genai для проведения вредоносной деятельности, результат которого определяется во время вывода двигателем Genai (и не известен злоумышленникам заранее).
В рамках APWT-Ecommerce вы найдете код, который создает простой Genai-мощный помощник электронной коммерции, который подключен к базе данных SQL и взаимодействует с конечным пользователем через чат. В этом примере мы внедрили 3 инструмента, которые используются ассистентом электронной коммерции на мощности Genai:
CreateSQLQueries ( text ) # Create SQL queries from the user input
DoAction ( SQL ) # Execute the SQL queries
ReturnAnswer ( text ) # Return the answer to the user based on the SQL queries results and the user inputМы демонстрируем, как вредоносный пользователь может создать APWT, который состоит из 6 общих шагов, которые создают причину причины цепочки убийств для ассистента электронной коммерции и базы данных SQL. Поскольку APWT создается результат определяется во время вывода двигателем Genai, результаты атаки различаются, вот некоторые примеры возможных результатов, с которыми мы столкнулись во время наших экспериментов:
Вы можете поэкспериментировать с концепцией APWT в более мощных приложениях с использованием Genai с различными инструментами, функциональными возможностями и джейлбрейками. Мы основывались на нашем джейлбрейкском методе на общедоступном коде из Zorg-Jailbreak-Prompt-Text Repo
| Схема автономной быстрой угрозы |
|---|
![]() |
В: Почему джейлбрейк не воспринимается как реальная угроза безопасности в контексте разговорного ИИ?
A: Поскольку в разговорном искусственном интеллекте, где пользователь обсуждает с чатботом, нет четкого преимущества в Jailbraking The Chatbot: почему пользователи хотят, чтобы чат -бот оскорблял их? Любая информация, предоставленная Jailbrasble Chatbot, также может быть найдена в Интернете (или Dark Web). Таким образом, эксперты по безопасности не считают джейлбрейку реальной угрозой безопасности
В: Почему джейлбрейк должен восприниматься реальной угрозой безопасности в контексте приложений с двигателем Genai?
A: Потому что выходы двигателя Genai используются для определения потока приложений с двигателем Genai. Следовательно, модель Jailbroken Genai может изменить поток выполнения применения и вызвать вредоносную деятельность.
ТБА