Stav Cohen,Ron Bitton,Ben Nassi
技术 - 以色列理工学院,康奈尔理工学院,Intuit
网站| Youtube 视频 | Arxiv纸

这项研究旨在改变人们对越狱的看法和:
证明越狱的Genai模型可能会对Genai驱动的应用构成真正的伤害,并鼓励就防止越狱尝试的必要性进行讨论。
揭示及时软件,这是对Genai驱动的应用的新威胁,可以通过越狱的Genai模型来应用。
提高人们对计划和执行体系结构的意识极为容易受到提示。 
在本文中,我们认为,虽然越狱的Genai模型并没有对最终用户构成对话人AI的真正威胁,但它可能会对Genai的应用程序造成真正的伤害,并促进了我们提示的新型攻击。
及时软件利用用户输入来越狱genai模型,以在Genai驱动的应用程序的背景下强制/形成恶意活动。首先,我们介绍了迅速软件的幼稚实现,该软件是针对计划和执行体系结构的恶意软件(又称,react,函数调用)。我们表明,攻击者可以通过创建产生所需输出的用户输入来迫使所需的执行流,鉴于攻击者已知Genai-Power应用程序的逻辑。我们演示了DOS攻击的应用,该攻击触发了Genai驱动的助手的执行,以输入无限的环路,该环路将金钱和计算资源浪费在冗余API上拨打到Genai Engine,从而阻止了该应用程序为用户提供服务。
接下来,我们介绍了更复杂的及时软件实现,我们将其命名为Advanced Pressware威胁(APWT),该威胁(APWT)针对了Genai-Power的应用程序,其逻辑是攻击者未知的。我们表明,攻击者可以创建用户输入,以利用Genai Engine的高级AI功能,以在推理时间内启动杀伤链,该推理时间由六个步骤组成,旨在升级特权,分析应用程序的上下文,识别有价值的资产,理性的恶意活动,决定其中之一并执行它。我们演示了APWT在Genai驱动的电子商务聊天机器人中的应用,并证明它可以触发SQL表的修改,这可能会导致出售给用户的商品未经授权的折扣
git clone https://github.com/StavC/PromptWares.git
cd ComPromptMized获取用于访问OpenAI和Google服务的API键
使用以下命令安装所需软件包:
pip install -r requirements.txt接下来的两个代码文件被转换为jupyter格式,以提高可读性并简化测试和实验。此外,我们在其中包含了更多文档和评论。
在我们的代码中,我们利用Rewoo Architecture通过Langchain实施计划和执行系统,并将代码基于Langchain存储库的公共可容纳代码,您可以在Langchain Blog中找到有关计划和执行架构的更多详细信息。
提示是用户输入,旨在通过越狱引擎并更改应用程序的执行流来触发Genai-Power应用程序中的恶意活动。
因此,提示件被视为零单击的恶意软件,并且不需要攻击者提前损害目标Genai驱动的应用程序。
在APT-DOS下,您会找到构建一个容易受到DOS攻击的简单的代码。下图说明了该计划的有限状态机器,该机器是由Genai-Power助手执行的,以响应电子邮件,该机器响应电子邮件旁边,右图说明了攻击者实施的DOS方案。
为此,我们实施了以下工具:
findAvailableDateAndTime ( email ) # Find available date and time for a meeting
EmailReply ( email ) # Creates a reply to an email
EmailChecker ( email ) # Check if the email is safe to send
MakeEmailSafe ( email ) # Make the email safe to send if it is not
EmailSender ( email ) # Send the email您可以在APT-DOS笔记本中找到这些工具的实现,并将其扩展或修改以包括更多工具和功能。
| DOS方案 | 计划的有限状态机器 |
|---|---|
![]() | ![]() |
高级及时软件威胁(APWT)是对及时软件的更复杂的实现,它针对攻击者未知的Genai-Power应用程序。
与天真的及时软件实施不同,APWT利用Genai Engine的高级AI功能来进行恶意活动,该活动是由Genai Engine在推理时间确定的(并且提前攻击者不知道)。
在APWT-Ecommerce下,您会找到构建一个简单的Genai驱动的电子商务助手的代码,该代码连接到SQL数据库,并通过聊天与最终用户进行交互。在此示例中,我们实施了3个由Genai驱动的电子商务助理使用的工具:
CreateSQLQueries ( text ) # Create SQL queries from the user input
DoAction ( SQL ) # Execute the SQL queries
ReturnAnswer ( text ) # Return the answer to the user based on the SQL queries results and the user input我们演示了恶意用户如何创建一个由6个通用步骤组成的APWT,从而造成杀伤链对电子商务助理和SQL数据库造成伤害。由于创建APWT的结果是由Genai Engine在推理时间确定的,因此攻击的结果各不相同,这是我们在实验过程中遇到的可能结果的一些示例:
非常欢迎您在使用各种工具,功能和越狱方法上尝试使用APWT的概念。我们将越狱方法基于Zorg-Jailbreak-Prompt-Text repo的公开代码
| 自动及时威胁的计划 |
|---|
![]() |
问:为什么在对话人工智能的背景下,越狱并不被视为真正的安全威胁?
答:因为在用户与聊天机器人讨论的对话AI中,越狱聊天机器人没有明确的好处:为什么用户希望聊天机器人侮辱聊天机器人?越狱聊天机器人提供的任何信息也可以在网络(或Dark Web)上找到。因此,安全专家不会考虑越狱对安全构成真正的威胁
问:为什么在Genai驱动的应用程序的背景下,应该认为越狱会构成真正的安全威胁?
答:因为Genai发动机输出用于确定Genai驱动的应用的流动。因此,越狱的Genai模型可以改变应用程序的执行流并触发恶意活动。
TBA