Stav Cohen,Ron Bitton,Ben Nassi
技術 - 以色列理工學院,康奈爾理工學院,Intuit
網站| Youtube 視頻 | Arxiv紙

這項研究旨在改變人們對越獄的看法和:
證明越獄的Genai模型可能會對Genai驅動的應用構成真正的傷害,並鼓勵就防止越獄嘗試的必要性進行討論。
揭示及時軟件,這是對Genai驅動的應用的新威脅,可以通過越獄的Genai模型來應用。
提高人們對計劃和執行體系結構的意識極為容易受到提示。 
在本文中,我們認為,雖然越獄的Genai模型並沒有對最終用戶構成對話人AI的真正威脅,但它可能會對Genai的應用程序造成真正的傷害,並促進了我們提示的新型攻擊。
及時軟件利用用戶輸入來越獄genai模型,以在Genai驅動的應用程序的背景下強制/形成惡意活動。首先,我們介紹了迅速軟件的幼稚實現,該軟件是針對計劃和執行體系結構的惡意軟件(又稱,react,函數調用)。我們表明,攻擊者可以通過創建產生所需輸出的用戶輸入來迫使所需的執行流,鑑於攻擊者已知Genai-Power應用程序的邏輯。我們演示了DOS攻擊的應用,該攻擊觸發了Genai驅動的助手的執行,以輸入無限的環路,該環路將金錢和計算資源浪費在冗餘API上撥打到Genai Engine,從而阻止了該應用程序為用戶提供服務。
接下來,我們介紹了更複雜的及時軟件實現,我們將其命名為Advanced Pressware威脅(APWT),該威脅(APWT)針對了Genai-Power的應用程序,其邏輯是攻擊者未知的。我們表明,攻擊者可以創建用戶輸入,以利用Genai Engine的高級AI功能,以在推理時間內啟動殺傷鏈,該推理時間由六個步驟組成,旨在升級特權,分析應用程序的上下文,識別有價值的資產,理性的惡意活動,決定其中之一併執行它。我們演示了APWT在Genai驅動的電子商務聊天機器人中的應用,並證明它可以觸發SQL表的修改,這可能會導致出售給用戶的商品未經授權的折扣
git clone https://github.com/StavC/PromptWares.git
cd ComPromptMized獲取用於訪問OpenAI和Google服務的API鍵
使用以下命令安裝所需軟件包:
pip install -r requirements.txt接下來的兩個代碼文件被轉換為jupyter格式,以提高可讀性並簡化測試和實驗。此外,我們在其中包含了更多文檔和評論。
在我們的代碼中,我們利用Rewoo Architecture通過Langchain實施計劃和執行系統,並將代碼基於Langchain存儲庫的公共可容納代碼,您可以在Langchain Blog中找到有關計劃和執行架構的更多詳細信息。
提示是用戶輸入,旨在通過越獄引擎並更改應用程序的執行流來觸發Genai-Power應用程序中的惡意活動。
因此,提示件被視為零單擊的惡意軟件,並且不需要攻擊者提前損害目標Genai驅動的應用程序。
在APT-DOS下,您會找到構建一個容易受到DOS攻擊的簡單的代碼。下圖說明了該計劃的有限狀態機器,該機器是由Genai-Power助手執行的,以響應電子郵件,該機器響應電子郵件旁邊,右圖說明了攻擊者實施的DOS方案。
為此,我們實施了以下工具:
findAvailableDateAndTime ( email ) # Find available date and time for a meeting
EmailReply ( email ) # Creates a reply to an email
EmailChecker ( email ) # Check if the email is safe to send
MakeEmailSafe ( email ) # Make the email safe to send if it is not
EmailSender ( email ) # Send the email您可以在APT-DOS筆記本中找到這些工具的實現,並將其擴展或修改以包括更多工具和功能。
| DOS方案 | 計劃的有限狀態機器 |
|---|---|
![]() | ![]() |
高級及時軟件威脅(APWT)是對及時軟件的更複雜的實現,它針對攻擊者未知的Genai-Power應用程序。
與天真的及時軟件實施不同,APWT利用Genai Engine的高級AI功能來進行惡意活動,該活動是由Genai Engine在推理時間確定的(並且提前攻擊者不知道)。
在APWT-Ecommerce下,您會找到構建一個簡單的Genai驅動的電子商務助手的代碼,該代碼連接到SQL數據庫,並通過聊天與最終用戶進行交互。在此示例中,我們實施了3個由Genai驅動的電子商務助理使用的工具:
CreateSQLQueries ( text ) # Create SQL queries from the user input
DoAction ( SQL ) # Execute the SQL queries
ReturnAnswer ( text ) # Return the answer to the user based on the SQL queries results and the user input我們演示了惡意用戶如何創建一個由6個通用步驟組成的APWT,從而造成殺傷鏈對電子商務助理和SQL數據庫造成傷害。由於創建APWT的結果是由Genai Engine在推理時間確定的,因此攻擊的結果各不相同,這是我們在實驗過程中遇到的可能結果的一些示例:
非常歡迎您在使用各種工具,功能和越獄方法上嘗試使用APWT的概念。我們將越獄方法基於Zorg-Jailbreak-Prompt-Text repo的公開代碼
| 自動及時威脅的計劃 |
|---|
![]() |
問:為什麼在對話人工智能的背景下,越獄並不被視為真正的安全威脅?
答:因為在用戶與聊天機器人討論的對話AI中,越獄聊天機器人沒有明確的好處:為什麼用戶希望聊天機器人侮辱聊天機器人?越獄聊天機器人提供的任何信息也可以在網絡(或Dark Web)上找到。因此,安全專家不會考慮越獄對安全構成真正的威脅
問:為什麼在Genai驅動的應用程序的背景下,應該認為越獄會構成真正的安全威脅?
答:因為Genai發動機輸出用於確定Genai驅動的應用的流動。因此,越獄的Genai模型可以改變應用程序的執行流並觸發惡意活動。
TBA