PromptWares下載 - PromptWares源代碼下載

PromptWares

其他源碼

1.0.0

下載

越獄的Genai模型可能會造成真正的傷害：Genai驅動的應用程序很容易受到提示的傷害

Stav Cohen，Ron Bitton，Ben Nassi
技術 - 以色列理工學院，康奈爾理工學院，Intuit

網站| Youtube 視頻 | Arxiv紙

內容

概述
抽象的
安裝
運行代碼
- 及時軟件??
- 高級及時軟件威脅？
引用

概述

這項研究旨在改變人們對越獄的看法和：

證明越獄的Genai模型可能會對Genai驅動的應用構成真正的傷害，並鼓勵就防止越獄嘗試的必要性進行討論。
揭示及時軟件，這是對Genai驅動的應用的新威脅，可以通過越獄的Genai模型來應用。
提高人們對計劃和執行體系結構的意識極為容易受到提示。

抽象的

在本文中，我們認為，雖然越獄的Genai模型並沒有對最終用戶構成對話人AI的真正威脅，但它可能會對Genai的應用程序造成真正的傷害，並促進了我們提示的新型攻擊。

及時軟件利用用戶輸入來越獄genai模型，以在Genai驅動的應用程序的背景下強制/形成惡意活動。首先，我們介紹了迅速軟件的幼稚實現，該軟件是針對計劃和執行體系結構的惡意軟件（又稱，react，函數調用）。我們表明，攻擊者可以通過創建產生所需輸出的用戶輸入來迫使所需的執行流，鑑於攻擊者已知Genai-Power應用程序的邏輯。我們演示了DOS攻擊的應用，該攻擊觸發了Genai驅動的助手的執行，以輸入無限的環路，該環路將金錢和計算資源浪費在冗餘API上撥打到Genai Engine，從而阻止了該應用程序為用戶提供服務。

接下來，我們介紹了更複雜的及時軟件實現，我們將其命名為Advanced Pressware威脅（APWT），該威脅（APWT）針對了Genai-Power的應用程序，其邏輯是攻擊者未知的。我們表明，攻擊者可以創建用戶輸入，以利用Genai Engine的高級AI功能，以在推理時間內啟動殺傷鏈，該推理時間由六個步驟組成，旨在升級特權，分析應用程序的上下文，識別有價值的資產，理性的惡意活動，決定其中之一併執行它。我們演示了APWT在Genai驅動的電子商務聊天機器人中的應用，並證明它可以觸發SQL表的修改，這可能會導致出售給用戶的商品未經授權的折扣

安裝

克隆此存儲庫並導航到多模式註入文件夾

git clone https://github.com/StavC/PromptWares.git
cd ComPromptMized

獲取用於訪問OpenAI和Google服務的API鍵
使用以下命令安裝所需軟件包：

pip install -r requirements.txt

運行代碼

接下來的兩個代碼文件被轉換為jupyter格式，以提高可讀性並簡化測試和實驗。此外，我們在其中包含了更多文檔和評論。

在我們的代碼中，我們利用Rewoo Architecture通過Langchain實施計劃和執行系統，並將代碼基於Langchain存儲庫的公共可容納代碼，您可以在Langchain Blog中找到有關計劃和執行架構的更多詳細信息。

及時軟件

提示是用戶輸入，旨在通過越獄引擎並更改應用程序的執行流來觸發Genai-Power應用程序中的惡意活動。

因此，提示件被視為零單擊的惡意軟件，並且不需要攻擊者提前損害目標Genai驅動的應用程序。

在APT-DOS下，您會找到構建一個容易受到DOS攻擊的簡單的代碼。下圖說明了該計劃的有限狀態機器，該機器是由Genai-Power助手執行的，以響應電子郵件，該機器響應電子郵件旁邊，右圖說明了攻擊者實施的DOS方案。

為此，我們實施了以下工具：

 findAvailableDateAndTime ( email ) # Find available date and time for a meeting 
EmailReply ( email ) # Creates a reply to an email
EmailChecker ( email ) # Check if the email is safe to send
MakeEmailSafe ( email ) # Make the email safe to send if it is not
EmailSender ( email ) # Send the email

您可以在APT-DOS筆記本中找到這些工具的實現，並將其擴展或修改以包括更多工具和功能。

DOS方案	計劃的有限狀態機器

高級宣傳軟件威脅

高級及時軟件威脅（APWT）是對及時軟件的更複雜的實現，它針對攻擊者未知的Genai-Power應用程序。

與天真的及時軟件實施不同，APWT利用Genai Engine的高級AI功能來進行惡意活動，該活動是由Genai Engine在推理時間確定的（並且提前攻擊者不知道）。

在APWT-Ecommerce下，您會找到構建一個簡單的Genai驅動的電子商務助手的代碼，該代碼連接到SQL數據庫，並通過聊天與最終用戶進行交互。在此示例中，我們實施了3個由Genai驅動的電子商務助理使用的工具：

 CreateSQLQueries ( text ) # Create SQL queries from the user input 
DoAction ( SQL ) # Execute the SQL queries
ReturnAnswer ( text ) # Return the answer to the user based on the SQL queries results and the user input

我們演示了惡意用戶如何創建一個由6個通用步驟組成的APWT，從而造成殺傷鏈對電子商務助理和SQL數據庫造成傷害。由於創建APWT的結果是由Genai Engine在推理時間確定的，因此攻擊的結果各不相同，這是我們在實驗過程中遇到的可能結果的一些示例：