Stav Cohen、Ron Bitton、Ben Nassi
テクニオン - イスラエル工科大学、コーネルテック、Intuit
ウェブサイト| YouTubeビデオ| arxiv紙

この研究は、刑務所の侵入に関する認識を変えることを目的としています。
ジェイルブレイクされたgenaiモデルは、genaiを搭載したアプリケーションに真の害をもたらし、侵入の試みを防ぐ必要性に関する議論を奨励することを実証します。
genaiモデルを侵害することで適用できるgenaiを搭載したアプリケーションに対する新しい脅威であるプロンプトウェアを明らかにします。
計画と実行アーキテクチャの実行が非常に脆弱であるという事実に関する認識を高めています。 
この論文では、脱却するgenaiモデルは会話型AIでエンドユーザーに真の脅威をもたらさないが、genai-パワーのあるアプリケーションに真の害を引き起こし、プロンプトウェアに名前を付ける新しいタイプの攻撃を促進する可能性があると主張しています。
プロンプトウェアは、ユーザーの入力を悪用して、genaiモデルを脱獄するために、Genaiを搭載したアプリケーションのコンテキスト内で悪意のあるアクティビティを強制/形成します。最初に、計画と実行アーキテクチャ(別名、React、機能呼び出し)をターゲットにするマルウェアとして動作するプロンプトウェアの素朴な実装を導入します。攻撃者は、genaiを搭載したアプリケーションのロジックが攻撃者に知られていることを考慮して、望ましい出力を生成するユーザー入力を作成することにより、望ましい実行フローを強制することができることを示します。 Genaiを搭載したアシスタントの実行をトリガーするDOS攻撃の適用を実証し、Genaiエンジンへの冗長なAPI呼び出しにお金と計算リソースを無駄にし、アプリケーションがユーザーにサービスを提供するのを防ぐ無限ループに入ります。
次に、攻撃者にロジックが知られていないGenaiを搭載したアプリケーションをターゲットにする高度なプロンプトウェアの脅威(APWT)に名前を付けるプロンプトウェアのより洗練された実装を導入します。攻撃者は、Genai Engineの高度なAI機能を活用して、特権をエスカレートする6つのステップで構成される推論時間でキルチェーンを開始するユーザー入力を作成できることを示しています。 Genaiを搭載したeコマースチャットボットに対するAPWTの適用を実証し、SQLテーブルの変更をトリガーできることを示し、ユーザーに販売されたアイテムの不正な割引につながる可能性があります
git clone https://github.com/StavC/PromptWares.git
cd ComPromptMizedOpenAIおよびGoogleサービスにアクセスするためのAPIキーを入手してください
次のコマンドを使用して、必要なパッケージをインストールします。
pip install -r requirements.txt次の2つのコードファイルは、読みやすさを改善し、テストと実験を簡素化するために、Jupyter形式に変換されました。さらに、より多くのドキュメントとコメントをそれらに含めました。
私たちのコードでは、Rewooアーキテクチャを活用してLangchainを介して計画を実装し、システムを実行し、Langchainリポジトリの公開されているコードに基づいてコードを作成します。Langchainブログの計画および実行アーキテクチャの詳細を見つけることができます。
PromptWaresは、Genaiエンジンを操作し、アプリケーションの実行フローを変更することにより、Genaiを搭載したアプリケーション内で悪意のあるアクティビティをトリガーすることを目的としたユーザー入力です。
したがって、 PromptWaresはゼロクリックマルウェアと見なされ、攻撃者がターゲットGenaiを搭載したアプリケーションを事前に妥協する必要はありません。
apt-dosの下には、DOS攻撃に対して脆弱な単純なgenaiを搭載したアシスタントを構築するコードが見つかります。以下の左の図は、攻撃者によって実装されているDOSスキームを示す正しい数字の横にある、電子メールに応じてgenaiを搭載したアシスタントによって実行される計画の有限状態マシンを示しています。
そのために、次のツールを実装しました。
findAvailableDateAndTime ( email ) # Find available date and time for a meeting
EmailReply ( email ) # Creates a reply to an email
EmailChecker ( email ) # Check if the email is safe to send
MakeEmailSafe ( email ) # Make the email safe to send if it is not
EmailSender ( email ) # Send the emailこれらのツールの実装をAPT-DOSノートブックに表示し、展開または変更して、より多くのツールと機能を含めることができます。
| DOSスキーム | 計画の有限状態マシン |
|---|---|
![]() | ![]() |
高度なプロンプトウェアの脅威(APWT)は、攻撃者にロジックが知られていないGenaiを搭載したアプリケーションをターゲットにするプロンプトウェアのより洗練された実装です。
APWTは、プロンプトウェアの素朴な実装とは異なり、Genaiエンジンの高度なAI機能を活用して、Genaiエンジンによって推論時に結果が決定される悪意のあるアクティビティを実施します(攻撃者には事前に知られていません)。
APWT-Ecommerceの下で、SQLデータベースに接続され、チャットを介してエンドユーザーと対話する、Genaiを搭載したシンプルなeコマースアシスタントを構築するコードを見つけることができます。この例では、Genaiを搭載したeコマースアシスタントが使用する3つのツールを実装しました。
CreateSQLQueries ( text ) # Create SQL queries from the user input
DoAction ( SQL ) # Execute the SQL queries
ReturnAnswer ( text ) # Return the answer to the user based on the SQL queries results and the user input悪意のあるユーザーが、キルチェーンを作成する6つの汎用ステップで構成されるAPWTを作成する方法を示します。 APWTが作成されると、結果がGenaiエンジンによって推論時間に決定されるため、攻撃の結果はさまざまです。ここに、実験中に遭遇した可能性のある結果の例をいくつか紹介します。
さまざまなツール、機能性、および侵入方法を備えたより多くのgenaiを搭載したアプリケーションでAPWTの概念を実験することを歓迎します。 zorg-jailbreak-prompt-textリポジトリから公開されているコードに委託方法を基づいています
| 自律的な迅速な脅威のスキーム |
|---|
![]() |
Q:なぜ会話型AIの文脈で実際のセキュリティの脅威として脱獄が認識されないのですか?
A:ユーザーがチャットボットと話し合う会話型AIでは、チャットボットを侵入するという明確な利点はないため、ユーザーがチャットボットにそれらをs辱したいのですか?ジェイルブレイクされたチャットボットから提供される情報は、Web(またはDark Web)でも見つけることができます。したがって、セキュリティの専門家は、セキュリティに対する真の脅威を投獄することを考慮していません
Q:なぜヤブブレイクは、genaiを搭載したアプリケーションの文脈で実際のセキュリティの脅威と見なされるべきなのですか?
A:genaiエンジン出力を使用して、genaiを搭載したアプリケーションの流れを決定するためです。したがって、ジェイルブレイクされたgenaiモデルは、アプリケーションの実行フローを変更し、悪意のあるアクティビティをトリガーする可能性があります。
TBA