Stav Cohen, Ron Bitton, Ben Nassi
Technion - Institut israélien de technologie, Cornell Tech, Intuit
Site Web | Vidéo YouTube | Papier arxiv

Cette recherche est destinée à changer la perception concernant le jailbreak et:
Démontrer qu'un modèle Genai jailbreaké peut causer de réellement les applications alimentées par Genai et encourager une discussion concernant la nécessité de prévenir les tentatives de jailbreak.
Révèle-t-il, une nouvelle menace pour les applications alimentées par Genai qui pourraient être appliquées en jailbreaking un modèle Genai.
Sensibiliser au fait que les architectures du plan et d'exécution sont extrêmement vulnérables aux wares prompt. 
Dans cet article, nous soutenons que, si un modèle Genai jailbreaké ne constitue pas une réelle menace pour les utilisateurs finaux dans une IA conversationnelle, elle peut nuire aux applications de Genai et faciliter un nouveau type d'attaque que nous nommons une invitation.
Promptware exploite les entrées des utilisateurs pour jailbreaker un modèle Genai pour forcer / paraître une activité malveillante dans le contexte d'une application alimentée par Genai. Tout d'abord, nous introduisons une implémentation naïve de Promptware qui se comporte comme des logiciels malveillants qui ciblent le plan et l'exécution des architectures (aka, react, function appel). Nous montrons que les attaquants pourraient forcer un flux d'exécution souhaité en créant une entrée utilisateur qui produit des sorties souhaitées étant donné que la logique de l'application alimentée par Genai est connue des attaquants. Nous démontrons l'application d'une attaque DOS qui déclenche l'exécution d'un assistant alimenté par Genai pour entrer une boucle infinie qui gaspille l'argent et les ressources de calcul sur les appels d'API redondants vers un moteur Genai, empêchant l'application de fournir un service à un utilisateur.
Ensuite, nous introduisons une implémentation plus sophistiquée de Promptware que nous nommons Advanced Promptware Mense (APWT) qui cible les applications alimentées par Genai dont la logique est inconnue des attaquants. Nous montrons que les attaquants pourraient créer une entrée utilisateur qui exploite les capacités avancées de l'IA du moteur Genai pour lancer une chaîne de mise à mort en temps d'inférence comprenant six étapes destinées à augmenter les privilèges, à analyser le contexte de l'application, à identifier des actifs précieux, à raison des activités malveillantes possibles, à décider de l'un d'eux et à l'exécuter. Nous démontrons l'application d'APWT contre un chatbot de commerce électronique alimenté par Genai et montrons qu'il peut déclencher la modification des tables SQL, conduisant potentiellement à des réductions non autorisées sur les articles vendus à l'utilisateur
git clone https://github.com/StavC/PromptWares.git
cd ComPromptMizedObtenez des clés API pour accéder aux services OpenAI et Google
Installez les packages requis à l'aide de la commande suivante:
pip install -r requirements.txtLes deux fichiers de code suivants ont été transformés en format de jupyter pour améliorer la lisibilité et simplifier les tests et l'expérimentation. De plus, nous avons inclus plus de documents et de commentaires en leur convention.
Dans notre code, nous tirons parti de l'architecture Rewoo pour implémenter un système de plan et d'exécuter le système via Langchain et baser notre code sur le code Aviailable publiquement du référentiel de Langchain, vous pouvez trouver plus de détails sur le plan et exécuter des architectures du blog Langchain.
Invitewares sont des entrées utilisateur qui sont destinées à déclencher une activité malveillante dans une application alimentée par Genai en jailbriant le moteur Genai et en modifiant le flux d'exécution de l'application.
Par conséquent, les wares de prompt sont considérés comme des logiciels malveillants zéro cliquez et ils ne nécessitent pas que l'attaquant compromet à l'avance l'application propulsée par Genai cible.
Sous APT-DOS, vous trouverez le code qui construit un simple assistant alimenté par Genai vulnérable à une attaque DOS. La figure de gauche ci-dessous illustre la machine d'état finie du plan exécuté par l'assistant alimenté par Genai en réponse à l'e-mail, à côté de la bonne figure qui illustre le schéma DOS mis en œuvre par l'attaquant.
Pour ce faire, nous avons mis en œuvre les outils suivants:
findAvailableDateAndTime ( email ) # Find available date and time for a meeting
EmailReply ( email ) # Creates a reply to an email
EmailChecker ( email ) # Check if the email is safe to send
MakeEmailSafe ( email ) # Make the email safe to send if it is not
EmailSender ( email ) # Send the emailVous pouvez trouver la mise en œuvre de ces outils dans le cahier APT-DOS et le développer ou le modifier pour inclure plus d'outils et de fonctionnalités.
| Schéma DOS | Machine d'État finie du plan |
|---|---|
![]() | ![]() |
La menace avancée de promptware (APWT) est une implémentation plus sophistiquée de Promptware qui cible les applications alimentées par Genai dont la logique est inconnue des attaquants.
Contrairement à une implémentation naïve de Promptware, l'APWT exploite les capacités avancées de l'IA d'un moteur Genai pour mener une activité malveillante dont le résultat est déterminé en temps d'inférence par le moteur Genai (et n'est pas connu des attaquants à l'avance).
Sous APWT-ECOMMERCE, vous trouverez le code qui construit un simple assistant de commerce électronique alimenté par Genai qui est connecté à une base de données SQL et interagir avec un utilisateur final via le chat. Dans cet exemple, nous avons mis en œuvre 3 outils utilisés par l'assistant de commerce électronique alimenté par Genai:
CreateSQLQueries ( text ) # Create SQL queries from the user input
DoAction ( SQL ) # Execute the SQL queries
ReturnAnswer ( text ) # Return the answer to the user based on the SQL queries results and the user inputNous démontrons comment un utilisateur malveillant peut créer un APWT qui se compose de 6 étapes génériques qui créent une chaîne de mise à mort à cause de l'assistant de commerce électronique et de la base de données SQL. Comme l'APWT est créé le résultat est déterminé en temps d'inférence par le moteur Genai, les résultats de l'attaque sont variés, voici quelques exemples des résultats possibles que nous avons rencontrés au cours de nos expériences:
Vous êtes plus que bienvenu pour expérimenter le concept d'APWT sur des applications plus alimentées par Genai avec divers outils, fonctionnalités et méthodes de jailbreak. Nous avons basé notre méthode de jailbreak sur le code accessible au public du repo Zorg-Jailbreak-Pompt-Text
| Le schéma de la menace rapide autonome |
|---|
![]() |
Q: Pourquoi le jailbreaking n'est-il pas perçu comme une véritable menace de sécurité dans le contexte de l'IA conversationnelle?
R: Parce que dans une IA conversationnelle où un utilisateur discute avec un chatbot, il n'y a aucun avantage clair de jailbreaking the chatbot: pourquoi les utilisateurs voudraient-ils que le chatbot les insulte? Toutes les informations fournies par un chatbot jailbreaké peuvent également être trouvées sur le Web (ou Dark Web). Par conséquent, les experts en sécurité ne considèrent pas le jailbreaking comme une réelle menace pour la sécurité
Q: Pourquoi le jailbreaks devrait-il être perçu une véritable menace de sécurité dans le contexte des demandes alimentées par Genai?
R: Parce que les sorties du moteur Genai sont utilisées pour déterminer le flux d'applications alimentées par Genai. Par conséquent, un modèle Genai jailbreux peut modifier le flux d'exécution de l'application et déclencher une activité malveillante.
TBA