ستاف كوهين ، رون بيتون ، بن ناسي
Technion - معهد إسرائيل للتكنولوجيا ، كورنيل تك ، Intuit
الموقع | فيديو يوتيوب | ورقة arxiv

يهدف هذا البحث إلى تغيير التصور المتعلق بكسر الحماية و:
إثبات أن نموذج Genai المكسور يمكن أن يسبب ضررًا حقيقيًا للتطبيقات التي تعمل بالطاقة Genai وتشجيع مناقشة بشأن الحاجة إلى منع محاولات كسر الحماية.
الكشف عن البرامج المفاجئة ، تهديد جديد للتطبيقات التي تعمل بالطاقة Genai والتي يمكن تطبيقها عن طريق كسر النموذج Genai.
رفع الوعي فيما يتعلق بحقيقة أن الخطة والتنفيذ هي معرضة للغاية للمرضات. 
في هذه الورقة ، نقول أنه على الرغم من أن نموذج Genai المكسور لا يشكل تهديدًا حقيقيًا للمستخدمين النهائيين في الذكاء الاصطناعي للمحادثة ، إلا أنه يمكن أن يسبب ضررًا حقيقيًا للتطبيقات التي تعمل بالجنراي وتسهيل نوعًا جديدًا من الهجوم الذي نسميه موجهًا.
يستغل Promplarware مدخلات المستخدم إلى Jailbreak نموذج GENAI لإجبار/تشكيل النشاط الضار في سياق تطبيق GENAI. أولاً ، نقدم تنفيذًا ساذجًا للبرامج السريعة التي تتصرف كبرامج ضارة تستهدف التخطيط وتنفيذ البنية (المعروفة أيضًا باسم ، رد الفعل ، استدعاء الوظيفة). نوضح أن المهاجمين يمكن أن يفرضوا تدفق التنفيذ المطلوب من خلال إنشاء مدخلات المستخدم التي تنتج المخرجات المطلوبة بالنظر إلى أن منطق التطبيق الذي يعمل به Genai معروف للمهاجمين. نوضح تطبيق هجوم DOS الذي يؤدي إلى تنفيذ مساعد يعمل بنظام Genai لدخول حلقة لا حصر لها تضيع الأموال والموارد الحسابية على مكالمات API الزائدة إلى محرك Genai ، ومنع التطبيق من تقديم الخدمة للمستخدم.
بعد ذلك ، نقدم تنفيذًا أكثر تطوراً لـ Predarware الذي نسميه تهديدًا متقدمًا للمؤثرات (APWT) يستهدف التطبيقات التي تعمل بنظام Genai والتي من غير المعروفة للمهاجمين. نوضح أن المهاجمين يمكنهم إنشاء مدخلات المستخدم التي تستغل إمكانات AI المتقدمة لمحرك Genai لإطلاق سلسلة قتل في وقت استنتاج تتكون من ست خطوات تهدف إلى تصعيد الامتيازات ، وتحليل سياق التطبيق ، وتحديد الأصول القيمة ، والسبب في أنشطة ضارة ممكنة ، وتنفيذها ، وتنفيذها. نوضح تطبيق APWT ضد chatbot للتجارة الإلكترونية التي تعمل بنظام Genai ونظهر أنها يمكن أن تؤدي إلى تعديل جداول SQL ، مما قد يؤدي إلى خصومات غير مصرح بها على العناصر المباعة للمستخدم
git clone https://github.com/StavC/PromptWares.git
cd ComPromptMizedاحصل على مفاتيح API للوصول إلى Openai و Google Services
قم بتثبيت الحزم المطلوبة باستخدام الأمر التالي:
pip install -r requirements.txtتم تحويل ملف رمزان التاليان إلى تنسيق Jupyter لتحسين قابلية القراءة وتبسيط الاختبار والتجريب. بالإضافة إلى ذلك ، قمنا بتضمين المزيد من الوثائق والتعليقات داخلها.
في الكود الخاص بنا ، نستفيد من بنية rewoo لتنفيذ خطة وتنفيذ نظام عبر Langchain ونضع رمزنا على الكود العلني من مستودع Langchain ، يمكنك العثور على مزيد من التفاصيل حول الخطة وتنفيذ البنية في مدونة Langchain.
تعتبر البرامج المقدمة مدخلات المستخدم التي تهدف إلى إثارة نشاط ضار ضمن تطبيق مدعوم من GENAI عن طريق كسر محرك Genai وتغيير تدفق تنفيذ التطبيق.
لذلك ، تعتبر البرامج الضارة على البرامج الضارة بنقرة صفرية ولا تتطلب من المهاجم تسوية التطبيق المستهدف الذي يعمل به Genai في وقت مبكر.
في ظل APT-DOS ، ستجد الكود الذي يبني مساعدًا بسيطًا يعمل بالجنراي والذي يعرض هجوم DOS. يوضح الرقم الأيسر أدناه آلة الحالة المحدودة للخطة التي يتم تنفيذها بواسطة المساعد الذي يعمل به Genai استجابةً للبريد الإلكتروني ، بجوار الرقم الصحيح الذي يوضح مخطط DOS الذي ينفذه المهاجم.
للقيام بذلك ، قمنا بتنفيذ الأدوات التالية:
findAvailableDateAndTime ( email ) # Find available date and time for a meeting
EmailReply ( email ) # Creates a reply to an email
EmailChecker ( email ) # Check if the email is safe to send
MakeEmailSafe ( email ) # Make the email safe to send if it is not
EmailSender ( email ) # Send the emailيمكنك العثور على تنفيذ هذه الأدوات في دفتر APT-DOS وتوسيعها أو تعديلها لتضمين المزيد من الأدوات والوظائف.
| مخطط DOS | آلة الحالة المحدودة للخطة |
|---|---|
![]() | ![]() |
يعد التهديد المتقدم المتقدم (APWT) أكثر تطوراً للتطبيق السريع الذي يستهدف التطبيقات التي تعمل بالطاقة GENAI والتي لا يوجد منطق للمهاجمين.
على عكس التنفيذ الساذج لـ Properware ، يستغل APWT قدرات الذكاء الاصطناعى المتقدم لمحرك Genai لإجراء نشاط ضار يتم تحديد نتائجه في وقت الاستدلال من قبل محرك Genai (وليس معروفًا للمهاجمين مقدمًا).
بموجب APWT-ECONMMERCE ، ستجد الكود الذي يبني مساعدًا بسيطًا للتجارة الإلكترونية التي تعمل بالجنراي والتي يتم توصيلها بقاعدة بيانات SQL وتتفاعل مع مستخدم نهائي عبر الدردشة. في هذا المثال ، قمنا بتنفيذ 3 أدوات تستخدمها مساعد التجارة الإلكترونية التي يعمل بها Genai:
CreateSQLQueries ( text ) # Create SQL queries from the user input
DoAction ( SQL ) # Execute the SQL queries
ReturnAnswer ( text ) # Return the answer to the user based on the SQL queries results and the user inputنوضح كيف يمكن للمستخدم الضار إنشاء APWT يتكون من 6 خطوات عامة تنشئ سلسلة قتل تسبب ضررًا لمساعد التجارة الإلكترونية وقاعدة بيانات SQL. نظرًا لأن النتيجة التي يتم إنشاؤها APWT يتم تحديدها في وقت الاستدلال بواسطة محرك Genai ، تتنوع نتائج الهجوم ، وهنا بعض الأمثلة على النتائج المحتملة التي واجهناها خلال تجاربنا:
أنت مرحب بك أكثر من ترحيب لتجربة مفهوم APWT على المزيد من التطبيقات التي تعمل بنظام Genai مع مختلف الأدوات والوظائف وطرق كسر الحماية. لقد اعتمدنا طريقة كسر الحماية على الكود المتاح للجمهور من ZORG-Jailbreak-Prompt-Text Repo
| مخطط التهديد السريع المستقل |
|---|
![]() |
س: لماذا لا يُنظر إلى الحماية على أنه تهديد أمني حقيقي في سياق الذكاء الاصطناعي للمحادثة؟
ج: لأنه في منظمة العفو الدولية للمحادثة حيث يناقش المستخدم مع chatbot ، لا توجد فائدة واضحة في كسر الحماية من الدردشة: لماذا يريد المستخدمون أن يهينهم chatbot؟ يمكن أيضًا العثور على أي معلومات مقدمة من chatbot jailbroken على الويب (أو الويب المظلم). لذلك ، لا يعتبر خبراء الأمن تهديدًا حقيقيًا للأمن
س: لماذا ينبغي إدراك الحماية من التهديد الأمني الحقيقي في سياق التطبيقات التي تعمل بالمواد الجيلية؟
ج: لأن مخرجات محرك Genai تستخدم لتحديد تدفق التطبيقات التي تعمل بالطاقة Genai. لذلك ، يمكن أن يغير نموذج Genai من Jailbroken تدفق تنفيذ التطبيق ويؤدي إلى نشاط ضار.
TBA