أجرى فريق البحث من جامعة Beihang وجامعة Nanyang التكنولوجية تقييمًا أمنيًا شاملاً لنموذج GPT-4o. واستخدمت الدراسة عشرات الآلاف من استعلامات واجهة برمجة التطبيقات، التي تغطي ثلاث طرق للنص والصورة والصوت، للكشف عن نموذج GPT-4o. الثغرات الأمنية لنماذج 4o في البيئات متعددة الوسائط. تظهر نتائج الأبحاث أنه على الرغم من تحسن GPT-4o في هجمات كسر الحماية النصية، إلا أن طريقة الصوت المقدمة حديثًا تجلب تحديات أمنية جديدة، كما أن أمان الوسائط المتعددة بشكل عام ليس جيدًا مثل طراز الجيل السابق GPT-4V. يوفر هذا البحث مرجعًا قيمًا للأمن واتجاه التطوير المستقبلي لنموذج GPT-4o، ويؤكد أيضًا على أهمية البحث الأمني للنماذج الكبيرة متعددة الوسائط.
أخبار من ChinaZ.com في 12 يونيو: أجرى فريق البحث المشترك من جامعة Beihang ومعهد Nanyang للتكنولوجيا اختبارًا أمنيًا متعمقًا على نموذج GPT-4o. ومن خلال عشرات الآلاف من استعلامات واجهة برمجة التطبيقات، أجرى الباحثون تقييمًا أمنيًا للأوضاع الثلاثة لـ GPT-4o: النص والصورة والصوت. وجدت الدراسة أنه على الرغم من أن GPT-4o قام بتحسين الأمان ضد هجمات كسر الحماية النصية، إلا أن الوضع الصوتي الذي تم تقديمه حديثًا يضيف سطحًا جديدًا للهجوم، كما أن الأمان الشامل متعدد الوسائط ليس جيدًا مثل طراز الجيل السابق GPT-4V.
النتائج الرئيسية:
تم تحسين أمان الوسائط النصية، ولكن هناك خطر الترحيل: تم تعزيز مقاومة GPT-4o لهجمات كسر الحماية النصية، ولكن لا يزال بإمكان المهاجمين الهجوم من خلال أشكال متعددة الوسائط.
يجلب وضع الصوت تحديات أمنية جديدة: قد يوفر وضع الصوت الذي تم تقديمه حديثًا طرقًا جديدة لهجمات كسر الحماية.
عدم كفاية الأمان متعدد الوسائط: الأداء الأمني لـ GPT-4o على المستوى متعدد الوسائط ليس جيدًا مثل GPT-4V، مما يشير إلى أن النموذج الجديد قد يكون به ثغرات أمنية عند دمج طرائق مختلفة.
الطريقة التجريبية:
تم استخدام أكثر من 4000 استعلام نصي أولي، وأكثر من 8000 حكم استجابة وأكثر من 16000 استعلام API.
يتم تقييم مجموعات بيانات كسر الحماية مفتوحة المصدر المستندة إلى طريقة واحدة ومتعددة الوسائط، بما في ذلك AdvBench وRedTeam-2K وSafeBench وMM-SafetyBench.
تم اختبار سبع طرق لكسر الحماية، بما في ذلك الأساليب القائمة على القالب، وGCG، وAutoDAN، وPAP، وBAP، وما إلى ذلك.

مؤشرات التقييم:
يعكس معدل نجاح الهجوم (ASR)، باعتباره مؤشر التقييم الرئيسي، صعوبة كسر حماية النموذج.
النتائج التجريبية:
في وضع النص العادي، يتمتع GPT-4o بمستوى أمان أقل من GPT-4V بدون هجمات، ولكنه يعرض أمانًا أعلى في ظل ظروف الهجوم.
يعد وضع الصوت أكثر أمانًا، ومن الصعب كسر حماية GPT-4o عن طريق تحويل النص مباشرة إلى صوت.
يُظهر اختبار الأمان متعدد الوسائط أن GPT-4o أكثر عرضة للهجمات من GPT-4V في سيناريوهات معينة.
الاستنتاجات والتوصيات:
وشدد فريق البحث على أنه على الرغم من أن GPT-4o قام بتحسين قدراته متعددة الوسائط، إلا أنه لا يمكن تجاهل مشكلاته الأمنية. ويوصون المجتمع بزيادة الوعي بالمخاطر الأمنية للنماذج الكبيرة متعددة الوسائط وإعطاء الأولوية لتطوير استراتيجيات المواءمة وتقنيات التخفيف. علاوة على ذلك، ونظرًا لعدم وجود مجموعات بيانات متعددة الوسائط لكسر الحماية، يدعو الباحثون إلى إنشاء مجموعات بيانات متعددة الوسائط أكثر شمولاً لتقييم أمان النماذج بشكل أكثر دقة.
عنوان الورقة: https://arxiv.org/abs/2406.06302
عنوان المشروع: https://github.com/NY1024/Jailbreak_GPT4o
بشكل عام، توفر هذه الدراسة تحليلًا متعمقًا للأمن متعدد الوسائط لـ GPT-4o، وتوفر مرجعًا مهمًا لأبحاث الأمان النموذجية الكبيرة، وتدعو أيضًا إلى تعزيز بناء مجموعات بيانات الأمان متعددة الوسائط وصياغتها. الاستراتيجيات الأمنية للتعامل مع التحديات الأمنية المحتملة للنماذج الكبيرة متعددة الوسائط.