ทีมวิจัยของมหาวิทยาลัย Beihang และมหาวิทยาลัยเทคโนโลยีนันยางได้ทำการประเมินความปลอดภัยของโมเดล GPT-4o อย่างครอบคลุม การศึกษานี้ใช้แบบสอบถาม API นับหมื่นรายการ ครอบคลุมรูปแบบข้อความ รูปภาพ และเสียง 3 รูปแบบ เพื่อเปิดเผยโมเดล GPT-4o ช่องโหว่ด้านความปลอดภัยของโมเดล 4o ในสภาพแวดล้อมหลายรูปแบบ ผลการวิจัยแสดงให้เห็นว่า แม้ว่า GPT-4o จะได้รับการปรับปรุงการโจมตีด้วยการเจลเบรคด้วยข้อความ แต่รูปแบบเสียงที่เพิ่งเปิดตัวนำมาซึ่งความท้าทายด้านความปลอดภัยใหม่ๆ และการรักษาความปลอดภัยแบบหลายรูปแบบโดยรวมนั้นไม่ดีเท่ากับรุ่นก่อนหน้า GPT-4V งานวิจัยนี้ให้ข้อมูลอ้างอิงที่มีคุณค่าสำหรับทิศทางความปลอดภัยและการพัฒนาในอนาคตของโมเดล GPT-4o และยังเน้นย้ำถึงความสำคัญของการวิจัยโมเดลความปลอดภัยขนาดใหญ่หลายรูปแบบ
ข่าวจาก ChinaZ.com เมื่อวันที่ 12 มิถุนายน: ทีมวิจัยร่วมของมหาวิทยาลัย Beihang และสถาบันเทคโนโลยีนันยาง ได้ทำการทดสอบความปลอดภัยเชิงลึกในรุ่น GPT-4o นักวิจัยได้ทำการประเมินความปลอดภัยในโหมด 3 โหมดของ GPT-4o ผ่านการสืบค้น API นับหมื่นรายการ ได้แก่ ข้อความ รูปภาพ และเสียง ผลการศึกษาพบว่า แม้ว่า GPT-4o จะปรับปรุงการรักษาความปลอดภัยจากการโจมตีด้วยการเจลเบรคด้วยข้อความ แต่โหมดเสียงที่เพิ่งเปิดตัวใหม่ก็ได้เพิ่มพื้นผิวการโจมตีใหม่ และการรักษาความปลอดภัยแบบหลายรูปแบบโดยรวมก็ยังไม่ดีเท่ากับรุ่นก่อนหน้า GPT-4V
ข้อค้นพบที่สำคัญ:
ความปลอดภัยของโมดอลข้อความได้รับการปรับปรุง แต่มีความเสี่ยงในการย้ายข้อมูล: การต้านทานการโจมตีเจลเบรกข้อความของ GPT-4o ได้รับการปรับปรุง แต่ผู้โจมตียังคงสามารถโจมตีผ่านรูปแบบหลายโมดอลได้
โหมดเสียงนำมาซึ่งความท้าทายด้านความปลอดภัยแบบใหม่: โหมดเสียงที่เพิ่งเปิดตัวอาจเป็นช่องทางใหม่สำหรับการโจมตีด้วยการเจลเบรค
การรักษาความปลอดภัยหลายรูปแบบไม่เพียงพอ: ประสิทธิภาพการรักษาความปลอดภัยของ GPT-4o ในระดับหลายรูปแบบนั้นไม่ดีเท่ากับ GPT-4V ซึ่งบ่งชี้ว่ารุ่นใหม่อาจมีช่องโหว่ด้านความปลอดภัยเมื่อบูรณาการรูปแบบต่างๆ
วิธีการทดลอง:
มีการใช้ข้อความค้นหาเริ่มต้นมากกว่า 4,000 รายการ การตัดสินคำตอบมากกว่า 8,000 รายการ และการสืบค้น API มากกว่า 16,000 รายการ
ชุดข้อมูลการแหกคุกโอเพ่นซอร์สตามรูปแบบเดียวและหลายรูปแบบได้รับการประเมิน รวมถึง AdvBench, RedTeam-2K, SafeBench และ MM-SafetyBench
มีการทดสอบวิธีการเจลเบรกเจ็ดวิธี รวมถึงวิธีการที่ใช้เทมเพลต GCG, AutoDAN, PAP และ BAP เป็นต้น

ตัวชี้วัดการประเมินผล:
อัตราความสำเร็จของการโจมตี (ASR) ซึ่งเป็นตัวบ่งชี้การประเมินหลัก สะท้อนถึงความยากของการเจลเบรคโมเดล
ผลการทดลอง:
ในโหมดข้อความธรรมดา GPT-4o มีระดับความปลอดภัยต่ำกว่า GPT-4V โดยไม่มีการโจมตี แต่แสดงความปลอดภัยที่สูงกว่าภายใต้เงื่อนไขการโจมตี
โหมดเสียงมีความปลอดภัยมากขึ้นและเป็นการยากที่จะเจลเบรค GPT-4o ด้วยการแปลงข้อความเป็นเสียงโดยตรง
การทดสอบความปลอดภัยหลายรูปแบบแสดงให้เห็นว่า GPT-4o มีความเสี่ยงที่จะถูกโจมตีมากกว่า GPT-4V ในบางสถานการณ์
ข้อสรุปและข้อเสนอแนะ:
ทีมวิจัยเน้นย้ำว่าแม้ว่า GPT-4o จะปรับปรุงขีดความสามารถหลายรูปแบบแล้ว แต่ปัญหาด้านความปลอดภัยก็ไม่สามารถละเลยได้ พวกเขาแนะนำให้ชุมชนเพิ่มความตระหนักถึงความเสี่ยงด้านความปลอดภัยของแบบจำลองขนาดใหญ่หลายรูปแบบ และจัดลำดับความสำคัญของการพัฒนากลยุทธ์การจัดตำแหน่งและเทคนิคการบรรเทาผลกระทบ นอกจากนี้ เนื่องจากขาดชุดข้อมูลการเจลเบรกแบบหลายรูปแบบ นักวิจัยจึงเรียกร้องให้มีการสร้างชุดข้อมูลแบบหลายรูปแบบที่ครอบคลุมมากขึ้น เพื่อประเมินความปลอดภัยของแบบจำลองได้แม่นยำยิ่งขึ้น
ที่อยู่กระดาษ: https://arxiv.org/abs/2406.06302
ที่อยู่โครงการ: https://github.com/NY1024/Jailbreak_GPT4o
โดยรวมแล้ว การศึกษานี้ให้การวิเคราะห์เชิงลึกของการรักษาความปลอดภัยแบบหลายโมดัลของ GPT-4o ให้การอ้างอิงที่สำคัญสำหรับการวิจัยด้านความปลอดภัยแบบจำลองขนาดใหญ่ และยังเรียกร้องให้มีการเสริมสร้างความเข้มแข็งของการสร้างชุดข้อมูลการรักษาความปลอดภัยแบบหลายโมดัลและการกำหนด ของกลยุทธ์ด้านความปลอดภัยเพื่อรับมือกับอนาคต ความท้าทายด้านความปลอดภัยที่เป็นไปได้สำหรับโมเดลหลายรูปแบบขนาดใหญ่