Tim peneliti Universitas Beihang dan Universitas Teknologi Nanyang melakukan penilaian keamanan komprehensif terhadap model GPT-4o. Penelitian ini menggunakan puluhan ribu kueri API, yang mencakup tiga modalitas teks, gambar, dan audio, untuk mengungkap model GPT-4o. Kerentanan keamanan model 4o di lingkungan multimoda. Hasil penelitian menunjukkan bahwa meskipun GPT-4o telah meningkatkan serangan jailbreak teks, modalitas audio yang baru diperkenalkan membawa tantangan keamanan baru, dan keamanan multi-modal secara keseluruhan tidak sebaik model GPT-4V generasi sebelumnya. Penelitian ini memberikan referensi berharga untuk keamanan dan arah pengembangan model GPT-4o di masa depan, dan juga menekankan pentingnya penelitian keamanan model besar multi-modal.
Berita dari ChinaZ.com pada 12 Juni: Tim peneliti gabungan Universitas Beihang dan Institut Teknologi Nanyang melakukan uji keamanan mendalam pada model GPT-4o. Melalui puluhan ribu kueri API, peneliti melakukan penilaian keamanan pada tiga mode GPT-4o: teks, gambar, dan audio. Studi tersebut menemukan bahwa meskipun GPT-4o telah meningkatkan keamanan terhadap serangan jailbreak teks, mode suara yang baru diperkenalkan menambah permukaan serangan baru, dan keamanan multimodal secara keseluruhan tidak sebaik model GPT-4V generasi sebelumnya.
Temuan utama:
Keamanan modal teks ditingkatkan, namun terdapat risiko migrasi: ketahanan GPT-4o terhadap serangan jailbreak teks telah ditingkatkan, namun penyerang masih dapat menyerang melalui bentuk multi-modal.
Mode audio menghadirkan tantangan keamanan baru: Mode audio yang baru diperkenalkan dapat memberikan jalan baru untuk serangan jailbreak.
Keamanan multi-modal tidak memadai: Performa keamanan GPT-4o pada tingkat multi-modal tidak sebaik GPT-4V, yang menunjukkan bahwa model baru mungkin memiliki kerentanan keamanan saat mengintegrasikan modalitas yang berbeda.
Metode eksperimental:
4000+ kueri teks awal, 8000+ penilaian respons, dan 16000+ kueri API digunakan.
Kumpulan data jailbreak sumber terbuka berdasarkan modalitas tunggal dan multimodalitas dievaluasi, termasuk AdvBench, RedTeam-2K, SafeBench, dan MM-SafetyBench.
Tujuh metode jailbreak diuji, termasuk metode berbasis template, GCG, AutoDAN, PAP dan BAP, dll.

Indikator evaluasi:
Tingkat Keberhasilan Serangan (ASR), sebagai indikator evaluasi utama, mencerminkan kesulitan model yang di-jailbreak.
Hasil percobaan:
Dalam mode teks biasa, GPT-4o memiliki tingkat keamanan yang lebih rendah dibandingkan GPT-4V tanpa serangan, namun menunjukkan keamanan yang lebih tinggi dalam kondisi serangan.
Mode audio lebih aman, dan sulit untuk melakukan jailbreak pada GPT-4o dengan mengonversi teks menjadi audio secara langsung.
Pengujian keamanan multimodal menunjukkan bahwa GPT-4o lebih rentan terhadap serangan dibandingkan GPT-4V dalam skenario tertentu.
Kesimpulan dan rekomendasi:
Tim peneliti menekankan bahwa meskipun GPT-4o telah meningkatkan kemampuan multimodalnya, masalah keamanannya tidak dapat diabaikan. Mereka merekomendasikan agar masyarakat meningkatkan kesadaran akan risiko keamanan model multimoda besar dan memprioritaskan pengembangan strategi penyelarasan dan teknik mitigasi. Selain itu, karena kurangnya kumpulan data jailbreak multi-modal, para peneliti menyerukan pembentukan kumpulan data multi-modal yang lebih komprehensif untuk mengevaluasi keamanan model secara lebih akurat.
Alamat makalah: https://arxiv.org/abs/2406.06302
Alamat proyek: https://github.com/NY1024/Jailbreak_GPT4o
Secara keseluruhan, penelitian ini memberikan analisis mendalam tentang keamanan multi-modal GPT-4o, memberikan referensi penting untuk penelitian keamanan model besar, dan juga menyerukan penguatan konstruksi kumpulan data keamanan multi-modal dan formulasinya. strategi keamanan untuk menghadapi masa depan. Kemungkinan tantangan keamanan untuk model multimoda besar.