Исследовательская группа из Университета Бэйхан и Технологического университета Наньяна провела комплексную оценку безопасности модели GPT-4o. В исследовании использовались десятки тысяч запросов API, охватывающих три модальности текста, изображения и аудио, чтобы выявить модель GPT-4o. Уязвимости безопасности моделей 4o в мультимодальных средах. Результаты исследований показывают, что, хотя GPT-4o улучшил защиту от текстовых джейлбрейк-атак, недавно представленная аудиомодальность создает новые проблемы безопасности, а ее общая мультимодальная безопасность не так хороша, как у модели GPT-4V предыдущего поколения. Это исследование предоставляет ценную информацию о направлении безопасности и будущего развития модели GPT-4o, а также подчеркивает важность исследования безопасности мультимодальных больших моделей.
Новости с сайта ChinaZ.com от 12 июня: Совместная исследовательская группа Бэйханского университета и Наньянского технологического института провела углубленное тестирование безопасности модели GPT-4o. С помощью десятков тысяч запросов к API исследователи провели оценку безопасности трех режимов GPT-4o: текста, изображения и звука. Исследование показало, что, хотя GPT-4o имеет улучшенную защиту от текстовых джейлбрейк-атак, недавно представленный голосовой режим добавляет новую поверхность атаки, а общая мультимодальная безопасность не так хороша, как у модели GPT-4V предыдущего поколения.
Основные выводы:
Безопасность текстовых модалей улучшена, но существует риск миграции: устойчивость GPT-4o к атакам с использованием текстового джейлбрейка повышена, но злоумышленники по-прежнему могут атаковать с помощью мультимодальных форм.
Аудиорежим создает новые проблемы безопасности. Недавно представленный аудиорежим может открыть новые возможности для взлома взлома.
Недостаточная мультимодальная безопасность: эффективность безопасности GPT-4o на мультимодальном уровне не так хороша, как у GPT-4V, что указывает на то, что новая модель может иметь уязвимости безопасности при интеграции различных модальностей.
Экспериментальный метод:
Было использовано более 4000 исходных текстовых запросов, более 8000 оценок ответов и более 16000 запросов API.
Оцениваются наборы данных по джейлбрейку с открытым исходным кодом, основанные на одномодальном и мультимодальном подходе, включая AdvBench, RedTeam-2K, SafeBench и MM-SafetyBench.
Было протестировано семь методов джейлбрейка, включая методы на основе шаблонов, GCG, AutoDAN, PAP и BAP и т. д.

Показатели оценки:
Уровень успешности атак (ASR), как основной показатель оценки, отражает сложность взлома модели.
Результаты эксперимента:
В текстовом режиме GPT-4o имеет более низкий уровень безопасности, чем GPT-4V без атак, но обеспечивает более высокий уровень безопасности в условиях атаки.
Аудиорежим более безопасен, и сделать джейлбрейк GPT-4o путем прямого преобразования текста в аудио сложно.
Мультимодальное тестирование безопасности показывает, что GPT-4o более уязвим для атак, чем GPT-4V, в определенных сценариях.
Выводы и рекомендации:
Исследовательская группа подчеркнула, что, хотя GPT-4o улучшил свои мультимодальные возможности, нельзя игнорировать его проблемы безопасности. Они рекомендуют сообществу повысить осведомленность о рисках безопасности, связанных с мультимодальными большими моделями, и уделить приоритетное внимание разработке стратегий согласования и методов смягчения последствий. Кроме того, из-за отсутствия мультимодальных наборов данных для взлома исследователи призывают к созданию более полных мультимодальных наборов данных для более точной оценки безопасности моделей.
Адрес статьи: https://arxiv.org/abs/2406.06302.
Адрес проекта: https://github.com/NY1024/Jailbreak_GPT4o.
В целом, это исследование представляет собой углубленный анализ мультимодальной безопасности GPT-4o, представляет собой важный справочный материал для исследования безопасности крупных моделей, а также призывает к усилению построения наборов мультимодальных данных безопасности и формулированию стратегий безопасности, позволяющих справиться с будущим. Возможные проблемы безопасности для крупных мультимодальных моделей.