베이항대학교와 난양기술대학교 연구팀은 GPT-4o 모델에 대한 종합적인 보안 평가를 수행했습니다. 이 연구에서는 텍스트, 이미지, 오디오의 세 가지 형식을 다루는 수만 개의 API 쿼리를 사용하여 GPT-4o 모델을 공개했습니다. 다중 모드 환경에서 4o 모델의 보안 취약점. 연구 결과에 따르면 GPT-4o는 텍스트 탈옥 공격을 개선했지만 새로 도입된 오디오 방식은 새로운 보안 문제를 가져오고 전반적인 다중 모드 보안은 이전 세대 모델인 GPT-4V만큼 좋지 않은 것으로 나타났습니다. 본 연구는 GPT-4o 모델의 보안과 향후 개발 방향에 대한 귀중한 참고 자료를 제공하며, 다중 모드 대형 모델 보안 연구의 중요성도 강조합니다.
6월 12일 ChinaZ.com 뉴스: 베이항대학교와 난양 공과대학의 공동 연구팀이 GPT-4o 모델에 대한 심층적인 보안 테스트를 실시했습니다. 연구원들은 수만 개의 API 쿼리를 통해 GPT-4o의 세 가지 모드(텍스트, 이미지, 오디오)에 대한 보안 평가를 수행했습니다. 연구에 따르면 GPT-4o는 텍스트 탈옥 공격에 대한 보안을 강화했지만 새로 도입된 음성 모드는 새로운 공격 표면을 추가했으며 전반적인 다중 모드 보안은 이전 세대 모델인 GPT-4V만큼 좋지 않은 것으로 나타났습니다.
주요 결과:
텍스트 모달 보안은 향상되었지만 마이그레이션 위험이 있습니다. 텍스트 탈옥 공격에 대한 GPT-4o의 저항력이 향상되었지만 공격자는 여전히 다중 모드 형식을 통해 공격할 수 있습니다.
오디오 모드는 새로운 보안 문제를 야기합니다. 새로 도입된 오디오 모드는 탈옥 공격에 대한 새로운 수단을 제공할 수 있습니다.
불충분한 다중 모드 보안: 다중 모드 수준에서 GPT-4o의 보안 성능은 GPT-4V만큼 좋지 않습니다. 이는 새 모델이 다양한 모드를 통합할 때 보안 취약성이 있을 수 있음을 나타냅니다.
실험 방법:
4000개 이상의 초기 텍스트 쿼리, 8000개 이상의 응답 판단 및 16000개 이상의 API 쿼리가 사용되었습니다.
AdvBench, RedTeam-2K, SafeBench 및 MM-SafetyBench를 포함하여 단일 양식 및 다중 양식을 기반으로 하는 오픈 소스 탈옥 데이터 세트가 평가됩니다.
템플릿 기반 방법, GCG, AutoDAN, PAP 및 BAP 등 7가지 탈옥 방법이 테스트되었습니다.

평가 지표:
ASR(공격 성공률)은 주요 평가 지표로 모델의 탈옥 난이도를 반영합니다.
실험 결과:
일반 텍스트 모드에서 GPT-4o는 공격이 없는 GPT-4V보다 보안 수준이 낮지만 공격 조건에서는 더 높은 보안을 나타냅니다.
오디오 모드는 더 안전하며 텍스트를 오디오로 직접 변환하여 GPT-4o를 탈옥하기가 어렵습니다.
다중 모드 보안 테스트에서는 특정 시나리오에서 GPT-4o가 GPT-4V보다 공격에 더 취약한 것으로 나타났습니다.
결론 및 권장사항:
연구팀은 GPT-4o가 다중 모드 기능을 향상했지만 보안 문제를 무시할 수 없다고 강조했습니다. 그들은 커뮤니티가 다중 모드 대형 모델의 보안 위험에 대한 인식을 높이고 정렬 전략 및 완화 기술 개발의 우선순위를 정할 것을 권장합니다. 또한 다중 모드 탈옥 데이터 세트가 부족하기 때문에 연구자들은 모델의 보안을 보다 정확하게 평가하기 위해 보다 포괄적인 다중 모드 데이터 세트의 구축을 요구합니다.
논문 주소: https://arxiv.org/abs/2406.06302
프로젝트 주소: https://github.com/NY1024/Jailbreak_GPT4o
전체적으로 본 연구는 GPT-4o의 다중 모드 보안에 대한 심층 분석을 제공하고 대규모 모델 보안 연구에 중요한 참고 자료를 제공하며 다중 모드 보안 데이터 세트 구축 및 공식화 강화를 요구합니다. 미래에 대처하기 위한 보안 전략. 대규모 다중 모드 모델에 발생할 수 있는 보안 문제.