OpenRedTeaming
우리의 설문 조사 : Achilles의 발 뒤꿈치에 대한 : 생성 모델에 대한 Red 팀에 대한 설문 조사 [논문]
Genai에 대한 잠재적 공격에 대한 포괄적 인 이해를 얻고 강력한 보호 수단을 개발합니다. 우리:
- 120 개가 넘는 논문을 조사하고 위험 분류법, 공격 전략, 평가 지표 및 벤치 마크에서 방어 접근 방식에 이르기까지 파이프 라인을 다룹니다.
- 사전 조정 및 미세 조정 중에 개발 된 모델의 고유 한 기능에 근거한 LLM 공격 전략의 포괄적 인 분류를 제안합니다.
- 30 개 이상의 자동 레드 팀 구성 방법을 구현했습니다.
업데이트를 유지하거나 빨간색 도구를 시도하려면 웹 사이트에서 뉴스 레터를 구독하거나 Discord에 참여하십시오!
레드 팀링에 관한 최신 논문
설문 조사, 분류 등
설문 조사
- 개인 LLM 에이전트 : 기능, 효율성 및 보안에 대한 통찰력 및 설문 조사 [논문]
- Trustllm : 대형 언어 모델의 신뢰성 [종이]
- 대형 언어 모델 시스템의 위험 분류, 완화 및 평가 벤치 마크 [논문]
- 대형 언어 모델의 보안 및 개인 정보 보호 문제 : 설문 조사 [논문]
공격에 대한 설문 조사
- 새로운 적대적 프롬프트를 사용한 AI 언어 모델 탄력성의 강력한 테스트 [논문]
- 내 말을 듣지 마십시오 : 대형 언어 모델의 탈옥 프롬프트를 이해하고 탐구합니다 [종이]
- 방어 분해 : 큰 언어 모델에 대한 공격에 대한 비교 조사 [논문]
- LLM 탈옥 공격 대 방어 기술 - 포괄적 인 연구 [논문]
- 대형 언어 모델에 대한 신속한 주입 공격의 초기 분류 [논문]
- LLM에 대한 탈옥 공격에 대한 포괄적 인 평가 [종이]
- "지금 무엇이든해라": 대형 언어 모델에 대한 야생 탈옥 프롬프트 특성 및 평가 [논문]
- 대적 공격으로 밝혀진 대형 언어 모델의 취약성 조사 [논문]
- 이 타이틀과 Hackaprompt : 글로벌 스케일 프롬프트 해킹 경쟁을 통해 LLM의 체계적인 취약점을 드러내는 것 [논문]
- 대형 언어 모델의 적대적 공격 및 방어 : 구식 및 새로운 위협 [논문]
- 불순종으로 LLM을 속이는 : 탈옥을 공식화, 분석 및 감지 [종이]
- 악마를 소환하고 묶음 : 야생에서 LLM 레드 팀의 근거가있는 이론 [종이]
- 대형 언어 모델의 공격 기술, 구현 및 완화 전략에 대한 포괄적 인 조사 [논문]
- 경계를 넘어서 : AI 시스템에 대한 양도 가능한 공격에 대한 포괄적 인 조사 [논문]
- 경계를 넘어서 : AI 시스템에 대한 양도 가능한 공격에 대한 포괄적 인 조사 [논문]
위험에 대한 설문 조사
- LLM 보안 환경 매핑 : 포괄적 인 이해 관계자 위험 평가 제안 [논문]
- 큰 언어 모델 확보 : 위협, 취약성 및 책임있는 관행 [논문]
- 대형 언어 모델의 개인 정보 : 공격, 방어 및 향후 방향 [종이]
- 보호 조치 너머 : ChatGpt의 보안 위험 탐색 [논문]
- 더 안전한 생식 언어 모델로 : 안전 위험, 평가 및 개선에 대한 설문 조사 [논문]
- 불법 목적으로 LLM 사용 : 위협, 예방 조치 및 취약성 [논문]
- Chatgpt에서 위협으로 : 사이버 보안 및 개인 정보에 생성 AI의 영향 [논문]
- LLM- 통합 응용 프로그램에서 취약성을 식별하고 완화하는 [논문]
- 사이버 보안에서 생성 AI의 힘 : 기회와 도전 [논문]
분류
- LLM을 강요하고 (거의) 무엇이든 공개하고 공개합니다 [종이]
- 강화 학습 및 인간 피드백의 역사와 위험 [논문]
- 챗봇에서 피쉬 버트까지? - Chatgpt, Google Bard 및 Claude [종이]를 사용하여 생성 된 피싱 사기 방지
- 프롬프트 공학을 통한 탈옥 chatgpt : 경험적 연구 [논문]
- chatgpt [종이]를 사용하여 피싱 공격 생성
- 한계 내 개인화 : 개인화 된 피드백과 큰 언어 모델의 정렬을위한 위험 분류 및 정책 프레임 워크 [논문]
- AI 속임수 : 예, 위험 및 잠재적 솔루션에 대한 조사 [논문]
- 큰 언어 모델에 대한 보안 위험 분류 [종이]
위치
- 생성 AI를위한 레드 팀 : 실버 총알 또는 보안 극장? [종이]
- 상호 작용의 윤리 : LLM의 보안 위협 완화 [논문]
- AI 평가 및 빨간 팀을위한 안전한 항구 [종이]
- 탈옥을 통한 레드 팀 chatgpt : 편견, 견고성, 신뢰성 및 독성 [논문]
- 인공 지능의 약속과 위험 - 바이올렛 팀은 균형 잡힌 길을 제공합니다 [종이]
현상
- 정렬 알고리즘에 대한 기계적인 이해 : DPO 및 독성에 대한 사례 연구 [논문]
- 말하기 : 다중 회전 대화에서 대형 언어 모델의 안전 취약성 [논문]
- 언어 모델의 정렬과 도움 사이의 상충 관계 [논문]
- 가지 치기 및 낮은 순위 수정을 통한 안전 정렬의 브리티 니스 평가 [논문]
- LLM의 프로그래밍 방식 행동 악용 : 표준 보안 공격을 통한 이중 사용 [논문]
- 대형 언어 모델이 사용자 선호도를 반짝이로 변경할 수 있습니까? [종이]
- 정렬 된 신경 네트워크가 반짝이는 정렬됩니까? [종이]
- 가짜 정렬 : LLM이 실제로 잘 정렬되어 있습니까? [종이]
- 대형 언어 모델의 보안 평가를위한 인과 관계 분석 [논문]
- 코딩 작업에 대한 대형 언어 모델에 대한 공격 및 방어 전송 [종이]
공격 전략
완료 준수
- 비전 언어 모델에 대한 소수의 적대적 프롬프트 학습 [종이]
- 대규모 다중 모달 모델의 납치 컨텍스트 [종이]
- Badchain : 큰 언어 모델에 대한 백도어 사슬의 프롬프트 [종이]
- 대형 언어 모델의 보편적 취약점 : 텍스트 내 학습을위한 백도어 공격 [논문]
- Nevermind : 대형 언어 모델의 지시 및 중재 [종이]
- 안전 조정을위한 발화 체인을 사용하여 대형 언어 모델을 빨간 팀 작성 [종이]
- 언어 모델을 사용한 텍스트 내 학습에 대한 백도어 공격 [종이]
- 탈옥 및 가드는 텍스트 내 시연이 거의없는 언어 모델을 정렬합니다 [논문]
- LLM의 고유 한 응답 경향 분석 : 실제 지시 사항 중심의 탈옥 [종이]
- 프라이밍 공격으로 오픈 소스 LLM의 안전 교육을 우회합니다 [종이]
- 적대적인 컨텍스트 학습을 통한 대형 언어 모델 납치 [논문]
지시 간접
- 이미지 적대적 공격에 대한 대규모 멀티 모달 모델의 견고성 [종이]
- Vision-Llms는 자체 생성 된 시력 학적 공격으로 자신을 속일 수 있습니다 [종이]
- 이미지는 Achilles의 정렬 발 뒤꿈치입니다 : 탈옥을위한 시각적 취약점 악용 멀티 모달 대형 언어 모델 [논문]
- Figstep : 타이포그래피 시각 프롬프트를 통한 대형 시력 모델 탈옥 [종이]
- Instructta : 대규모 비전 언어 모델에 대한 교육 튜닝 타겟 공격 [논문]
- 다중 모달 LLM의 간접 지시 주입에 대한 이미지와 사운드를 남용합니다 [종이]
- 시각적 대적 사례 탈옥 된 대형 언어 모델을 조정 [종이]
- 조각의 탈옥 : 다 모달 언어 모델에 대한 구성 적 공격 [종이]
- LLM과 함께 추측 게임 : 암시 적 단서가있는 간접 탈옥 공격 [종이]
- Fuzzllm : 대형 언어 모델에서 탈옥 취약성을 사전에 발견하기위한 소설적이고 보편적 인 퍼징 프레임 워크 [논문]
- GPTFUZZER :자가 생성 된 탈옥 프롬프트와 함께 대형 언어 모델을 빨간색으로 팀을 구성합니다 [종이]
- Prompt Packer : 숨겨진 공격으로 구성 명령을 통해 LLM을 속이기 [종이]
- Deepinception : 탈옥자가 될 대형 언어 모델 최면 [종이]
- 양의 옷을 입은 늑대 : 일반화 된 중첩 탈옥 프롬프트는 큰 언어 모델을 쉽게 속일 수 있습니다 [종이]
- NLP 작업의 안전 조정 : 텍스트 내 공격으로 약하게 요약 된 요약 [논문]
- 인지 과부하 : 과부하 된 논리적 사고를 가진 대형 언어 모델을 탈옥 [종이]
- 직소 퍼즐 : 큰 언어 모델을 탈옥하기 위해 유해한 질문을 분할 [종이]
- 오디오는 Achilles의 힐입니다 : 빨간 팀 오디오 대형 멀티 모드 모델 [종이]
일반화 글라이드
언어
- 대형 언어 모델에서 탈옥 공격에 대한 언어 교차 조사 [종이]
- 언어 장벽 : 다국어 상황에서 LLM의 안전 문제를 해부 [논문]
- 샌드위치 공격 : LLM에 대한 다중 언어 혼합 적응 공격 [종이]
- 다국어 기계 번역에 대한 백도어 공격 [종이]
암호
- 프롬프트 변경의 나비 효과 : 작은 변화와 탈옥이 큰 언어 모델 성능에 영향을 미치는 방법 [논문]
- 그들에게 물어보고 대답하기 : 변장과 재구성을 통해 몇 가지 쿼리로 대형 언어 모델을 탈옥 [종이]
- PRP : 대형 언어 모델 가드 레일을 공격하기위한 보편적 인 섭동 전파 [종이]
- GPT-4는 안전하기에는 너무 똑똑합니다 : 암호를 통해 LLMS와의 은밀한 채팅 [종이]
- 구두점 문제! 언어 모델에 대한 은밀한 백도어 공격 [종이]
의인
- 문 속의 발 :인지 심리학을 통한 대형 언어 모델 이해 [논문]
- PSYSAFE : 다중 에이전트 시스템 안전의 심리 기반 공격, 방어 및 평가를위한 포괄적 인 프레임 워크 [논문]
- Johnny가 LLM을 탈옥하도록 설득 할 수있는 방법 : LLM을 인간화하여 AI 안전에 도전하기 위해 설득을 다시 생각합니다 [종이]
- 페르소나 변조를 통한 언어 모델에 대한 확장 가능하고 양도 가능한 블랙 박스 탈옥 [종이]
- Chatgpt는 누구입니까? Psychobench [종이]를 사용한 LLMS의 심리적 묘사 벤치마킹
- 속임수 기술과 설득 원칙을 통해 대형 언어 모델 (LLM) 악용 [논문]
모델 조작
백도어 공격
- 섀도우 캐스트 : 비전 언어 모델에 대한 은밀한 데이터 중독 공격 [종이]
- 슬리퍼 에이전트 : 안전 훈련을 통해 지속되는기만 LLM 훈련 [종이]
- "안전한"데이터에 무엇이 있습니까? : 안전을 깨뜨리는 양성 데이터 식별 [논문]
- 정책 외 정책 평가 방법에 대한 데이터 중독 공격 [논문]
- BADEDIT : 모델 편집에 의한 대형 언어 모델 백도어 [종이]
- 베스트-베놈 : 독 중독 선호도 데이터를 주입하여 RLHF 공격 [논문]
- 지시 조정 중 큰 언어 모델을 독살하는 학습 [종이]
- 백도어로서의 지침 : 큰 언어 모델에 대한 지시 조정의 백도어 취약성 [논문]
- 생성 모델을 퇴화시키기위한 생성 모델 강제 : 데이터 중독 공격의 힘 [종이]
- 백도어 주입을 통한 대형 언어 모델에 대한 은밀하고 지속적으로 정렬되지 않은 정렬 [종이]
- 백도어 활성화 공격 : 안전 조정을위한 활성화 조향을 사용하여 대형 언어 모델을 공격합니다 [논문]
- 큰 언어 모델에 대한 인간 피드백을 사용한 강화 학습의 착취성 [논문]
- 방어 시연이있는 블랙 박스 대형 언어 모델에 대한 테스트 시간 백도어 완화 [논문]
- 중독 된 인간 피드백의 보편적 탈옥 백도어 [종이]
미세 조정 위험
- 공격적 이라요! 공유 및 플레이 시나리오에서 LLM 안전 피어싱 [종이]
- 에뮬레이션 분리 : 대형 언어 모델의 안전 정렬은 역효과를 낳을 수 있습니다! [종이]
- llama 2-chat 70b에서의 Lora 미세 조정 효율을 취소합니다 [종이]
- Badllama : Llama 2-Chat 13b에서 안전한 미세 조정을 저렴하게 제거합니다 [종이]
- 언어 모델 비 정렬 : 숨겨진 피해와 편견을 노출시키기위한 파라 메트릭 레드 티밍 [논문]
- 미세 조정을 통해 GPT-4에서 RLHF 보호 제거 [용지]
- 오픈 소스 대형 언어 모델의 안전성 : 정렬은 실제로 오용을 방지합니까? [종이]
- 그림자 정렬 : 안전하게 정렬 된 언어 모델을 파괴하는 용이성 [종이]
- 미세 조정 정렬 된 언어 모델은 사용자가 의도하지 않더라도 안전을 손상시킵니다! [종이]
공격 검색 자
접미사 검색기
- PROMPTING4DEBUGGING : 문제가있는 프롬프트를 찾아 레드 팀 텍스트-이미지 확산 모델 [종이]
- 소음에서 선명도로 : 텍스트 임베딩의 번역을 통해 큰 언어 모델 공격의 적대적 접미사를 풀어냅니다 [종이]
- 1 GPU 분의 언어 모델에 대한 빠른 적대적 공격 [종이]
- 그라디언트 기반 언어 모델 Red Teaming [종이]
- 대형 언어 모델에 대한 자동 및 보편적 프롬프트 주입 공격 [논문]
- $ textit {linkprompt} $ : 프롬프트 기반 언어 모델에 대한 자연적이고 보편적 인 적대적 공격 [논문]
- 신경 검사 : 신속한 주입 공격을위한 학습 (및 학습) 실행 트리거 [종이]
- 간단한 적응 적 공격을 가진 주도적 인 안전 조정 LLM의 탈옥 [종이]
- 잠재 의식적 착취와 에코 프라 시아를 통한 LLM의 탈옥에 대한 신속한 최적화 [종이]
- Autodan : 대형 언어 모델에 대한 해석 가능한 그라디언트 기반 적대적 공격 [논문]
- 정렬 된 언어 모델에 대한 보편적이고 양도 가능한 적대적 공격 [논문]
- 편견을 평가하기 위해 큰 언어 모델에 대한 소프트 홍보 튜닝 [종이]
- Trojllm : 대형 언어 모델에 대한 블랙 박스 트로이 프롬프트 공격 [종이]
- Autodan : 정렬 된 대형 언어 모델에서 은밀한 탈옥 프롬프트 생성 [종이]
프롬프트 검색 자
언어 모델
- 리버스 언어 모델을 사용한 언어 모델 동작의 유도 [논문]
(2023)
- 당신이 그것을 요구하는 방법 : 탈옥 공격을위한 간단한 블랙 박스 방법 [종이]
- 간단한 무작위 검색을 통한 GPT-4에 대한 적대적 공격 [종이]
- Tastle : 자동 탈옥 공격을위한 대형 언어 모델을 방해합니다 [종이]
- 언어 모델을 가진 빨간 팀 언어 모델 [종이]
- LLM은 자체적으로 속일 수 있습니다 : 신속한 기반 적대적 공격 [종이]
- 20 번의 쿼리의 탈옥 블랙 박스 대형 언어 모델 [종이]
- 공격 트리 : 탈옥 블랙 박스 LLMS 자동으로 [종이]
- AART : 새로운 LLM 기반 응용 프로그램을위한 다양한 데이터 생성을 가진 AI 지원 레드 팀 밍 [논문]
- DALA : 언어 모델에 대한 유통 인식 Lora 기반 적대적 공격 [논문]
- JAB : 공동 대적 프롬프트 및 신념 확대 [논문]
- 공격 없음 : 언어 모델에서의 공격을 유도 [종이]
- 로프트 : 대형 언어 모델에 대한 대적 공격의 전달 가능성을 향상시키기위한 로컬 프록시 미세 조정 [논문]
디코딩
- 콜드 공격 : 은밀함과 통제력을 가진 LLM의 탈옥 [종이]
유전자 알고리즘
- 시맨틱 미러 탈옥 : 오픈 소스 LLM에 대한 유전자 알고리즘 기반 탈옥 프롬프트 [종이]
- 참깨를 엽니 다! 대형 언어 모델의 감옥 탈옥 [종이]
강화 학습
- SneakyPrompt : 탈옥 텍스트-이미지 생성 모델 [종이]
- 레드 팀링 게임 : 레드 팀링 언어 모델을위한 게임 이론 프레임 워크 [논문]
- 탐색, 설정, 악용 : 빨간 팀 언어 모델을 처음부터 [종이]
- 큰 언어 모델에서 암시 적 독성을 공개 [종이]
방어 시설
훈련 시간 방어
RLHF
- 합성 선호도 데이터를 사용한 언어 모델의 구성 가능한 안전 조정 [논문]
- 제한된 직접 선호도 최적화를 통한 LLM 안전성 향상 [논문]
- 안전한 RLHF : 인간 피드백의 안전한 강화 학습 [논문]
- Beavertails : 인간-참조 데이터 세트를 통한 LLM의 안전성 향상을 향해 [논문]
- 보다 안전한 강조 : 언어 모델을 자동화 된 환경 설정 데이터와 정렬 [논문]
미세 조정
- Safegen : 텍스트-이미지 모델에서 안전하지 않은 컨텐츠 생성 완화 [용지]
- 안전 미세 조정 (거의) 비용 없음 : 비전 대형 언어 모델의 기준선 [종이]
- 안전하고 책임있는 대형 언어 모델 개발 - 포괄적 인 프레임 워크 [논문]
- 유해한 미세 조정 공격에 대한 예방 접종 [종이]
- 백도어 강화 정렬로 미세 조정 탈옥 공격 완화 [종이]
- 변증법 정렬 : 3H의 긴장과 LLM의 보안 위협 해결 [논문]
- 보호를위한 가지 치기 : 미세 조정없이 정렬 된 LLM의 탈옥 저항 증가 [종이]
- 지우개 : 유해한 지식을 배우는 것을 통한 대형 언어 모델의 탈옥 방어 [논문]
- 두 헤드가 하나보다 낫다 : 다중 백도어에 대한 강력한 방어를위한 중첩 포도 [종이]
- 매개 변수 효율적인 미세 조정에 대한 체중 중독 백도어 공격에 대한 방어 [종이]
- 안전 조정 된 라마 : 지침을 따르는 대형 언어 모델의 안전성 향상으로 인한 교훈 [논문]
- 강력하게 정렬 된 LLM을 통한 조정 중단 공격에 대한 방어 [논문]
- 배우지 않는 것을 배우십시오 : 챗봇의 생성 안전을 향해 [종이]
- JATMO : 작업 별 결합에 의한 신속한 주입 방어 [종이]
추론 시간 방어
격려
- Adashield : Adaptive Shield를 통해 구조 기반 공격으로부터 멀티 모달 대형 언어 모델 보호 [논문]
- 브레이크 아웃 브레이크 : 자기 반영으로 탈옥 공격에 대한 LM 방어를 재창조 [종이]
- 대형 언어 모델에 대한 프롬프트 중심 보호에 [종이]
- 서명 프롬프트 : LLM 통합 응용 프로그램에 대한 신속한 주입 공격을 방지하기위한 새로운 접근법 [논문]
Xuchen Suo (2024)
- 의도 분석은 LLM이 좋은 탈옥 수비수로 만듭니다 [종이]
- 스포트라이트로 간접적 인 신속한 주입 공격에 대한 방어 [종이]
- 안전하고 고품질 출력 보장 : 언어 모델에 대한 가이드 라인 라이브러리 접근 [논문]
- 대형 언어 모델에 대한 목표 유도 생성 신속한 주입 공격 [논문]
- STRUQ : 구조화 된 쿼리로 프롬프트 주입에 대한 방어 [종이]
- 스터디 밥은 신속한 대적 튜닝을 통해 탈옥과 맞서 싸운다 [종이]
- 셀프 가드 : LLM이 스스로를 보호 할 수 있도록 권한을 부여합니다 [종이]
- 대화 안전을 향상시키기 위해 텍스트 내 학습 사용 [논문]
- 목표 우선 순위를 통한 탈옥 공격으로 대규모 언어 모델을 방어 [논문]
- BERGERON : 양심에 기반한 정렬 프레임 워크를 통해 적대적 공격 퇴치 [논문]
앙상블
- 다중 에이전트 토론으로 대적 공격과의 싸움 [논문]
- TrustAgent : 에이전트 헌법을 통한 안전하고 신뢰할 수있는 LLM 기반 에이전트를 향해 [논문]
- AutoDefense : 탈옥 공격에 대한 다중 에이전트 LLM 방어 [종이]
- 변장 배우기 : 다중 에이전트 공격자-대기업 게임 [논문]을 통해 LLM의 방어에 대한 거절 응답을 피하십시오.
- 감옥에서 탈옥 자 : 대형 언어 모델의 목표 방어 이동 [종이]
가드 레일
입력 가드 레일
- UFID : 확산 모델의 입력 수준 백도어 감지를위한 통합 프레임 워크 [논문]
- 안전한 텍스트-이미지 생성을위한 범용 프롬프트 최적화 [종이]
- 눈을 감고 안전합니다 : 이미지 간 텍스트 변환을 통해 멀티 모달 LLM 보호 [논문]
- 눈을 감고 안전합니다 : 이미지 간 텍스트 변환을 통해 멀티 모달 LLM 보호 [논문]
- MLLM-Protector : 성능을 해치지 않고 MLLM의 안전 보장 [종이]
- 멀티 모달 및 대규모 다국어 번역에 대한 추론 시간에 독성 완화 추가 [논문]
- 다중 모달 탈옥 공격 탐지를위한 돌연변이 기반 방법 [논문]
- LLM 통합 가상 어시스턴트에 대한 사전 조건에 대한 눈에 띄는 공격에 대한 탐지 및 방어 [논문]
- Shieldlm : LLM을 정렬하고 사용자 정의 가능하며 설명 가능한 안전 탐지기로 권한을 부여합니다 [논문]
- 대형 언어 모델에 대한 왕복 번역 방어 탈옥 공격 [종이]
- 그라디언트 커프 : 거부 손실 환경을 탐색하여 대형 언어 모델에 대한 탈옥 공격 감지 [종이]
- 텍스트 내 반대 게임을 통해 탈옥 프롬프트 방어 [종이]
- SPML : 프롬프트 공격에 대한 언어 모델을 방어하기위한 DSL [종이]
- 대형 언어 모델에 대한 강력한 안전 분류기 : 적대 프롬프트 방패 [종이]
- AI Control : 의도적 인 전복에도 불구하고 안전 개선 [종이]
- MAATPHOR : 신속한 주입 공격에 대한 자동 변형 분석 [종이]
출력 가드 레일
- 배송을 통한 탈옥 공격으로부터 LLM을 방어 [종이]
- 탈옥 공격으로부터 언어 모델을 방어하기위한 강력한 프롬프트 최적화 [종이]
- 탈옥은 정의에 따라 가장 잘 해결됩니다 [종이]
- LLM 자기 방어 : 자체 검사에 의해 LLM은 그들이 속임수를 쓰고 있음을 알고 있습니다 [종이]
입력 및 출력 가드 레일
- Ridorllm : 바람직하지 않은 콘텐츠에 대한 대형 언어 모델에 대한 탄력성 가드 레일 [종이]
- NEMO GUARDRAILS : 프로그래밍 가능한 레일이있는 제어 가능하고 안전한 LLM 애플리케이션을위한 툴킷 [용지]
- LLAMA 가드 : 휴먼-아이 대화를위한 LLM 기반 입력 출력 보호 [논문]
적대적인 접미사 방어
- 시맨틱 스무딩을 통해 탈옥 공격으로부터 대형 언어 모델을 방어 [종이]
- 적대적 프롬프트에 대한 LLM 안전 인증 [종이]
- 정렬 된 언어 모델에 대한 대적 공격에 대한 기준 방어 [논문]
- Smoothllm : 탈옥 공격으로 대규모 언어 모델을 방어 [종이]
- 당연 성 측정 및 상황 정보에 기초한 토큰 수준의 적대적 프롬프트 탐지 [논문]
디코딩 방어
- 제어 가능한 대형 언어 모델을 통한 안전 및 도움으로 균형 잡힌 응답 [논문]
- SAFEDECODING : 안전 인식 디코딩을 통한 탈옥 공격에 대한 방어 [종이]
평가
평가 지표
공격 지표
- 큰 언어 모델에서 신속한 주입 공격에 대한 탄력성 평가를위한 새로운 평가 프레임 워크 [논문]
- Attackeval : 대형 언어 모델에 대한 탈옥의 효과를 평가하는 방법 [논문]
- 그것을보세요! 언어 모델 탈옥을 평가하는 방법을 다시 생각합니다 [종이]
방어 지표
- LLM의 교육 중심 반응은 어떻게 (un) 윤리적입니까? 안전 가드 레일의 취약점을 유해한 쿼리로 공개 [종이]
- 방어 기술 : 안전성 및 과도한 정의에 대한 LLM 방어 전략의 체계적인 평가 및 분석 [논문]
평가 벤치 마크
- JailbreakBench : 대형 언어 모델을위한 열린 견고성 벤치 마크 [종이]
- SafetyPrompts : 대형 언어 모델 안전을 평가하고 개선하기위한 개방형 데이터 세트에 대한 체계적인 검토 [논문]
- 표현 피해에서 서비스 품질 피해에 이르기까지 : LLAMA 2 안전 보호 수단에 대한 사례 연구 [논문]
- 샐러드 벤치 : 대형 언어 모델에 대한 계층적이고 포괄적 인 안전 벤치 마크 [논문]
- Harmbench : 자동화 된 빨간 팀을위한 표준화 된 평가 프레임 워크 및 강력한 거부 [논문]
- SafetyBench : 객관식 질문이있는 대형 언어 모델의 안전성 평가 [논문]
- XSTEST : 대형 언어 모델에서 과장된 안전 행동을 식별하기위한 테스트 스위트 [논문]
- do-not-answer : LLMS의 보호 조치를 평가하기위한 데이터 세트 [논문]
- 피해를 줄이기위한 빨간 팀 언어 모델 : 방법, 스케일링 동작 및 배운 교훈 [논문]
- DICES 데이터 세트 : 안전에 대한 대화 AI 평가의 다양성 [논문]
- 잠재적 탈옥 : 대형 언어 모델의 텍스트 안전 및 출력 견고성을 평가하기위한 벤치 마크 [논문]
- Tensor Trust : 온라인 게임의 해석 가능한 신속한 주입 공격 [논문]
- LLM이 간단한 규칙을 따를 수 있습니까? [종이]
- SIMPLESAPETYTESTS : 대형 언어 모델에서 중요한 안전 위험을 식별하기위한 테스트 스위트 [논문]
- 대형 언어 모델에 대한 간접적 인 신속한 주입 공격에 대한 벤치마킹 및 방어 [논문]
- SC-SAFETY : 중국어의 대형 언어 모델에 대한 멀티 라운드 개방형 질문 적대적 안전 벤치 마크 [종이]
- 줄타기 걷기-고위험 영역에서 대형 언어 모델 평가 [종이]
응용 프로그램
응용 프로그램 도메인
대리인
- MM-SAFETYBENCH : 멀티 모달 대형 언어 모델의 안전 평가를위한 벤치 마크 [논문]
- 에이전트 스미스 : 단일 이미지는 백만 개의 멀티 모달 LLM 에이전트를 기하 급수적으로 빠르게 탈옥 할 수 있습니다 [종이]
- 이 이미지에는 몇 개의 유니콘이 있습니까? Vision LLMS에 대한 안전 평가 벤치 마크 [종이]
- 멀티 모달 및 다국어 번역에서의 빨간 팀을 향해 [종이]
- Jailbreakv-28K : 탈옥 공격에 대한 멀티 모달 대형 언어 모델의 견고성을 평가하기위한 벤치 마크 [종이]
- Red Teaming GPT-4V : GPT-4V는 Uni/Multi-Modal 탈옥 공격에 안전합니까? [종이]
- R- 판사 : LLM 에이전트에 대한 안전 위험 인식 벤치마킹 [논문]
- 양의 옷의 GPT : 맞춤형 GPT의 위험 [종이]
- Toolsword : 3 단계에 걸친 도구 학습에서 대형 언어 모델의 안전 문제를 공개합니다 [논문]
- 떨리는 카드 집? 언어 에이전트에 대한 대적 공격 매핑 [종이]
- 빠른 채택, 숨겨진 위험 : 대형 언어 모델 사용자 정의의 이중 영향 [논문]
- LLM에 대한 목표 지향적 인 프롬프트 공격 및 안전 평가 [논문]
- LM에 해당 샌드 박스를 사용한 LM 에이전트의 위험 식별 [종이]
- CVALUES : 중국 대형 언어 모델의 가치 측정 안전에서 책임에 이르기까지 [논문]
- 사악한 천재 : LLM 기반 요원의 안전을 탐구 [종이]
- 200 개 이상의 사용자 정의 GPT에서 신속한 주입 위험 평가 [종이]
프로그램 작성
- DeceptPrompt : Adversarial Natural Language Instructions를 통한 LLM 중심 코드 생성 활용 [논문]
- 중독 된 chatgpt는 유휴 손에 대한 작품을 찾습니다 : 독이 된 AI 모델의 불안한 제안으로 개발자의 코딩 관행 탐색 [논문]
응용 프로그램 위험
신속한 주입
- 신속한 주입 공격 아래 큰 언어 모델로 기계 번역의 스케일링 동작 [종이]
- 신속한 주입에서 SQL 주입 공격 : LLM 통합 웹 응용 프로그램은 얼마나 보호됩니까? [종이]
- 가입 한 내용이 아닙니다 : 간접적 인 신속한 주입으로 실제 LLM 통합 응용 프로그램을 손상시킵니다 [논문]
- LLM- 통합 응용 분야에 대한 신속한 주사 공격 [논문]
신속한 추출
- 시스템 프롬프트와의 자기 대변 공격을 통한 탈옥 GPT-4V [논문]
- 큰 언어 모델에 대한 신속한 도둑질 공격 [종이]
멀티 모달 레드 팀
공격 전략
완료 준수
- 비전 언어 모델에 대한 소수의 적대적 프롬프트 학습 [종이]
- 대규모 다중 모달 모델의 납치 컨텍스트 [종이]
지시 간접
- 이미지 적대적 공격에 대한 대규모 멀티 모달 모델의 견고성 [종이]
- 이미지는 Achilles의 정렬 발 뒤꿈치입니다 : 탈옥을위한 시각적 취약점 악용 멀티 모달 대형 언어 모델 [논문]
- Vision-Llms는 자체 생성 된 시력 학적 공격으로 자신을 속일 수 있습니다 [종이]
- 시각적 대적 사례 탈옥 된 대형 언어 모델을 조정 [종이]
- 조각의 탈옥 : 다 모달 언어 모델에 대한 구성 적 공격 [종이]
- 다중 모달 LLM의 간접 지시 주입에 대한 이미지와 사운드를 남용합니다 [종이]
- Figstep : 타이포그래피 시각 프롬프트를 통한 대형 시력 모델 탈옥 [종이]
- Instructta : 대규모 비전 언어 모델에 대한 교육 튜닝 타겟 공격 [논문]
공격 검색 자
이미지 검색 자
- 확산 공격 : 자연주의 이미지 공격을위한 안정적인 확산 활용 [종이]
- 멀티 모달 파운데이션 모델의 적대적 견고성 [종이]
- Google의 바드는 적대적 이미지 공격에 얼마나 강력합니까? [종이]
- 멀티 모달 대형 언어 모델에 대한 테스트 시간 백도어 공격 [종이]
교차 양식 검색 자
- SA- 공격 : 자체 제작을 통한 시력 전 사전 훈련 모델의 적대적 전이성 향상 [논문]
- MMA- 확산 : 확산 모델에 대한 멀티 모달 공격 [종이]
- 협업 다중 모드 상호 작용을 통한 시각적 언어 사전 훈련 모델의 대적 전달성 향상 [논문]
- 이미지는 1000 개의 거짓말의 가치가 있습니다 : 시력 모델에 대한 프롬프트에서 적대 이미지의 전달 가능성 [종이]
기타
- SneakyPrompt : 탈옥 텍스트-이미지 생성 모델 [종이]
- PROMPTING4DEBUGGING : 문제가있는 프롬프트를 찾아 레드 팀 텍스트-이미지 확산 모델 [종이]
방어
가드 레일 방어
- UFID : 확산 모델의 입력 수준 백도어 감지를위한 통합 프레임 워크 [논문]
- 안전한 텍스트-이미지 생성을위한 범용 프롬프트 최적화 [종이]
- 눈을 감고 안전합니다 : 이미지 간 텍스트 변환을 통해 멀티 모달 LLM 보호 [논문]
- 눈을 감고 안전합니다 : 이미지 간 텍스트 변환을 통해 멀티 모달 LLM 보호 [논문]
- MLLM-Protector : 성능을 해치지 않고 MLLM의 안전 보장 [종이]
- 멀티 모달 및 대규모 다국어 번역에 대한 추론 시간에 독성 완화 추가 [논문]
- 다중 모달 탈옥 공격 탐지를위한 돌연변이 기반 방법 [논문]
다른 방어
- Safegen : 텍스트-이미지 모델에서 안전하지 않은 컨텐츠 생성 완화 [용지]
- Adashield : Adaptive Shield를 통해 구조 기반 공격으로부터 멀티 모달 대형 언어 모델 보호 [논문]
- 안전 미세 조정 (거의) 비용 없음 : 비전 대형 언어 모델의 기준선 [종이]
애플리케이션
자치령 대표
- Red Teaming GPT-4V : GPT-4V는 Uni/Multi-Modal 탈옥 공격에 안전합니까? [종이]
- Jailbreakv-28K : 탈옥 공격에 대한 멀티 모달 대형 언어 모델의 견고성을 평가하기위한 벤치 마크 [종이]
- 에이전트 스미스 : 단일 이미지는 백만 개의 멀티 모달 LLM 에이전트를 기하 급수적으로 빠르게 탈옥 할 수 있습니다 [종이]
- MM-SAFETYBENCH : 멀티 모달 대형 언어 모델의 안전 평가를위한 벤치 마크 [논문]
- 이 이미지에는 몇 개의 유니콘이 있습니까? Vision LLMS에 대한 안전 평가 벤치 마크 [종이]
- 멀티 모달 및 다국어 번역에서의 빨간 팀을 향해 [종이]
벤치 마크
- Adversarial Nibbler : 텍스트-이미지 생성에서 다양한 피해를 식별하기위한 열린 빨간색 팀 방법 [종이]
소환
@article{lin2024achilles,
title={Against The Achilles' Heel: A Survey on Red Teaming for Generative Models},
author={Lizhi Lin and Honglin Mu and Zenan Zhai and Minghan Wang and Yuxia Wang and Renxi Wang and Junjie Gao and Yixuan Zhang and Wanxiang Che and Timothy Baldwin and Xudong Han and Haonan Li},
year={2024},
journal={arXiv preprint, arXiv:2404.00629},
primaryClass={cs.CL}
}