텍스트 적대적 공격 및 방어에 대한 필수 논문 (TAAD)
이 목록은 현재 Uchicago의 Chenghao Yang이 유지 관리합니다.
Fanchao Qi와 Yuan Zang을 포함한 다른 이전 주요 기여자들은 Thunlp에있을 때.
우리는 모든 큰 기여자들에게 대단히 감사합니다.
내용물
- 0. 툴킷
- 1. 설문 조사 논문
- 2. 공격 논문 (섭동 수준에 따라 분류)
- 2.1 문장 수준의 공격
- 2.2 단어 수준의 공격
- 2.3 숯불 공격
- 2.4 다단계 공격
- 3. 방어 논문
- 4. 인증 된 견고성
- 5 벤치 마크 및 평가
- 6. 다른 논문
- 기고자
0. 툴킷
- RobustQa : 질문 응답 시스템에 대한 적대적인 텍스트 생성 분석을위한 프레임 워크 . Yasaman Boreshban, Seyed Morteza Mirbostani, Seyedeh Fatemeh Ahmadi, Gita Shojaee, Fatemeh Kamani, Gholamreza Ghassem-Sani, Seyed abolghasem mirroshandel . EMNLP 2022 데모. [Codebase] [PDF]
- SEQATTACK : 지명 된 엔티티 인식에 대한 적대적 공격 . Walter Simoncini, Gerasimos Spanakis . EMNLP 2021 데모. [웹 사이트] [PDF]
- Openattack : 오픈 소스 텍스트 적대적 공격 툴킷 . Guoyang Zeng, Fanchao Qi, Qianrui Zhou, Tingji Zhang, Bairu Hou, Yuan Zang, Zhiyuan Liu, Maosong Sun. ACL-IJCNLP 2021 데모. [웹 사이트] [Doc] [PDF]
- TextATCACK : NLP의 적대적 공격, 데이터 확대 및 대적 훈련을위한 프레임 워크 . John Morris, Eli Lifland, Jin Yong Yoo, Jake Grigsby, Di Jin, Yanjun Qi . EMNLP 2020 데모. [웹 사이트] [Doc] [PDF]
1. 설문 조사 논문
- NLP 모델의 견고성을 측정하고 개선하십시오. 설문 조사 . Xuezhi Wang, Haohan Wang, Diyi Yang . NAACL 2022. [PDF]
- 텍스트의 강력한 깊은 신경망을 향해 : 설문 조사 . Wenqi Wang, Lina Wang, Benxiao Tang, Run Wang, Aoshuang Ye . TKDE 2021. [PDF]
- 자연어 처리의 딥 러닝 모델에 대한 대적 공격 : 설문 조사 . Wei Emma Zhang, Quan Z. Sheng, Ahoud Alhazmi, Chenliang Li . ACM TIST 2020. [PDF]
- 이미지, 그래프 및 텍스트의 적대적 공격 및 방어 : 검토 . Han Xu, Yao MA, Hao-Chen Liu, Debayan Deb, Hui Liu, Ji-Liang Tang, Anil K. Jain . 국제 자동화 및 컴퓨팅 저널 2020. [PDF]
- 신경 언어 처리의 분석 방법 : 설문 조사 . 야나탄 벨 린코프, 제임스 글래스 . TACL 2019. [PDF]
2. 공격 용지
각 논문은 공격 모델이 피해자 모델 에 대해 알고있는 정보의 양을 나타내는 하나 이상의 라벨에 첨부됩니다. gradient (= white , 모든 정보), score (출력 결정 및 점수), decision (출력 결정) 및 blind (없음)
2.1 문장 수준의 공격
- 대적 공격을 사용하여 기계 판독 이해 모델에서 통계적 편향을 드러냅니다 . Jieyu Lin, Jiajie Zou, Nai Ding . ACL-IJCNLP 2021.
blind [PDF] - 회색 박스 대적 공격 및 감정 분류 방어 . Ying Xu, Xu Zhong, Antonio Jimeno Yepes, Jey Han Lau . NAACL-HLT 2021.
gradient [PDF] [코드] - 주석이 달린 평행 한 쌍을 사용하지 않고 구문 적으로 제어 된 역할을 생성합니다 . Kuan-Hao Huang과 Kai-Wei Chang . EACL 2021. [PDF] [코드]
- Cat-Gen : 제어 된 대적 텍스트 생성을 통해 NLP 모델의 견고성 향상 . Tianlu Wang, Xuezhi Wang, Yao Qin, Ben Packer, Kang Lee, Jilin Chen, Alex Beutel, Ed Chi . EMNLP 2020.
score [PDF] - T3 : Tree-Autoencoder는 표적 공격에 대한 적대적인 텍스트 생성을 제한합니다 . Boxin Wang, Hengzhi Pei, Boyuan Pan, Qian Chen, Shuohang Wang, Bo Li . EMNLP 2020.
gradient [PDF] [코드] - 구조화 된 예측 모델의 적대적 공격 및 방어 . Wenjuan Han, Liwen Zhang, Yong Jiang, Kewei Tu . EMNLP 2020.
blind [PDF] [코드] - MALCOM : 신경 가짜 뉴스 탐지 모델을 공격하기위한 악의적 인 의견을 생성합니다 . 타이 르, 수완 왕, 동전 ICDM 2020.
gradient [PDF] [코드] - 질문 응답 시스템의 견고성을 개선하여 의문을 제기합니다 . Wee Chung Gan, hwee tou ng . ACL 2019.
blind [PDF] [데이터] - 당신이 할 수 있다면 나를 속이십시오 : 인간의 루프 세대의 적대적 사례의 질문에 대답하십시오 . Eric Wallace, Pedro Rodriguez, Shi Feng, Ikuya Yamada, Jordan Boyd-Graber . TACL 2019.
score [PDF] - 발 : 단어 스크램블링의 반대적 인 반응 . Yuan Zhang, Jason Baldridge, Luheng HE . NAACL-HLT 2019.
blind [PDF] [데이터 세트] - 대화 시스템의 견고성 평가 및 향상 : 협상 에이전트에 대한 사례 연구 . Minhao Cheng, Wei Wei, Cho-Jui Hsieh . NAACL-HLT 2019.
gradient score [PDF] [코드] - NLP 모델을 디버깅하기위한 의미 적으로 동등한 적대 규칙 . Marco Tulio Ribeiro, Sameer Singh, Carlos Guestrin . ACL 2018.
decision [PDF] [코드] - 논리적 배경 지식을 통합하기 위해 신경 NLI 모델을 반짝이로 정규화합니다 . Pasquale Minervini, Sebastian Riedel . Conll 2018.
score [PDF] [코드 및 데이터] - 적대적인 훈련을 통한 강력한 기계 이해 모델 . Yicheng Wang, Mohit Bansal . NAACL-HLT 2018.
decision [PDF] [데이터 세트] - 구문 적으로 제어 된 역사적 네트워크를 사용한 적대적 사례 생성 . Mohit Iyyer, John Wieting, Kevin Gimpel, Luke Zettlemoyer . NAACL-HLT 2018.
blind [PDF] [코드 및 데이터] - 자연 대적 사례를 생성합니다 . Zhengli Zhao, Dheeru dua, Sameer Singh . ICLR 2018.
decision [PDF] [코드] - 독해 시스템을 평가하기위한 적대적 사례 . 로빈 지아, 퍼시 리앙 EMNLP 2017.
score decision blind [PDF] [코드] - 신경 링크 예측 변수를 정규화하기위한 적대적 세트 . Pasquale Minervini, Thomas Demeester, Tim Rocktäschel, Sebastian Riedel . UAI 2017.
score [PDF] [코드]
2.2 단어 수준의 공격
- 범위 확대 : 영어 적대적 공격을 중국어에 적용합니다 . Hanyu Liu, Chengyuan Cai, Yanjun Qi . ACL 2023의 결과.
decision [PDF] [코드] - 검색 및 학습에 의한 적대적인 텍스트 생성 . Guoyi Li, Bingkang Shi, Zongzhen Liu, Dehan Kong, Yulei Wu, Xiaodan Zhang, Longtao Huang, Honglei Lyu . ACL 2023의 결과
score [PDF] [코드] - CV와 NLP 사이의 간격을 브리지! 그라디언트 기반 텍스트 적대적 공격 프레임 워크 . Lifan Yuan, Yichi Zhang, Yangyi Chen, Wei Wei . ACL 2023의 결과.
decision [PDF] [코드] - Texthacker : 텍스트 하드 라벨 적대적 공격에 대한 학습 기반 하이브리드 로컬 검색 알고리즘 . Zhen Yu, Xiaosen Wang, Wanxiang Che, Kun . EMNLP 2022의 결과.
decision [PDF] [코드] - Texthoaxer : 텍스트에 대한 예산의 하드 레이블 대적 공격 . Muchao Ye, Chenglin Miao, Ting Wang, Fenglong Ma . AAAI 2022.
decision [PDF] [코드] - 베이지안 최적화를 통한 개별 순차 데이터에 대한 쿼리 효율적이고 확장 가능한 블랙 박스 대적 공격 . Deokjae Lee, Seungyong Moon, Junhyeok Lee, Hyun Oh 노래 . ICML 2022.
score [PDF] [코드] - SEMATTACK : 다양한 시맨틱 공간에 대한 자연스러운 텍스트 공격 . Boxin Wang, Chejian Xu, Xiangyu Liu, Yu Cheng, Bo Li . NAACL 2022의 결과.
gradient [PDF] [코드] - 텍스트 변압기에 대한 그라디언트 기반 적대 공격 . Chuan Guo, Alexandre Sablayrolles, Hervé Jégou, Douwe Kiela . EMNLP 2021.
gradient [PDF] [코드] - 블랙 박스 설정에서 쿼리 효율적인 공격을위한 강력한 기준선 . Rishabh Maheswary, Saket Maheshwary, Vikram Pudi . EMNLP 2021.
score [PDF] [코드] - 신경 텍스트 분류기에 대한 대적 공격의 전달성 . Liping Yuan, Xiaoqing Zheng, Yi Zhou, Cho-Jui Hsieh, Kai-Wei Chang . EMNLP 2021. [PDF]
- 신경 기계 번역을위한 적대적인 예제 . Xinze Zhang, Junzhe Zhang, Zhenhua Chen, Kun HE . ACL-IJCNLP 2021.
score [PDF] [코드] - NMT에 대한 대적 공격에 대한 경험적 연구 : 언어와 위치가 중요합니다 . Zhiyuan Zeng, Deyi Xiong . ACL-IJCNLP 2021.
score [PDF] - 더 나은 대적 사례를 사용하여 신경 의존성 파서의 견고성을 자세히 살펴 봅니다 . Yuxuan Wang, Wanxiang Che, Ivan Titov, Shay B. Cohen, Zhilin Lei, Ting Liu . ACL의 결과 : ACL-IJCNLP 2021.
score [PDF] [코드] - 텍스트 적대적 공격에 대한 맥락화 된 섭동 . Dianqi Li, Yizhe Zhang, Hao Peng, Liqun Chen, Chris Brockett, Ming-Ting Sun, Bill Dolan . NAACL-HLT 2021.
score [PDF] [코드] - Adv-Olm : OLM을 통해 텍스트 적대자 생성 . Vijit Malik, Ashwani Bhat, Ashutosh Modi . EACL 2021.
score [PDF] [코드] - 야생의 적대적 스타일 측정 : 저자 프로파일에 대한 전송 가능한 어휘 대체 공격 . Chris Emmery, Ákos Kádár, Grzegorz Chrupała . EACL 2021.
blind [PDF] [코드] - 하드 레이블 블랙 박스 설정에서 자연 언어 공격 생성 . Rishabh Maheshwary, Saket Maheshwary, Vikram Pudi . AAAI 2021.
decision [PDF] [코드] - 자연 언어 적대적 사례를 생성하기위한 기하학에서 영감을 얻은 공격 . Zhao Meng, Roger Wattenhofer . Coling 2020.
gradient [PDF] [코드] - Bert-Attack : Bert를 사용한 Bert에 대한 대적 공격 . Linyang Li, Ruotian MA, Qipeng Guo, Xiangyang Xue, Xipeng Qiu . EMNLP 2020.
score [PDF] [코드] - BAE : 텍스트 분류를위한 BERT 기반 적대 예제 . Siddhant Garg, Goutham Ramakrishnan . EMNLP 2020.
score [PDF] [코드] - 모델 비석적 적대적 공격에 대한 기계 번역에서 단어 감지 분해 편향을 감지합니다 . Denis Emelin, Ivan Titov, Rico Sennrich . EMNLP 2020.
blind [PDF] [코드] - 블랙 박스 기계 번역 시스템의 모방 공격 및 방어 . 에릭 월리스, 미첼 스턴, 새벽 노래 . EMNLP 2020.
decision [PDF] [코드] - 공유 단어 식별에서 공유 단어로 수정에 대한 견고성 . Zhouxing Shi, Minlie Huang . ACL의 결과 : EMNLP 2020.
score [PDF] - 조합 최적화로서 단어 수준의 텍스트 적대적 공격 . Yuan Zang, Fanchao Qi, Chenghao Yang, Zhiyuan Liu, Meng Zhang, Qun Liu, Maosong Sun. ACL 2020.
score [PDF] [코드] - 모르핀의 시간입니다! 언어 차별을 변곡 섭동으로 퇴치합니다 . Samson Tan, Shafiq Joty, Min-Yen Kan, Richard Socher . ACL 2020.
score [PDF] [코드] - 문법 오류에 대한 언어 인코더의 견고성 . Fan Yin, Quanyu Long, Tao Meng, Kai-Wei Chang . ACL 2020.
score [PDF] [코드] - 적대적인 예제로 신경망 기반 의존성 구문 분석 모델의 견고성을 평가하고 향상시킵니다 . Xiaoqing Zheng, Jiehang Zeng, Yi Zhou, Cho-Jui Hsieh, Minhao Cheng, Xuanjing Huang . ACL 2020.
gradient score [PDF] [코드] - 신경 기계 번역을위한 적대적 사례의 강화 된 생성 . Wei Zou, Shujian Huang, Jun Xie, Xinyu Dai, Jiajun Chen . ACL 2020.
decision [PDF] - 버트는 정말 강력합니까? 텍스트 분류 및 수반에 대한 자연 언어 공격을위한 강력한 기준 . Di Jin, Zhijing Jin, Joey Tianyi Zhou, Peter Szolovits . AAAI 2020.
score [PDF] [코드] - seq2sick : 적대적 예제와 함께 시퀀스-시퀀스 모델의 견고성을 평가합니다 . Minhao Cheng, Jinfeng Yi, Pin-Yu Chen, Huan Zhang, Cho-Jui Hsieh . AAAI 2020.
score [PDF] [코드] - 욕심 많은 공격 및 검은 공격 : 개별 데이터에 대한 적대적 사례 생성 . Puyudi Yang, Jianbo Chen, Cho-Jui Hsieh, Jane-Lingwang, Michael I. Jordan . JMLR 2020.
score [PDF] [코드] - 자기 정성 모델의 견고성 . Yu-Lun Hsieh, Minhao Cheng, Da-Cheng Juan, Wei Wei, Wen-Lian Hsu, Cho-Jui Hsieh . ACL 2019.
score [PDF] - 확률 가중어 단어 돌출을 통해 자연어 적대 사례를 생성합니다 . Shuhuai Ren, Yihe Deng, Kun He, Wanxiang Che . ACL 2019.
score [PDF] [코드] - 자연 언어에 대한 유창한 대적 사례를 생성합니다 . Huangzhao Zhang, Hao Zhou, Ning Miao, Lei Li . ACL 2019.
gradient score [PDF] [코드] - 이중 적대적 입력을 가진 강력한 신경 기계 번역 . Yong Cheng, Lu Jiang, Wolfgang Macherey . ACL 2019.
gradient [PDF] - 텍스트 분류기에 대한 보편적 대적 공격 . Melika Behjati, Seyed-Mohsen Moosavi-Dezfooli, Mahdieh Soleymani Baghshah, Pascal Frossard . ICASSP 2019.
gradient [PDF] - 자연 언어 적대적 사례 생성 . Moustafa Alzantot, Yash Sharma, Ahmed Elgohary, Bo-Jhang Ho, Mani Srivastava, Kai-Wei Chang . EMNLP 2018.
score [PDF] [코드] - 간단한 어휘 추론이 필요한 문장으로 NLI 시스템을 깨뜨립니다 . Max Glockner, Vered Shwartz, Yoav Goldberg . ACL 2018.
blind [PDF] [데이터 세트] - 깊은 텍스트 분류는 속일 수 있습니다 . Bin Liang, Hongcheng Li, Miaoqiang SU, Pan Bian, Xirong Li, Wenchang Shi . IJCAI 2018.
gradient score [PDF] - 텍스트를위한 입력 임베딩 공간에서 해석 가능한 적대적 섭동 . SATO, MOTOKI, Jun Suzuki, Hiroyuki Shindo, Yuji Matsumoto . IJCAI 2018.
gradient [PDF] [코드] - 텍스트 적대 샘플을 만드는쪽으로 . Suranjana Samanta, Sameep Mehta . ECIR 2018.
gradient [PDF] - 반복 신경 네트워크를위한 적대적 입력 시퀀스 제작 . Nicolas Papernot, Patrick McDaniel, Ananthram Swami, Richard Harang . Milcom 2016.
gradient [PDF]
2.3 숯불 공격
- 언어 모델에 대한 문자 수준의 적대적 공격 재 방문 . Elias Abad Rocamora , Yongtao Wu, Fanghui Liu, Grigorios G. Chrysos, Volkan Cevher, ICML 2024.
score blind gradient [PDF] [코드] - Vertattack : 텍스트 분류기의 수평 비전을 활용합니다 . Jonathan Rusert , NAACL 2024.
score blind [PDF] - 구두점 수준의 공격 : 단일 샷 및 단일 구두점은 텍스트 모델을 속일 수 있습니다 . Wenqiang Wang, Chongyang du, Tao Wang, Kaihao Zhang, Wenhan Luo, Lin Ma, Wei Liu, Xiaochun Cao . Neurips 2023.
score blind [PDF] - 딥 러닝 기반 NLP 시스템에 대한 대적 공격으로 구두점 사용 : 경험적 연구 . Brian Formento, Chuan Sheng Foo, Luu Anh Tuan, Kiong ng 참조 . EACL (조사) 2023.
score blind [PDF] [코드] - 모델 추출 및 적대적 전달성, Bert는 취약합니다! . Xuanli He, Lingjuan Lyu, Lichao Sun, Qiongkai Xu . NAACL-HLT 2021.
blind [PDF] [코드] - 인간과 같은 텍스트 처리 : 시각적으로 공격하고 NLP 시스템을 보호합니다 . Steffen Eger, Gözde Gül ¸sahin, Andreas Rücklé, Ji-ung Lee, Claudia Schulz, Mohsen Mesgar, Krishnkant Swarnkar, Edwin Simpson, Iryna Gurevych . NAACL-HLT 2019.
blind [PDF] [코드 및 데이터] - 흰색 대백 : 블랙 박스 대적 공격의 효율적인 증류 . Syotam Gil, Yoav Chai 또는 Gorodissky, Jonathan Berant . NAACL-HLT 2019.
blind [PDF] [코드] - 딥 러닝 분류기를 회피하기위한 대응 텍스트 시퀀스의 블랙 박스 생성 . Ji Gao, Jack Lanchantin, Mary Lou Soffa, Yanjun Qi . IEEE SPW 2018.
score [PDF] [코드] - 문자 수준의 신경 기계 번역에 대한 적대적인 예에서 . Javid Ebrahimi, Daniel Lowd, Dejing Dou . Coling 2018.
gradient [PDF] [코드] - 합성 및 자연 소음은 모두 신경 기계 번역을 깨뜨립니다 . 야나탄 벨 린코프, 요나타 비스크 . ICLR 2018.
blind [PDF] [코드 및 데이터]
2.4 다단계 공격
- LLM은 자체적으로 바보가 될 수 있습니다 : 신속한 기반 적대적 공격 . Xilie Xu, Keyi Kong, Ning Liu, Lizhen Cui, Di Wang, Jingfeng Zhang, Mohan Kankanhalli . ICLR 2024.
blind [PDF] - 행동 복제를 통한 다중 부문 텍스트 적대적 공격 . Yangyi Chen, Jin Su, Wei Wei . EMNLP 2021.
blind [PDF] [코드] - 강력한 응답 순위 및 평가에 대한 적대적 부정적인 반응 합성 . Prakhar Gupta, Yulia Tsvetkov, Jeffrey Bigham . ACL의 결과 : ACL-IJCNLP 2021.
blind [PDF] [코드] - Sesame Street의 코드 혼합 : 적대적 폴리 글롯의 새벽 . Samson Tan, Shafiq Joty . NAACL-HLT 2021.
score [PDF] [코드] - 자연스럽게 텍스트 분류를위한 보편적 대적 공격 . Liwei Song, Xinwei Yu, Hsuan-Tung Peng, Karthik Narasimhan . NAACL-HLT 2021.
gradient [PDF] [코드] - BBAEG : 텍스트 분류를위한 BERT 기반의 생물 의학적 대적 사례 세대를 향해 . Ishani Mondal . NAACL-HLT 2021.
score [PDF] [코드] - 답변을 위해“NSWVTNVAKGXPM”을 사용하지 마십시오 . Yuning Ding, Brian Riordan, Andrea Horbach, Aoife Cahill, Torsten Zesch . COLING 2020.
blind [PDF] [코드] - NLP 공격 및 분석을위한 보편적 대적 트리거 . Eric Wallace, Shi Feng, Nikhil Kandpal, Matt Gardner, Sameer Singh . EMNLP-IJCNLP 2019.
gradient [PDF] [코드] [웹 사이트] - TextBugger : 실제 응용 프로그램에 대한 대적 텍스트 생성 . Jinfeng Li, Shouling JI, Tianyu du, Bo Li, Ting Wang . NDSS 2019.
gradient score [PDF] - 깊은 강화 모델을 사용하여 텍스트 분류기에 대한 블랙 박스 대적 예제를 생성합니다 . Prashanth Vijayaraghavan, Deb Roy . ECMLPKDD 2019.
score [PDF] - HOTFLIP : 텍스트 분류를위한 화이트 박스 대적 예 . Javid Ebrahimi, Anyi Rao, Daniel Lowd, Dejing Dou . ACL 2018.
gradient [PDF] [코드] - 대화 모델의 적대적 과민성 및 과도한 안정성 전략 . Tong Niu, Mohit Bansal . Conll 2018.
blind [PDF] [코드 및 데이터] - 주의 기반 컨볼 루션 및 재발 성 신경망 비교 : 기계 판독 이해의 성공 및 한계 . Matthias Blohm, Glorianna Jagfeld, Ekta Sood, Xiang Yu, Ngoc Thang vu . Conll 2018.
gradient [PDF] [코드]
3. 방어 논문
- AI 생성 텍스트 감지기는 대적 섭동에 강력합니까? Guanhua Huang, Yuchen Zhang, Zhe Li, Yongjian You, Mingze Wang 및 Zhouwang Yang. ACL 2024. [PDF] [코드]
- SEMRODE : 단어 수준의 공격에 강력한 표현을 배우기위한 거시적 적대적 훈련 . Brian Formento, Wenjie Feng, Chuan-Sheng Foo, Anh Tuan Luu, See-Kiong ng . NAACL 2024. [PDF] [코드]
- DSRM : 배포 시프트 위험 최소화로 텍스트 적대적인 훈련을 향상시킵니다 . Songyang Gao, Shihan Dou, Yan Liu, Xiao Wang, Qi Zhang, Zhongyu Wei, Jin Ma, Ying Shan . ACL 2023. [PDF] [코드]
- 모델 견고성을위한 교란 된 토큰 탐지를 통한 생성 적대 훈련 . Jiahao Zhao, Wenji Mao . EMNLP 2023. [PDF] [코드]
- 자연 언어 적대적 사례에 대한 텍스트 매니 폴드 기반 방어 . Dang Minh Nguyen, Luu Anh Tuan . EMNLP 2022. [PDF] [코드]
- Shapley additive 설명을 통해 단어 수준의 대적 텍스트 공격 감지 . Lukas Huber, Marc Alexander Kühn, Edoardo Mosca, Georg Groh . repl4nlp@acl 2022. [pdf] [코드]
- 텍스트 분류에서의 적대적 사례의 탐지 : 강력한 밀도 추정을 통한 벤치 마크 및 기준선 . Kiyoon Yoo, Jangho Kim, Jiho Jang, Nojun Kwawk . ACL 2022 (발견). [PDF] [코드]
- “이것은 의심스러운 반응입니다!”: NLP 적대적 공격을 감지하기위한 로그 변형 해석 . Edoardo Mosca, Shreyash Agarwal, Javier Rando Ramírez, Georg Groh . ACL 2022. [PDF] [코드]
- 방패 : 확률 론적 멀티 엑스퍼트 패치를 사용한 여러 블랙 박스 대적 공격에 대한 텍스트 신경망을 방어합니다 . 태국 르, 코 송 공원, 동원 리 . ACL 2022. [PDF]
- 야생의 섭동 : 현실적인 대적 공격과 방어를위한 인간이 쓴 텍스트 섭동을 활용합니다 . 태국 LE, Jooyoung Lee, Kevin Yen, Yifan Hu, Dongwon Lee . ACL 2022 (발견). [PDF]
- 개별 대적 훈련을 통해 모델 견고성을 달성합니다 . Maor Ivgi, Jonathan Berant . EMNLP 2021. [PDF] [코드]
- Dirichlet Neighborhood Ensemble을 통한 동의어 대체 기반 적대적 공격에 대한 방어 . Yi Zhou, Xiaoqing Zheng, Cho-Jui Hsieh, Kai-Wei Chang, Xuanjing Huang . ACL-IJCNLP 2021. [PDF]
- Darcy의 달콤한 토끼 구멍 : 허니 팟을 사용하여 Universal Trigger의 대적 공격을 감지합니다 . 태국 르, 코 송 공원, 동원 리 . ACL-IJCNLP 2021. [PDF] [코드]
- 더 많은 범위에 의한 더 나은 견고성 : 강력한 결합을위한 적대 및 믹스 업 데이터 확대 . Chenglei SI, Zhengyan Zhang, Fanchao Qi, Zhiyuan Liu, Yasheng Wang, Qun Liu, Maosong Sun. ACL의 결과 : ACL-IJCNLP 2021. [PDF] [코드]
- BERT-DEFENSE :인지 적으로 영감을 얻은 직교 적 대적 공격에 맞서기 위해 BERT를 기반으로 한 확률 적 모델 . Yannik Keller, Jan Mackensen, Steffen Eger . ACL의 결과 : ACL-IJCNLP 2021. [PDF] [코드]
- 성능 희생없이 적대적 단어 대체에서 미리 훈련 된 언어 모델을 방어합니다 . Rongzhou Bao, Jiayi Wang, Hai Zhao . ACL의 결과 : ACL-IJCNLP 2021. [PDF] [코드]
- 신경 기계 번역을위한 매니 폴드 대적 확대 . Guandan Chen, Kai Fan, Kaibo Zhang, Boxing Chen, Zhongqiang Huang . ACL의 결과 : ACL-IJCNLP 2021. [PDF]
- 동의어 인코딩을 통한 자연 언어 적대 방어 . Xiaosen Wang, Hao Jin, Kun . UAI 2021. [PDF] [코드]
- 동의어 대체 기반 텍스트 공격에 대한 빠른 그라디언트 투영 방법을 사용한 적대적 훈련 . Xiaosen Wang, Yichen Yang, Yihe Deng, Kun . AAAI 2021. [PDF] [코드]
- 텍스트 적대적 예제를 감지하기위한 주파수 유도 단어 대체 . Maximilian Mozes, Pontus Stenetorp, Bennett Kleinberg, Lewis D. Griffin . EACL 2021. [PDF] [코드]
- 자연어 단어 대체에 대한 견고성을 향해. Xinshuai Dong, Anh Tuan Luu, Rongrong Ji, Hong Liu. ICLR 2021. [PDF] [코드]
- InfoBert : 정보 이론적 관점에서 언어 모델의 견고성 향상 . Boxin Wang, Shuohang Wang, Yu Cheng, Zhe Gan, Ruoxi Jia, Bo Li, Jingjing Liu . ICLR 2021. [PDF] [코드]
- 대적 공격을 통한 취약성으로 신경 모델을 향상시킵니다 . Rong Zhang, Qifei Zhou, Bo An, Weiping Li, Tong Mo, Bo Wu . Coling 2020. [PDF] [코드]
- 교차 도메인 슬롯 채우기에 대한 대조적 인 제로 샷 학습 . Keqing He, Jinchao Zhang, Yuanmeng Yan, Weiran Xu, Cheng Niu, Jie Zhou . Coling 2020. [PDF]
- 당신의 변곡을 염두에 두십시오! 기본 감동 인코딩을 통해 비표준 영어의 NLP 향상 . Samson Tan, Shafiq Joty, Lav R. Varshney, Min-Yen Kan . EMNLP 2020. [PDF] [코드]
- 강력한 인코딩 : 대적 오타와 싸우기위한 프레임 워크 . Erik Jones, Robin Jia, Aditi Raghunathan, Percy Liang . ACL 2020. [PDF] [코드]
- 적대적인 텍스트를 방어하기위한 공동 문자 수준의 단어 임베딩 및 적대적 안정성 훈련 . Hui Liu, Yongzheng Zhang, Yipeng Wang, Zheng Lin, Yige Chen . AAAI 2020. [PDF]
- 기계 읽기 이해력에 대한 강력한 대적 훈련 접근법 . Kai Liu, Xin Liu, Anyang, Jing Liu, Jinsong Su, Sujian Li, Qiaoqiao 그녀 . AAAI 2020. [PDF]
- 프리 브 : 언어 이해를위한 향상된 적대적 훈련 . Chen Zhu, Yu Cheng, Zhe Gan, Siqi Sun, Tom Goldstein, Jingjing Liu . CORR 2019. [PDF] [코드]
- 텍스트 분류에서 대적 공격을 차단하기위한 섭동을 차별하는 법을 배우는 것 . Yichao Zhou, Jyun-Yu Jiang, Kai-Wei Chang, Wei Wang . EMNLP-IJCNLP 2019. [PDF] [코드]
- 대화 안전 : 적대적 인간의 공격으로 인한 견고성을 위해 고치십시오 . Emily Dinan, Samuel Humeau, Bharath Chintagunta, Jason Weston . EMNLP-IJCNLP 2019. [PDF] [데이터]
- 강력한 단어 인식으로 대적 틀린과 싸우는 것 . 덴마크 Pruthi, Bhuwan Dhingra, Zachary C. Lipton . ACL 2019. [PDF] [코드]
- 자연 언어 처리 작업의 강력한 잡음 모델 . 발렌타인 말리크 . ACL 2019. [PDF] [코드]
4. 인증 된 견고성
- 차별적 개인 정보를 가진 단어 대체 공격에 대한 인증 된 견고성 . Wenjie Wang, Pengfei Tang, Jian Lou, Li Xiong . NAACL-HLT 2021. [PDF]
- 확장 가능한 인증 견고성 및 그 이상에 대한 자동 섭동 분석 . Kaidi Xu, Zhouxing Shi, Huan Zhang, Yihan Wang, Kai-Wei Chang, Minlie Huang, Bhavya Kailkhura, Xue Lin, Cho-Jui Hsieh . Neurips 2020. [PDF] [코드]
- 더 안전한 : 적대적인 단어 대체에 대한 인증 된 견고성을위한 구조가없는 접근 . Mao Ye, Chengyue Gong, Qiang Liu . ACL 2020. [PDF] [코드]
- 변압기에 대한 견고성 검증 . Zhouxing Shi, Huan Zhang, Kai-Wei Chang, Minlie Huang, Cho-Jui Hsieh . ICLR 2020. [PDF] [코드]
- 간격 결합 전파를 통해 기호 대체에 대한 검증 된 견고성을 달성합니다 . Po-Sen Huang, Robert Stanforth, Johannes Welbl, Chris Dyer, Dani Yogatama, Sven Gowal, Krishnamurthy Dvijotham, Pushmeet Kohli . EMNLP-IJCNLP 2019. [PDF]
- 적대적 단어 대체에 대한 인증 된 견고성 . Robin Jia, Aditi Raghunathan, Kerem Göksel, Percy Liang . EMNLP-IJCNLP 2019. [PDF] [코드]
- POPQORN : 재발 성 신경망의 견고성을 정량화합니다 . Ching-Yun Ko, Zhaoyang Lyu, Lily Weng, Luca Daniel, Ngai Wong, Dahua Lin . ICML 2019. [PDF] [코드]
5 벤치 마크 및 평가
- 디코딩 트러스트 : GPT 모델의 신뢰성에 대한 포괄적 인 평가 . Boxin Wang, Weixin Chen, Hengzhi Pei, Chulin Xie, Mintong Kang, Chenhui Zhang, Chejian Xu, Zidi Xiong, Ritik Dutta, Rylan Schaeffer, Sang T. Truong, Simran Arora, Mantas Mazeika, Dan Hendrycks, Zinan Lin, Yu Cheng,, Dinan, Zinan 노래, 보이 . Neurips 2023 (데이터 세트 및 벤치 마크 트랙). [PDF] [웹 사이트]
- 텍스트 적대적 공격에서 의미론을 보존합니다 . David Herel, Hugo Cisneros, Tomas Mikolov . ECAI 2023. [PDF] [코드]
- GPT-3이 신뢰할 수 있도록 프롬프트 . Chenglei SI, Zhe Gan, Zhengyuan Yang, Shuohang Wang, Jianfeng Wang, Jordan Boyd-Graber, Lijuan Wang . ICLR 2023. [PDF] [코드]
- 적대적 섭동이 왜 눈에 띄지 않아야합니까? Adversarial NLP의 연구 패러다임을 다시 생각하십시오 . Yangyi Chen, Hongcheng Gao, Ganqu Cui, Fanchao Qi, Longtao Huang, Zhiyuan Liu, Maosong Sun. EMNLP 2022. [PDF] [코드 및 데이터]
- 신경 NLP 모델의 견고성을 텍스트 섭동으로 해석합니다. Yunxiang Zhang, Liangming Pan, Samson Tan, Min-Yen Kan . ACL의 결과, 2022. [PDF]
- 텍스트 분류를위한 인간 및 기계로 생성 된 단어 수준의 대적 예제 . Maximilian Mozes, Max Bartolo, Pontus Stenetorp, Bennett Kleinberg, Lewis D. Griffin . EMNLP 2021. [PDF] [코드]
- Dynabench : NLP에서 벤치마킹을 다시 생각합니다. Douwe Kiela, Max Bartolo, Yixin Nie, Divyansh Kaushik, Atticus Geiger, Zhengxuan Wu, Bertie Vidgen, Grusha Prasad, Amanpreet Singh, Pratik Ringshia, Zhiyi Ma, Tristan Rush, Sebastian Riedel, Zeereem Was Was Was Was Was는 Bansal, Christopher Potts, Adina Williams . NAACL 2021. [PDF] [웹 사이트]
- 적대적 접착제 : 언어 모델의 견고성 평가를위한 멀티 태스킹 벤치 마크. Boxin Wang, Chejian Xu, Shuohang Wang, Zhe Gan, Yu Cheng, Jianfeng Gao, Ahmed Hassan Awadallah, Bo Li . Neurips 2021 (데이터 세트 및 벤치 마크 트랙). [PDF] [웹 사이트]
- 발효 수비수 검색 : 대적 단어 대체에 대한 방어 벤치 마킹. Zongyi Li, Jianhan Xu, Jiehang Zeng, Linyang Li, Xiaoqing Zheng, Qi Zhang, Kai-Wei Chang 및 Cho-Jui Hsieh . EMNLP 2021. [PDF]
- 이중 섭동 : 견고성과 반 사실적 편향 평가의 견고성 . Chong Zhang, Jieyu Zhao, Huan Zhang, Kai-Wei Chang 및 Cho-jui Hsieh Naacl 2021. [PDF] [코드]
- 자연 언어로 적대적인 사례를 재평가합니다 . John Morris, Eli Lifland, Jack Lanchantin, Yangfeng Ji, Yanjun Qi . ACL의 결과 : EMNLP 2020. [PDF] [코드 및 데이터]
- 영웅에서 제로까지 : 저수준 적대적 공격의 벤치 마크 . Steffen Eger, Yannik Benz . AACL-IJCNLP 2020. [PDF] [코드 및 데이터]
- 적대적 NLI : 자연어 이해를위한 새로운 벤치 마크 . Yixin Nie, Adina Williams, Emily Dinan, Mohit Bansal, Jason Weston, Douwe Kiela . ACL 2020. [PDF] [데모] [데이터 세트 및 리더 보드]
- 대비 세트를 통한 NLP 모델 평가 . Matt Gardner, Yoav Artzi, Victoria Basmova, Jonathan Berant, Ben Bogin, Sihao Chen, Pradeep Dasigi, Dheeru Dua, Yanai Elazar, Ananth Gottumukkala, Nitish Gupta, Hanna Hajishirzi, Gabriel Ilharco, Daniel Khashabi, Kevin Lin, Joangming Linf. Liu, Phoebe Mulcaire, Qiang Ning, Sameer Singh, Noah A. Smith, Sanjay Subramanian, Reut Tsarfaty, Eric Wallace, Ally Zhang, Ben Zhou . ACL의 결과 : EMNLP 2020. [PDF] [웹 사이트]
- 서열-시퀀스 모델에 대한 대적 섭동의 평가 . Paul Michel, Xian Li, Graham Neubig, Juan Miguel Pino . NAACL-HLT 2019. [PDF] [코드]
6. 다른 논문
- 단어 수준의 적대적 사례를 생성하기위한 인간 전략을 식별합니다 . Maximilian Mozes, Bennett Kleinberg, Lewis D. Griffin . ACL의 결과 : EMNLP 2022. [PDF]
- Lexicalat : 강력한 감정 분류를위한 어휘 기반 적대적 강화 훈련 . Jingjing Xu, Liang Zhao, Hanqi Yan, Qi Zeng, Yun Liang, Xu Sun. EMNLP-IJCNLP 2019. [PDF] [코드]
- 통합 시각-미용 임베드 : 구조적 의미 표현을 가진 비전과 언어 브리징 . Hao Wu, Jiyuan Mao, Yufeng Zhang, Yuning Jiang, Lei Li, Weiwei Sun, Wei-ying Ma . CVPR 2019. [PDF]
- 모험 : 지식 유도 사례와 함께 텍스트 수반을위한 적대적인 훈련 . Dongyeop Kang, Tushar Khot, Ashish Sabharwal, Eduard Hovy . ACL 2018. [PDF] [코드]
- 대조적 인 적대적 샘플에서 시각적으로 지하면 의미를 학습합니다 . Haoyue Shi, Jiyuan Mao, Tete Xiao, Yuning Jiang, Jian Sun. Coling 2018. [PDF] [코드]
기고자
우리는이 목록에 모든 기고자들에게 감사드립니다. 그리고 더 많은 기여는 매우 환영합니다.