關於文字對抗攻擊和防禦(TAAD)的必讀論文
目前由烏奇卡哥的鄭陽維持此列表。
其他主要貢獻者在包括Fanchao Qi和Yuan Zang時,他們在Thunlp。
我們非常感謝所有偉大的貢獻者。
內容
- 0。工具包
- 1。調查文件
- 2。攻擊論文(根據擾動水平分類)
- 2.1句子級攻擊
- 2.2單詞級攻擊
- 2.3 char級攻擊
- 2.4多層攻擊
- 3。辯護文件
- 4。認證的魯棒性
- 5。基準和評估
- 6。其他論文
- 貢獻者
0。工具包
- RubustQA:關於對抗性文本生成分析的框架,該框架在問答系統上。 Yasaman Boreshban,Seyed Morteza Mirbostani,Seyedeh Fatemeh Ahmadi,Gita Shojaee,Fatemeh Kamani,Gholamreza Ghassem-Sani,Seyed Abolghasem Mirroshandel 。 EMNLP 2022演示。 [代碼庫] [PDF]
- Seqattack:在命名實體識別的對抗性攻擊中。 Walter Simoncini,Gerasimos Spanakis 。 EMNLP 2021演示。 [網站] [PDF]
- OpenAttack:開源文本對手攻擊工具包。 Guoyang Zeng,Fanchao Qi,Qianrui Zhou,Tingji Zhang,Bairu Hou,Yuan Zang,Zhiyuan Liu,Maosong Sun。 ACL-IJCNLP 2021演示。 [網站] [DOC] [PDF]
- TextAttack:NLP中對抗性攻擊,數據增強和對抗培訓的框架。約翰·莫里斯(John Morris),埃利·利蘭德(Eli Lifland),珍楊(Jin Yong Yoo),傑克·格里格斯比(Jake Grigsby),迪·金(Di Jin),Yanjun Qi 。 EMNLP 2020演示。 [網站] [DOC] [PDF]
1。調查文件
- 測量和改善NLP模型中的魯棒性:調查。 Xuezhi Wang,Haohan Wang,Diyi Yang 。 NAACL 2022。 [PDF]
- 邁向文本中強大的深神經網絡:一項調查。 Wenqi Wang,Lina Wang,Benxiao Tang,Run Wang,Aoshuang Ye 。 TKDE 2021。 [PDF]
- 對自然語言處理中深度學習模型的對抗性攻擊:一項調查。 Wei Emma Zhang,Quan Z. Sheng,Ahoud Alhazmi,Chenliang Li 。 ACM TIST 2020。 [PDF]
- 圖像,圖形和文本中的對抗性攻擊和防禦:評論。 Han Xu,Yao MA,Hao-chen Liu,Debayan Deb,Hui Liu,Ji-Liang Tang,Anil K. Jain 。國際自動化與計算雜誌2020。 [PDF]
- 神經語言處理中的分析方法:調查。 Yonatan Belinkov,詹姆斯·格拉斯(James Glass) 。 TACL 2019。 [PDF]
2。攻擊文件
每篇論文都附在一個或多個以下標籤上,指示攻擊模型對受害者模型的了解: gradient (= white ,所有信息), score (輸出決策和分數), decision (僅輸出決策)和blind (沒有)
2.1句子級攻擊
- 使用對抗性攻擊來揭示機器閱讀理解模型中的統計偏差。 Jieyu Lin,Jiajie Zou,Nai ding 。 ACL-IJCNLP 2021。
blind [PDF] - 灰色的對抗性攻擊和情感分類的防禦。 Ying Xu,Xu Zhong,Antonio Jimeno Yepes,Jey Han Lau 。 NAACL-HLT 2021。
gradient [PDF] [代碼] - 生成語法控制的釋義,而無需使用帶註釋的平行對。 Kuan-Hao Huang和Kai-Wei Chang 。 EACL 2021。 [PDF] [代碼]
- 貓科學家:通過受控的對抗文本生成改善NLP模型中的魯棒性。 Tianlu Wang,Xuezhi Wang,Yao Qin,Ben Packer,Kang Lee,Jilin Chen,Alex Beutel,Ed Chi 。 EMNLP 2020。
score [PDF] - T3:針對目標攻擊的樹木 - 自動編碼器約束對抗文本生成。 Boxin Wang,Hengzhi Pei,Boyuan Pan,Qian Chen,Shuohang Wang,Bo Li 。 EMNLP 2020。
gradient [PDF] [代碼] - 對抗性攻擊和結構化預測模型的防禦。 Wenjuan Han,Liwen Zhang,Yong Jiang,Kewei Tu 。 EMNLP 2020。
blind [PDF] [代碼] - Malcom:發出惡意評論來攻擊神經假新聞檢測模型。泰國,Suhang Wang,Dongwon Lee 。 ICDM 2020。
gradient [PDF] [代碼] - 提高問題答案系統的魯棒性,以提問釋義。 Wee Chung Gan,hwee tou ng 。 ACL 2019。
blind [PDF] [數據] - 如果可以的話,請欺騙我:人類的對抗性示例的人類以進行提問。 Eric Wallace,Pedro Rodriguez,Shi Feng,Ikuya Yamada,Jordan Boyd-Graber 。 TACL 2019。
score [PDF] - 爪子:詞語的釋義對手。 Zhang,Jason Baldridge,Luheng He 。 NAACL-HLT 2019。
blind [PDF] [數據集] - 評估和增強對話系統的魯棒性:關於談判代理的案例研究。 Minhao Cheng,Wei Wei,Cho-Jui Hsieh 。 NAACL-HLT 2019。
gradient score [PDF] [代碼] - 用於調試NLP模型的語義上等效的對抗規則。 Marco Tulio Ribeiro,Sameer Singh,Carlos Guestrin 。 ACL 2018。
decision [PDF] [代碼] - 對抗性化神經NLI模型以整合邏輯背景知識。 Pasquale Minervini,Sebastian Riedel 。 CONLL 2018。
score [PDF] [代碼和數據] - 強大的機器理解模型通過對抗訓練。 Yicheng Wang,Mohit Bansal 。 NAACL-HLT 2018。
decision [PDF] [數據集] - 具有語法控制的釋義網絡的對抗性示例生成。 Mohit Iyer,John Wieting,Kevin Gimpel,Luke Zettlemoyer 。 NAACL-HLT 2018。
blind [PDF] [代碼和數據] - 產生自然的對抗例子。 Zhengli Zhao,Dheeru Dua,Sameer Singh 。 ICLR 2018。
decision [PDF] [代碼] - 評估閱讀理解系統的對抗示例。羅賓·賈(Robin Jia),珀西·梁(Percy Liang) 。 EMNLP 2017。
score decision blind [PDF] [代碼] - 對抗性集用於正規化神經鏈接預測因子。 Pasquale Minervini,Thomas Demeester,TimRocktäschel,Sebastian Riedel 。 UAI 2017。
score [PDF] [代碼]
2.2單詞級攻擊
- 擴大範圍:將英國對抗性攻擊適應中文。 Hanyu Liu,Chengyuan Cai,Yanjun Qi 。 ACL 2023的發現。
decision [PDF] [代碼] - 通過搜索和學習的對抗文本生成。 Guoyi Li,Bingkang Shi,Zongzhen Liu,Dehan Kong,Yulei Wu,Xiaodan Zhang,Longtao Huang,Honglei Lyu 。 ACL 2023的發現。
score [PDF] [代碼] - 彌合簡歷和NLP之間的差距!基於梯度的文本對抗攻擊框架。 Lifan Yuan,Yichi Zhang,Yangyi Chen,Wei Wei 。 ACL 2023的發現。
decision [PDF] [代碼] - TexThacker:基於學習的混合本地搜索算法,用於文本硬標籤對抗性攻擊。 Zhen Yu,小王,Wanxiang Che,Kun He 。 EMNLP 2022的發現。
decision [PDF] [代碼] - Texthoaxer:預算的硬標籤對抗性攻擊文本。 Muchao Ye,Chenglin Miao,Ting Wang,Fonglong MA 。 AAAI 2022。
decision [PDF] [代碼] - 通過貝葉斯優化對離散的順序數據進行查詢效率和可擴展的黑盒對抗攻擊。 Deokjae Lee,Seungyong Moon,Junhyeok Lee,Hyun Oh Song 。 ICML 2022。
score [PDF] [代碼] - Semattack:對不同語義空間的自然文本攻擊。 Boxin Wang,Chejian Xu,Xiangyu Liu,Yu Cheng,Bo Li 。 NAACL 2022的發現。
gradient [PDF] [代碼] - 基於梯度的對抗性攻擊對文本變壓器。 Chuan Guo,Alexandre Sablayrolles,HervéJégou,Douwe Kiela 。 EMNLP 2021。
gradient [PDF] [代碼] - 在黑匣子設置中進行有效攻擊的強大基線。 Rishabh Maheswary,Saket Maheshwary,Vikram Pudi 。 EMNLP 2021。
score [PDF] [代碼] - 關於針對神經文本分類器的對抗性攻擊的可轉移性。 liping yuan,Xiaoqing Zheng,Yi Zhou,Cho-Jui Hsieh,Kai-Wei Chang 。 EMNLP 2021。 [PDF]
- 神經機器翻譯的對抗性示例。 Xinze Zhang,Junzhe Zhang,Zhenhua Chen,Kun He 。 ACL-IJCNLP 2021。
score [PDF] [代碼] - 對NMT的對抗性攻擊的實證研究:語言和立場很重要。 Zhiyuan Zeng,Deyi Xiong 。 ACL-IJCNLP 2021。
score [PDF] - 仔細研究神經依賴解析器的魯棒性,使用更好的對手實例。 Yuxuan Wang,Wanxiang Che,Ivan Titov,Shay B. Cohen,Zhilin Lei,Ting Liu 。 ACL的發現:ACL-IJCNLP 2021。
score [PDF] [代碼] - 上下文化的擾動,用於文本對抗攻擊。 Dianqi Li,Yizhe Zhang,Hao Peng,Liqun Chen,Chris Brockett,Ming-ting Sun,Bill Dolan 。 NAACL-HLT 2021。
score [PDF] [代碼] - Adv-Olm:通過OLM生成文本對手。 Vijit Malik,Ashwani Bhat,Ashutosh Modi 。 EACL 2021。
score [PDF] [代碼] - 野外的對抗性風格:可轉移的詞彙替代攻擊作者填充。克里斯·埃默里(Chris Emmery),ÁkosKádár,GrzegorzChrupała 。 EACL 2021。
blind [PDF] [代碼] - 在硬標籤的黑匣子設置中生成自然語言攻擊。 Rishabh Maheshwary,Saket Maheshwary,Vikram Pudi 。 AAAI 2021。
decision [PDF] [代碼] - 幾何啟發的攻擊,用於產生自然語言對抗性示例。 Zhao Meng,Roger Wattenhofer 。 Coling 2020。
gradient [PDF] [代碼] - 伯特攻擊:使用伯特對伯特的對抗性攻擊。 Linyang Li,Ruotian MA,Qipeng Guo,Xiangyang Xue,Xipeng Qiu 。 EMNLP 2020。
score [PDF] [代碼] - BAE:基於BERT的對抗性示例,用於文本分類。 Siddhant Garg,Goutham Ramakrishnan 。 EMNLP 2020。
score [PDF] [代碼] - 在機器翻譯中檢測單詞感覺歧義偏見,以實現模型不足的對抗性攻擊。 Denis Emelin,Ivan Titov,Rico Sennrich 。 EMNLP 2020。
blind [PDF] [代碼] - 黑框機器翻譯系統的模仿攻擊和防禦。埃里克·華萊士(Eric Wallace),米切爾·斯特恩(Mitchell Stern),黎明之歌。 EMNLP 2020。
decision [PDF] [代碼] - 在釋義識別中使用共享單詞進行修改的魯棒性。 Zhouxing Shi,Minlie Huang 。 ACL的發現:EMNLP 2020。
score [PDF] - 單詞級文本對抗性攻擊作為組合優化。 Yuan Zang,Fanchao Qi,Chenghao Yang,Zhiyuan Liu,Meng Zhang,Qun Liu,Maosong Sun。 ACL 2020。
score [PDF] [代碼] - 是嗎啡的時間!用彎曲擾動打擊語言歧視。 Samson Tan,Shafiq Joty,Min-Yen Kan,Richard Socher 。 ACL 2020。
score [PDF] [代碼] - 關於語言編碼的魯棒性,可以針對語法錯誤。粉絲Yin,Quanyu Long,Tao Meng,Kai-Wei Chang 。 ACL 2020。
score [PDF] [代碼] - 通過對抗性示例評估和增強基於神經網絡的依賴解析模型的魯棒性。 Xiaoqing Zheng,Jiehang Zeng,Yi Zhou,Cho-Jui Hsieh,Minhao Cheng,Xuanjing Huang 。 ACL 2020。
gradient score [PDF] [代碼] - 神經機器翻譯的強化產生的對抗性例子。 Wei Zou,Shujian Huang,Jun Xie,Xinyu Dai,Jiajun Chen 。 ACL 2020。
decision [PDF] - 伯特真的很健壯嗎?自然語言攻擊文本分類和元素的強大基準。 Di Jin,Zhijing Jin,Joey Tianyi Zhou,Peter Szolovits 。 AAAI 2020。
score [PDF] [代碼] - seq2sick:通過對抗性示例評估序列到序列模型的魯棒性。 Minhao Cheng,Jinfeng Yi,Pin-Yu Chen,Huan Zhang,Cho-Jui Hsieh 。 AAAI 2020。
score [PDF] [代碼] - 貪婪的攻擊和牙齦攻擊:生成離散數據的對抗示例。 Puyudi Yang,Jianbo Chen,Cho-Jui Hsieh,Jane-Lingwang,Michael I. Jordan 。 JMLR 2020。
score [PDF] [代碼] - 關於自動模型的魯棒性。 Yu-Lun Hsieh,Minhao Cheng,Da-Cheng Juan,Wei Wei,Wen-Lian Hsu,Cho-Jui Hsieh 。 ACL 2019。
score [PDF] - 通過概率加權單詞顯著性生成自然語言對抗性示例。 Shuhuai Ren,Yihe Deng,Kun He,Wanxiang Che 。 ACL 2019。
score [PDF] [代碼] - 為自然語言產生流利的對抗例子。 Huangzhao Zhang,Hao Zhou,Ning Miao,Lei Li 。 ACL 2019。
gradient score [PDF] [代碼] - 強大的神經機器翻譯帶有雙重對抗輸入。楊鄭,盧江,沃爾夫岡·馬克雷。 ACL 2019。
gradient [PDF] - 對文本分類器的通用對抗性攻擊。 Melika Behjati,Seyed-Mohsen Moosavi-Dezfooli,Mahdieh Soleymani Baghshah,Pascal Frossard 。 ICASSP 2019。
gradient [PDF] - 產生自然語言對抗性例子。 Moustafa Alzantot,Yash Sharma,Ahmed Elgohary,Bo-Jhang Ho,Mani Srivastava,Kai-Wei Chang 。 EMNLP 2018。
score [PDF] [代碼] - 用句子破壞NLI系統,需要簡單的詞彙推斷。馬克斯·格洛克納(Max Glockner),耶魯·戈德堡(Yoav Goldberg)驗證的什瓦茲(Shwartz) 。 ACL 2018。
blind [PDF] [數據集] - 深層文本分類可以被愚弄。 Bin Liang,Hongcheng Li,Miaoqiang Su,Pan Bian,Xirong Li,Wenchang Shi 。 IJCAI 2018。
gradient score [PDF] - 輸入嵌入文本空間中的可解釋的對抗擾動。 Sato,Motoki,Jun Suzuki,Hiroyuki Shindo,Yuji Matsumoto 。 IJCAI 2018。
gradient [PDF] [代碼] - 致力於製作文本對抗樣本。 Suranjana Samanta,Sameep Mehta 。 Ecir 2018。
gradient [PDF] - 為反复的神經網絡製作對抗輸入序列。 Nicolas Papernot,Patrick McDaniel,Ananthram Swami,Richard Harang 。 MILCOM 2016。
gradient [PDF]
2.3 char級攻擊
- 重新訪問語言模型的角色級對手攻擊。 Elias Abad Rocamora ,Yongtao Wu,Fanghui Liu,Grigorios G. Chrysos,Volkan Cevher,ICML 2024。
score blind gradient [PDF] [PDF] [代碼] - Vertattack:利用文本分類器的水平視覺。喬納森·魯塞爾特(Jonathan Rusert) ,NAACL 2024。
score blind [PDF] - 標點級攻擊:單桿和單標點符號可以欺騙文本模型。 Wenqiang Wang,Chongyang DU,Tao Wang,Kaihao Zhang,Wenhan Luo,Lin MA,Wei Liu,Xioochun Cao 。神經2023。
blind score [PDF] - 將標點符號用作對基於深度學習的NLP系統的對抗性攻擊:一項實證研究。 Brian Formento,Chuan Sheng Foo,Luu Anh Tuan,請參閱Kiong ng 。 EACL(調查結果)2023。
score blind [PDF] [代碼] - 模型提取和對抗性轉移性,您的Bert很脆弱! 。 Xuanli He,Lingjuan Lyu,Lichao Sun,Qiongkai Xu 。 NAACL-HLT 2021。
blind [PDF] [代碼] - 像人類一樣的文本處理:視覺攻擊和屏蔽NLP系統。史蒂芬·埃格(Steffen Eger),戈茲德·古爾(GözdeGül馬),安德烈亞斯·魯克(AndreasRücklé),吉恩·李(Ji-ung Lee),克勞迪亞·舒爾茨(Claudia Schulz),莫赫森·梅斯加(Mohsen Mesgar),克里希恩·斯沃恩卡(Krishnkant Swarnkar),埃德溫·辛普森(Edwin Simpson),艾里納·吉維奇(Iryna Gurevych) 。 NAACL-HLT 2019。
blind [PDF] [代碼和數據] - 白色到黑色:有效的黑盒對抗攻擊。 Syotam Gil,Yoav Chai或Gorodissky,Jonathan Berant 。 NAACL-HLT 2019。
blind [PDF] [代碼] - 黑盒生成對抗文本序列,以逃避深度學習分類器。 Ji Gao,Jack Lanchantin,Mary Lou Soffa,Yanjun Qi 。 IEEE SPW 2018。
score [PDF] [代碼] - 在角色級神經機器翻譯的對抗示例中。 Javid Ebrahimi,Daniel Lowd,Dejing Dou 。 Coling 2018。
gradient [PDF] [代碼] - 合成和自然噪聲都破壞神經機器的翻譯。 Yonatan Belinkov,Yonatan Bisk 。 ICLR 2018。
blind [PDF] [代碼和數據]
2.4多層攻擊
- LLM可以欺騙自己:基於及時的對抗性攻擊。 Xilie Xu,Keyi Kong,Ning Liu,Lizhen Cui,Di Wang,Jingfeng Zhang,Mohan Kankanhalli 。 ICLR 2024。
blind [PDF] - 具有行為克隆的多粒性文本對抗攻擊。 Yangyi Chen,Jin Su,Wei Wei 。 EMNLP 2021。
blind [PDF] [代碼] - 綜合對抗性響應的對抗性負面反應和評估。 Prakhar Gupta,Yulia Tsvetkov,Jeffrey Bigham 。 ACL的發現:ACL-IJCNLP 2021。
blind [PDF] [代碼] - 芝麻街上的代碼混合:對抗性多數的黎明。 Samson Tan,Shafiq Joty 。 NAACL-HLT 2021。
score [PDF] [代碼] - 自然觸發器進行文本分類的通用對抗攻擊。 Liwei Song,Xinwei Yu,Hsuan-Tung Peng,Karthik Narasimhan 。 NAACL-HLT 2021。
gradient [PDF] [代碼] - BBAEG:邁向基於BERT的生物醫學對抗示例生成文本分類。 Ishani Mondal 。 NAACL-HLT 2021。
score [PDF] [代碼] - 不要以“ NSWVTNVAKGXPM”的形式獲取答案 - 自動內容評分系統對對抗輸入的令人驚訝的漏洞。 Yuning ding,Brian Riordan,Andrea Horbach,Aoife Cahill,Torsten Zesch 。 Coling 2020。
blind [PDF] [代碼] - 通用的對抗觸發器,用於攻擊和分析NLP 。 Eric Wallace,Shi Feng,Nikhil Kandpal,Matt Gardner,Sameer Singh 。 EMNLP-IJCNLP 2019。
gradient [PDF] [代碼] [網站] - TextBugger:針對現實世界應用程序生成對抗文本。 Jinfeng Li,Shouling JI,Tianyu Du,Bo Li,Ting Wang 。 NDSS 2019。
gradient score [PDF] - 使用深增強模型生成黑框對抗示例,以用於文本分類器。 Prashanth Vijayaraghavan,Deb Roy 。 ECMLPKDD 2019。
score [PDF] - Hotflip:文本分類的白色框對面示例。 Javid Ebrahimi,Anyi Rao,Daniel Lowd,Dejing Dou 。 ACL 2018。
gradient [PDF] [代碼] - 對話模型的對抗性過度敏感性和過度穩定性策略。 Tong Niu,Mohit Bansal 。 Conll 2018。
blind [PDF] [代碼和數據] - 比較基於注意力的捲積和復發性神經網絡:機器閱讀理解的成功和局限性。 Matthias Blohm,Glorianna Jagfeld,Ekta Sood,Xiang Yu,Ngoc Thang Vu 。 Conll 2018。
gradient [PDF] [代碼]
3。辯護文件
- AI生成的文本檢測器對對抗性擾動是否可靠? Guanhua Huang,Yuchen Zhang,Zhe Li,Yongjian You,Mingze Wang和Zhouwang Yang。 ACL 2024。 [PDF] [代碼]
- SEMRODE:宏對抗訓練,以學習對單詞級攻擊強大的表示形式。 Brian Formento,Wenjie Feng,Chuan-Sheng Foo,Anh Tuan Luu,See-Kiong Ng 。 NAACL 2024。 [PDF] [代碼]
- DSRM:增強文本對抗訓練,並以分配轉移風險最小化。 Songyang Gao,Shihan Dou,Yan Liu,Xiao Wang,Qi Zhang,Zhongyu Wei,Jin MA,Ying Shan 。 ACL 2023。 [PDF] [代碼]
- 具有擾動令牌檢測的生成對抗訓練,以實現模型魯棒性。 Jiahao Zhao,Wenji Mao 。 EMNLP 2023。 [PDF] [代碼]
- 基於文本歧管的防禦自然語言對抗性例子。 Dang Minh Nguyen,Luu Anh Tuan 。 EMNLP 2022。 [PDF] [代碼]
- 通過Shapley添加說明來檢測單詞級的對抗文本攻擊。 Lukas Huber,MarcAlexanderKühn,Edoardo Mosca,Georg Groh 。 REPL4NLP@ACL 2022。 [PDF] [代碼]
- 在文本分類中檢測對抗性示例:通過穩健密度估計的基準和基線。 Kiyoon Yoo,Jangho Kim,Jiho Jang,Nojun Kwawk 。 ACL 2022(發現)。 [PDF] [代碼]
- “那是一個可疑的反應!”:解釋邏輯變化以檢測NLP對抗性攻擊。 Edoardo Mosca,Shreyash Agarwal,JavierRandoRamírez,Georg Groh 。 ACL 2022。 [PDF] [代碼]
- 盾牌:使用隨機多專家補丁程序捍衛文本神經網絡,以防止多個黑盒對抗攻擊。泰恩·萊(Thai Le),鼻孔公園,東旺·李(Dongwon Lee) 。 ACL 2022。 [PDF]
- 野外的擾動:利用人工寫的文本擾動進行現實的對抗攻擊和防禦。泰國LE,Jooyoung Lee,Kevin Yen,Yifan Hu,Dongwon Lee 。 ACL 2022(發現)。 [PDF]
- 通過離散的對抗訓練實現模型魯棒性。莫爾·艾維(Maor Ivgi),喬納森·貝蘭特(Jonathan Berant )。 EMNLP 2021。 [PDF] [代碼]
- 通過Dirichlet鄰里合奏團對基於同義替代替代的對抗性攻擊的防禦。 Yi Zhou,Xiaoqing Zheng,Cho-Jui Hsieh,Kai-Wei Chang,Xuanjing Huang 。 ACL-IJCNLP 2021。 [PDF]
- 達西(Darcy)的甜兔子洞:使用蜜罐檢測通用觸發器的對抗性攻擊。泰恩·萊(Thai Le),鼻孔公園,東旺·李(Dongwon Lee) 。 ACL-IJCNLP 2021。 [PDF] [代碼]
- 通過更多覆蓋範圍更好的魯棒性:可靠的固定填充物的對抗和混合數據增強。 Chenglei Si,Zhengyan Zhang,Fanchao Qi,Zhiyuan Liu,Yasheng Wang,Qun Liu,Maosong Sun。 ACL的發現:ACL-IJCNLP 2021。 [PDF] [代碼]
- 伯特防禦:基於BERT的概率模型,以打擊認知啟發的矯正攻擊。 Yannik Keller,Jan Mackensen,Steffen Eger 。 ACL的發現:ACL-IJCNLP 2021。 [PDF] [代碼]
- 捍衛訓練預先訓練的語言模型,而無需犧牲表現。 Rongzhou Bao,Jiayi Wang,Hai Zhao 。 ACL的發現:ACL-IJCNLP 2021。 [PDF] [代碼]
- 神經機器翻譯的歧管對抗增強。 Guandan Chen,Kai Fan,Kaibo Zhang,拳擊Chen,Zhongqiang Huang 。 ACL的發現:ACL-IJCNLP 2021。 [PDF]
- 自然語言對抗性防禦通過同義編碼。小王,霍·金,昆。 UAI 2021。 [PDF] [代碼]
- 通過快速梯度投影方法反對基於同義詞替代的文本攻擊的對抗訓練。小王,Yichen Yang,Yihe Deng,Kun He 。 AAAI 2021。 [PDF] [代碼]
- 用於檢測文本對抗示例的頻率引導的單詞替換。 Maximilian Mozes,Pontus Stenetorp,Bennett Kleinberg,Lewis D. Griffin 。 EACL 2021。 [PDF] [代碼]
- 對自然語言單詞替換進行魯棒性。新舒亞董,安·圖安·盧(Anh tuan Luu),隆格(Rongrong Ji),李(Hong Liu)。 ICLR 2021。 [PDF] [代碼]
- Infobert:從信息理論的角度提高語言模型的魯棒性。 Boxin Wang,Shuohang Wang,Yu Cheng,Zhe Gan,Ruoxi Jia,Bo Li,Jingjing Liu 。 ICLR 2021。 [PDF] [代碼]
- 通過對抗攻擊增強具有脆弱性的神經模型。 Rong Zhang,Qifei Zhou,Bo An,Weiping Li,Tong Mo,Bo Wu 。 Coling 2020。 [PDF] [代碼]
- 對比度的零射擊學習,用於跨域插槽填充與逆向攻擊。 Keqing He,Jinchao Zhang,Yuanmeng Yan,Weiran Xu,Cheng Niu,Jie Zhou 。殖民地2020。 [PDF]
- 介意你的拐點!通過基礎反射編碼來改善非標準英語的NLP 。 Samson Tan,Shafiq Joty,Lav R. Varshney,Min-Yen Kan 。 EMNLP 2020。 [PDF] [代碼]
- 強大的編碼:打擊對抗錯別字的框架。 Erik Jones,Robin Jia,Aditi Raghunathan,Percy Liang 。 ACL 2020。 [PDF] [代碼]
- 聯合角色級別的嵌入和對抗穩定性訓練以捍衛對抗性文本。 Hui Liu,Yongzheng Zhang,Yipeng Wang,Zheng Lin,Yige Chen 。 AAAI 2020。 [PDF]
- 強大的對抗性訓練方法,用於機器閱讀理解。 Kai Liu,Xin Liu,Yang,Jing Liu,Jinsong Su,Sujian Li,Qiaoqiao She 。 AAAI 2020。 [PDF]
- FreelB:增強的對抗性培訓,以了解語言理解。 Chen Zhu,Yu Cheng,Zhe Gan,Siqi Sun,Tom Goldstein,Jingjing Liu 。 Cors 2019。 [PDF] [代碼]
- 學會區分擾動以阻止文本分類中的對抗攻擊。 Yichao Zhou,Jyun-Yu Jiang,Kai-Wei Chang,Wei Wang 。 EMNLP-IJCNLP 2019。 [PDF] [代碼]
- 為對話安全而構建它打破了它的修復:對對抗性人類攻擊的魯棒性。艾米莉·迪南(Emily Dinan),塞繆爾·霍(Samuel Humeau),巴拉特·欽塔塔(Bharath Chintagunta),傑森·韋斯頓(Jason Weston) 。 EMNLP-IJCNLP 2019。 [PDF] [數據]
- 用強有力的單詞識別來打擊對抗性拼寫錯誤。丹麥·普魯西(Danish Pruthi),布萬·德辛拉(Bhuwan Dhingra),Zachary C. Lipton 。 ACL 2019。 [PDF] [代碼]
- 自然語言處理任務中的健壯到噪聲模型。瓦倫丁·馬里克(Valentin Malykh) 。 ACL 2019。 [PDF] [代碼]
4。認證的魯棒性
- 對單詞替代攻擊的認證魯棒性具有不同的隱私性。 Wenjie Wang,Pengfei Tang,Jian Lou,Li Xiong 。 Naacl-HLT 2021。 [PDF]
- 自動擾動分析,用於可擴展的認證魯棒性及其他。 Kaidi Xu,Zhouxing Shi,Huan Zhang,Yihan Wang,Kai-Wei Chang,Minlie Huang,Bhavya Kailkhura,Xue Lin,Cho-Jui Hsieh 。神經2020。 [PDF] [代碼]
- 更安全:一種無結構的方法,用於對對抗單詞替換進行認證的魯棒性。 Mao Ye,Chengyue Gong,Qiang Liu 。 ACL 2020。 [PDF] [代碼]
- 變壓器的穩健性驗證。 Zhouxing Shi,Huan Zhang,Kai-Wei Chang,Minlie Huang,Cho-Jui Hsieh 。 ICLR 2020。 [PDF] [代碼]
- 通過間隔結合傳播實現對符號替換的驗證魯棒性。 Po-Sen Huang,Robert Stanforth,Johannes Welbl,Chris Dyer,Dani Yogatama,Sven Gowal,Krishnamurthy Dvijotham,Pushmeet Kohli 。 EMNLP-IJCNLP 2019。 [PDF]
- 對對抗單詞替換的認證魯棒性。 Robin Jia,Aditi Raghunathan,KeremGöksel,Percy Liang 。 EMNLP-IJCNLP 2019。 [PDF] [代碼]
- POPQORN:量化復發性神經網絡的魯棒性。 Ching-Yun KO,Zhaoyang Lyu,Lily Weng,Luca Daniel,Ngai Wong,Dahua Lin 。 ICML 2019。 [PDF] [代碼]
5。基準和評估
- 解碼器:對GPT模型中可信度的全面評估。 Boxin Wang, Weixin Chen, Hengzhi Pei, Chulin Xie, Mintong Kang, Chenhui Zhang, Chejian Xu, Zidi Xiong, Ritik Dutta, Rylan Schaeffer, Sang T. Truong, Simran Arora, Mantas Mazeika, Dan Hendrycks, Zinan Lin, Yu Cheng, Sanmi Koyejo, Dawn歌曲,博·李。 Neurips 2023(數據集和基準軌跡)。 [PDF] [網站]
- 在文本對抗攻擊中保留語義。大衛·赫雷爾(David Herel),雨果·西斯內羅斯(Hugo Cisneros),托馬斯·米科洛夫(Tomas Mikolov )。 ECAI 2023。 [PDF] [代碼]
- 提示GPT-3可靠。 Chenglei Si,Zhe Gan,Zhengyuan Yang,Shuohang Wang,Jianfeng Wang,Jordan Boyd-Graber,Lijuan Wang 。 ICLR 2023。 [PDF] [代碼]
- 為什麼對對抗性擾動不可察覺?重新考慮對抗性NLP中的研究範式。 Yangyi Chen,Hongcheng Gao,Ganqu Cui,Fanchao Qi,Longtao Huang,Zhiyuan Liu,Maosong Sun。 EMNLP 2022。 [PDF] [代碼和數據]
- 將神經NLP模型的魯棒性解釋為文本擾動。 Yunxiang Zhang,Liangming Pan,Samson Tan,Min-Yen Kan 。 ACL的發現,2022年。 [PDF]
- 與文本分類的人類和機器生成的單詞級對抗示例進行對比。 Maximilian Mozes,Max Bartolo,Pontus Stenetorp,Bennett Kleinberg,Lewis D. Griffin 。 EMNLP 2021。 [PDF] [代碼]
- Dynabench:在NLP中重新考慮基準測試。 Douwe Kiela,Max Bartolo,Yixin Nie,Divyansh Kaushik,Atticus Geiger,Zhengxuan Wu,Bertie Vidgen,Grusha Prasad,Amanpreet Singh,Pratik Ringshia,Pratik Ringshia,Pratik Ringshia,Ma班薩爾,克里斯托弗·波茨,阿迪娜·威廉姆斯。 NAACL 2021。 [PDF] [網站]
- 對抗性膠:用於語言模型魯棒性評估的多任務基準。 Boxin Wang,Chejian Xu,Shuohang Wang,Zhe Gan,Yu Cheng,Jianfeng Gao,Ahmed Hassan Awadallah,Bo Li 。 Neurips 2021(數據集和基準軌跡)。 [PDF] [網站]
- 尋找一個有效的防御者:對對抗性單詞替代的防禦進行基準測試。 Zongyi Li,Jianhan Xu,Jiehang Zeng,Linyang Li,Xiaoqing Zheng,Qi Zhang,Kai-Wei Chang和Cho-Jui Hsieh 。 EMNLP 2021。 [PDF]
- 雙重擾動:關於魯棒性和反事實偏見評估的魯棒性。 Chong Zhang,Jieyu Zhao,Huan Zhang,Kai-Wei Chang和Cho-Jui Hsieh Naacl 2021。 [PDF] [代碼]
- 重新評估自然語言的對抗例子。約翰·莫里斯(John Morris),埃利·利蘭德(Eli Lifland),傑克·蘭坎丁(Jack Lanchantin),揚馮吉(Yangfeng JI),Yanjun Qi 。 ACL的發現:EMNLP 2020。 [PDF] [代碼和數據]
- 從英雄到Zéroe:低級對抗攻擊的基準。 Steffen Eger,Yannik Benz 。 AACL-IJCNLP 2020。 [PDF] [代碼和數據]
- 對抗性NLI:一種自然語言理解的新基準。 Yixin Nie,Adina Williams,Emily Dinan,Mohit Bansal,Jason Weston,Douwe Kiela 。 ACL 2020。 [PDF] [DEMO] [數據集和排行榜]
- 通過對比集評估NLP模型。 Matt Gardner, Yoav Artzi, Victoria Basmova, Jonathan Berant, Ben Bogin, Sihao Chen, Pradeep Dasigi, Dheeru Dua, Yanai Elazar, Ananth Gottumukkala, Nitish Gupta, Hanna Hajishirzi, Gabriel Ilharco, Daniel Khashabi, Kevin Lin, Jiangming Liu,尼爾森·劉(Nelson F. ACL的發現:EMNLP 2020。[PDF] [網站]
- 評估序列到序列模型的對抗擾動。 Paul Michel,Xian Li,Graham Neubig,Juan Miguel Pino 。 NAACL-HLT 2019。 [PDF] [代碼]
6。其他論文
- 確定人類的策略來產生單詞級別的對手實例。 Maximilian Mozes,Bennett Kleinberg,Lewis D. Griffin 。 ACL的發現:EMNLP 2022。 [PDF]
- 詞彙:基於詞彙的對抗強化培訓,用於強大的情感分類。 Jingjing Xu,Liang Zhao,Hanqi Yan,Qi Zeng,Yun Liang,Xu Sun。 EMNLP-IJCNLP 2019。 [PDF] [代碼]
- 統一的視覺語義嵌入:具有結構化含義表示的橋接視覺和語言。 Hao Wu,Jiayuan Mao,Yufeng Zhang,Yuning Jiang,Lei Li,Weiwei Sun,Wei-Ying MA 。 CVPR 2019。 [PDF]
- 冒險:具有知識指導的示例的文本需要的對抗性培訓。 Dongyeop Kang,Tushar Khot,Ashish Sabharwal,Eduard Hovy 。 ACL 2018。 [PDF] [代碼]
- 從對比對抗樣本中學習視覺上的語義。 Haoyue Shi,Jiayuan Mao,Tete Xiao,Yuning Jiang,Jian Sun。 Coling 2018。 [PDF] [代碼]
貢獻者
我們感謝所有列表的貢獻者。非常歡迎更多的貢獻。