关于文字对抗攻击和防御(TAAD)的必读论文
目前由乌奇卡哥的郑阳维持此列表。
其他主要贡献者在包括Fanchao Qi和Yuan Zang时,他们在Thunlp。
我们非常感谢所有伟大的贡献者。
内容
- 0。工具包
- 1。调查文件
- 2。攻击论文(根据扰动水平分类)
- 2.1句子级攻击
- 2.2单词级攻击
- 2.3 char级攻击
- 2.4多层攻击
- 3。辩护文件
- 4。认证的鲁棒性
- 5。基准和评估
- 6。其他论文
- 贡献者
0。工具包
- RubustQA:关于对抗性文本生成分析的框架,该框架在问答系统上。 Yasaman Boreshban,Seyed Morteza Mirbostani,Seyedeh Fatemeh Ahmadi,Gita Shojaee,Fatemeh Kamani,Gholamreza Ghassem-Sani,Seyed Abolghasem Mirroshandel 。 EMNLP 2022演示。 [代码库] [PDF]
- Seqattack:在命名实体识别的对抗性攻击中。 Walter Simoncini,Gerasimos Spanakis 。 EMNLP 2021演示。 [网站] [PDF]
- OpenAttack:开源文本对手攻击工具包。 Guoyang Zeng,Fanchao Qi,Qianrui Zhou,Tingji Zhang,Bairu Hou,Yuan Zang,Zhiyuan Liu,Maosong Sun。 ACL-IJCNLP 2021演示。 [网站] [DOC] [PDF]
- TextAttack:NLP中对抗性攻击,数据增强和对抗培训的框架。约翰·莫里斯(John Morris),埃利·利兰德(Eli Lifland),珍杨(Jin Yong Yoo),杰克·格里格斯比(Jake Grigsby),迪·金(Di Jin),Yanjun Qi 。 EMNLP 2020演示。 [网站] [DOC] [PDF]
1。调查文件
- 测量和改善NLP模型中的鲁棒性:调查。 Xuezhi Wang,Haohan Wang,Diyi Yang 。 NAACL 2022。[PDF]
- 迈向文本中强大的深神经网络:一项调查。 Wenqi Wang,Lina Wang,Benxiao Tang,Run Wang,Aoshuang Ye 。 TKDE 2021。[PDF]
- 对自然语言处理中深度学习模型的对抗性攻击:一项调查。 Wei Emma Zhang,Quan Z. Sheng,Ahoud Alhazmi,Chenliang Li 。 ACM TIST 2020。[PDF]
- 图像,图形和文本中的对抗性攻击和防御:评论。 Han Xu,Yao MA,Hao-chen Liu,Debayan Deb,Hui Liu,Ji-Liang Tang,Anil K. Jain 。国际自动化与计算杂志2020。[PDF]
- 神经语言处理中的分析方法:调查。 Yonatan Belinkov,詹姆斯·格拉斯(James Glass) 。 TACL 2019。[PDF]
2。攻击文件
每篇论文都附在一个或多个以下标签上,指示攻击模型对受害者模型的了解: gradient (= white ,所有信息), score (输出决策和分数), decision (仅输出决策)和blind (没有)
2.1句子级攻击
- 使用对抗性攻击来揭示机器阅读理解模型中的统计偏差。 Jieyu Lin,Jiajie Zou,Nai ding 。 ACL-IJCNLP 2021。
blind [PDF] - 灰色的对抗性攻击和情感分类的防御。 Ying Xu,Xu Zhong,Antonio Jimeno Yepes,Jey Han Lau 。 NAACL-HLT 2021。
gradient [PDF] [代码] - 生成语法控制的释义,而无需使用带注释的平行对。 Kuan-Hao Huang和Kai-Wei Chang 。 EACL 2021。[PDF] [代码]
- 猫科学家:通过受控的对抗文本生成改善NLP模型中的鲁棒性。 Tianlu Wang,Xuezhi Wang,Yao Qin,Ben Packer,Kang Lee,Jilin Chen,Alex Beutel,Ed Chi 。 EMNLP 2020。
score [PDF] - T3:针对目标攻击的树木 - 自动编码器约束对抗文本生成。 Boxin Wang,Hengzhi Pei,Boyuan Pan,Qian Chen,Shuohang Wang,Bo Li 。 EMNLP 2020。
gradient [PDF] [代码] - 对抗性攻击和结构化预测模型的防御。 Wenjuan Han,Liwen Zhang,Yong Jiang,Kewei Tu 。 EMNLP 2020。
blind [PDF] [代码] - Malcom:发出恶意评论来攻击神经假新闻检测模型。泰国,Suhang Wang,Dongwon Lee 。 ICDM 2020。
gradient [PDF] [代码] - 提高问题答案系统的鲁棒性,以提问释义。 Wee Chung Gan,hwee tou ng 。 ACL 2019。
blind [PDF] [数据] - 如果可以的话,请欺骗我:人类的对抗性示例的人类以进行提问。 Eric Wallace,Pedro Rodriguez,Shi Feng,Ikuya Yamada,Jordan Boyd-Graber 。 TACL 2019。
score [PDF] - 爪子:词语的释义对手。 Zhang,Jason Baldridge,Luheng He 。 NAACL-HLT 2019。
blind [PDF] [数据集] - 评估和增强对话系统的鲁棒性:关于谈判代理的案例研究。 Minhao Cheng,Wei Wei,Cho-Jui Hsieh 。 NAACL-HLT 2019。
gradient score [PDF] [代码] - 用于调试NLP模型的语义上等效的对抗规则。 Marco Tulio Ribeiro,Sameer Singh,Carlos Guestrin 。 ACL 2018。
decision [PDF] [代码] - 对抗性化神经NLI模型以整合逻辑背景知识。 Pasquale Minervini,Sebastian Riedel 。 CONLL 2018。
score [PDF] [代码和数据] - 强大的机器理解模型通过对抗训练。 Yicheng Wang,Mohit Bansal 。 NAACL-HLT 2018。
decision [PDF] [数据集] - 具有语法控制的释义网络的对抗性示例生成。 Mohit Iyer,John Wieting,Kevin Gimpel,Luke Zettlemoyer 。 NAACL-HLT 2018。
blind [PDF] [代码和数据] - 产生自然的对抗例子。 Zhengli Zhao,Dheeru Dua,Sameer Singh 。 ICLR 2018。
decision [PDF] [代码] - 评估阅读理解系统的对抗示例。罗宾·贾(Robin Jia),珀西·梁(Percy Liang) 。 EMNLP 2017。
score decision blind [PDF] [代码] - 对抗性集用于正规化神经链接预测因子。 Pasquale Minervini,Thomas Demeester,TimRocktäschel,Sebastian Riedel 。 UAI 2017。
score [PDF] [代码]
2.2单词级攻击
- 扩大范围:将英国对抗性攻击适应中文。 Hanyu Liu,Chengyuan Cai,Yanjun Qi 。 ACL 2023的发现。
decision [PDF] [代码] - 通过搜索和学习的对抗文本生成。 Guoyi Li,Bingkang Shi,Zongzhen Liu,Dehan Kong,Yulei Wu,Xiaodan Zhang,Longtao Huang,Honglei Lyu 。 ACL 2023的发现。
score [PDF] [代码] - 弥合简历和NLP之间的差距!基于梯度的文本对抗攻击框架。 Lifan Yuan,Yichi Zhang,Yangyi Chen,Wei Wei 。 ACL 2023的发现。
decision [PDF] [代码] - TexThacker:基于学习的混合本地搜索算法,用于文本硬标签对抗性攻击。 Zhen Yu,小王,Wanxiang Che,Kun He 。 EMNLP 2022的发现。
decision [PDF] [代码] - Texthoaxer:预算的硬标签对抗性攻击文本。 Muchao Ye,Chenglin Miao,Ting Wang,Fonglong MA 。 AAAI 2022。
decision [PDF] [代码] - 通过贝叶斯优化对离散的顺序数据进行查询效率和可扩展的黑盒对抗攻击。 Deokjae Lee,Seungyong Moon,Junhyeok Lee,Hyun Oh Song 。 ICML 2022。
score [PDF] [代码] - Semattack:对不同语义空间的自然文本攻击。 Boxin Wang,Chejian Xu,Xiangyu Liu,Yu Cheng,Bo Li 。 NAACL 2022的发现。
gradient [PDF] [代码] - 基于梯度的对抗性攻击对文本变压器。 Chuan Guo,Alexandre Sablayrolles,HervéJégou,Douwe Kiela 。 EMNLP 2021。
gradient [PDF] [代码] - 在黑匣子设置中进行有效攻击的强大基线。 Rishabh Maheswary,Saket Maheshwary,Vikram Pudi 。 EMNLP 2021。
score [PDF] [代码] - 关于针对神经文本分类器的对抗性攻击的可转移性。 liping yuan,Xiaoqing Zheng,Yi Zhou,Cho-Jui Hsieh,Kai-Wei Chang 。 EMNLP 2021。[PDF]
- 神经机器翻译的对抗性示例。 Xinze Zhang,Junzhe Zhang,Zhenhua Chen,Kun He 。 ACL-IJCNLP 2021。
score [PDF] [代码] - 对NMT的对抗性攻击的实证研究:语言和立场很重要。 Zhiyuan Zeng,Deyi Xiong 。 ACL-IJCNLP 2021。
score [PDF] - 仔细研究神经依赖解析器的鲁棒性,使用更好的对手实例。 Yuxuan Wang,Wanxiang Che,Ivan Titov,Shay B. Cohen,Zhilin Lei,Ting Liu 。 ACL的发现:ACL-IJCNLP 2021。
score [PDF] [代码] - 上下文化的扰动,用于文本对抗攻击。 Dianqi Li,Yizhe Zhang,Hao Peng,Liqun Chen,Chris Brockett,Ming-ting Sun,Bill Dolan 。 NAACL-HLT 2021。
score [PDF] [代码] - Adv-Olm:通过OLM生成文本对手。 Vijit Malik,Ashwani Bhat,Ashutosh Modi 。 EACL 2021。
score [PDF] [代码] - 野外的对抗性风格:可转移的词汇替代攻击作者填充。克里斯·埃默里(Chris Emmery),ÁkosKádár,GrzegorzChrupała 。 EACL 2021。
blind [PDF] [代码] - 在硬标签的黑匣子设置中生成自然语言攻击。 Rishabh Maheshwary,Saket Maheshwary,Vikram Pudi 。 AAAI 2021。
decision [PDF] [代码] - 几何启发的攻击,用于产生自然语言对抗性示例。 Zhao Meng,Roger Wattenhofer 。 Coling 2020。
gradient [PDF] [代码] - 伯特攻击:使用伯特对伯特的对抗性攻击。 Linyang Li,Ruotian MA,Qipeng Guo,Xiangyang Xue,Xipeng Qiu 。 EMNLP 2020。
score [PDF] [代码] - BAE:基于BERT的对抗性示例,用于文本分类。 Siddhant Garg,Goutham Ramakrishnan 。 EMNLP 2020。
score [PDF] [代码] - 在机器翻译中检测单词感觉歧义偏见,以实现模型不足的对抗性攻击。 Denis Emelin,Ivan Titov,Rico Sennrich 。 EMNLP 2020。
blind [PDF] [代码] - 黑框机器翻译系统的模仿攻击和防御。埃里克·华莱士(Eric Wallace),米切尔·斯特恩(Mitchell Stern),黎明之歌。 EMNLP 2020。
decision [PDF] [代码] - 在释义识别中使用共享单词进行修改的鲁棒性。 Zhouxing Shi,Minlie Huang 。 ACL的发现:EMNLP 2020。
score [PDF] - 单词级文本对抗性攻击作为组合优化。 Yuan Zang,Fanchao Qi,Chenghao Yang,Zhiyuan Liu,Meng Zhang,Qun Liu,Maosong Sun。 ACL 2020。
score [PDF] [代码] - 是吗啡的时间!用弯曲扰动打击语言歧视。 Samson Tan,Shafiq Joty,Min-Yen Kan,Richard Socher 。 ACL 2020。
score [PDF] [代码] - 关于语言编码的鲁棒性,可以针对语法错误。粉丝Yin,Quanyu Long,Tao Meng,Kai-Wei Chang 。 ACL 2020。
score [PDF] [代码] - 通过对抗性示例评估和增强基于神经网络的依赖解析模型的鲁棒性。 Xiaoqing Zheng,Jiehang Zeng,Yi Zhou,Cho-Jui Hsieh,Minhao Cheng,Xuanjing Huang 。 ACL 2020。
gradient score [PDF] [代码] - 神经机器翻译的强化产生的对抗性例子。 Wei Zou,Shujian Huang,Jun Xie,Xinyu Dai,Jiajun Chen 。 ACL 2020。
decision [PDF] - 伯特真的很健壮吗?自然语言攻击文本分类和元素的强大基准。 Di Jin,Zhijing Jin,Joey Tianyi Zhou,Peter Szolovits 。 AAAI 2020。
score [PDF] [代码] - seq2sick:通过对抗性示例评估序列到序列模型的鲁棒性。 Minhao Cheng,Jinfeng Yi,Pin-Yu Chen,Huan Zhang,Cho-Jui Hsieh 。 AAAI 2020。
score [PDF] [代码] - 贪婪的攻击和牙龈攻击:生成离散数据的对抗示例。 Puyudi Yang,Jianbo Chen,Cho-Jui Hsieh,Jane-Lingwang,Michael I. Jordan 。 JMLR 2020。
score [PDF] [代码] - 关于自动模型的鲁棒性。 Yu-Lun Hsieh,Minhao Cheng,Da-Cheng Juan,Wei Wei,Wen-Lian Hsu,Cho-Jui Hsieh 。 ACL 2019。
score [PDF] - 通过概率加权单词显着性生成自然语言对抗性示例。 Shuhuai Ren,Yihe Deng,Kun He,Wanxiang Che 。 ACL 2019。
score [PDF] [代码] - 为自然语言产生流利的对抗例子。 Huangzhao Zhang,Hao Zhou,Ning Miao,Lei Li 。 ACL 2019。
gradient score [PDF] [代码] - 强大的神经机器翻译带有双重对抗输入。杨郑,卢江,沃尔夫冈·马克雷。 ACL 2019。
gradient [PDF] - 对文本分类器的通用对抗性攻击。 Melika Behjati,Seyed-Mohsen Moosavi-Dezfooli,Mahdieh Soleymani Baghshah,Pascal Frossard 。 ICASSP 2019。
gradient [PDF] - 产生自然语言对抗性例子。 Moustafa Alzantot,Yash Sharma,Ahmed Elgohary,Bo-Jhang Ho,Mani Srivastava,Kai-Wei Chang 。 EMNLP 2018。
score [PDF] [代码] - 用句子破坏NLI系统,需要简单的词汇推断。马克斯·格洛克纳(Max Glockner),耶鲁·戈德堡(Yoav Goldberg)验证的什瓦兹(Shwartz) 。 ACL 2018。
blind [PDF] [数据集] - 深层文本分类可以被愚弄。 Bin Liang,Hongcheng Li,Miaoqiang Su,Pan Bian,Xirong Li,Wenchang Shi 。 IJCAI 2018。
gradient score [PDF] - 输入嵌入文本空间中的可解释的对抗扰动。 Sato,Motoki,Jun Suzuki,Hiroyuki Shindo,Yuji Matsumoto 。 IJCAI 2018。
gradient [PDF] [代码] - 致力于制作文本对抗样本。 Suranjana Samanta,Sameep Mehta 。 Ecir 2018。
gradient [PDF] - 为反复的神经网络制作对抗输入序列。 Nicolas Papernot,Patrick McDaniel,Ananthram Swami,Richard Harang 。 MILCOM 2016。
gradient [PDF]
2.3 char级攻击
- 重新访问语言模型的角色级对手攻击。 Elias Abad Rocamora ,Yongtao Wu,Fanghui Liu,Grigorios G. Chrysos,Volkan Cevher,ICML 2024。
score blind gradient [PDF] [PDF] [代码] - Vertattack:利用文本分类器的水平视觉。乔纳森·鲁塞尔特(Jonathan Rusert) ,NAACL 2024。
score blind [PDF] - 标点级攻击:单杆和单标点符号可以欺骗文本模型。 Wenqiang Wang,Chongyang DU,Tao Wang,Kaihao Zhang,Wenhan Luo,Lin MA,Wei Liu,Xioochun Cao 。神经2023。
blind score [PDF] - 将标点符号用作对基于深度学习的NLP系统的对抗性攻击:一项实证研究。 Brian Formento,Chuan Sheng Foo,Luu Anh Tuan,请参阅Kiong ng 。 EACL(调查结果)2023。
score blind [PDF] [代码] - 模型提取和对抗性转移性,您的Bert很脆弱! 。 Xuanli He,Lingjuan Lyu,Lichao Sun,Qiongkai Xu 。 NAACL-HLT 2021。
blind [PDF] [代码] - 像人类一样的文本处理:视觉攻击和屏蔽NLP系统。史蒂芬·埃格(Steffen Eger),戈兹德·古尔(GözdeGül马),安德烈亚斯·鲁克(AndreasRücklé),吉恩·李(Ji-ung Lee),克劳迪亚·舒尔茨(Claudia Schulz),莫赫森·梅斯加(Mohsen Mesgar),克里希恩·斯沃恩卡(Krishnkant Swarnkar),埃德温·辛普森(Edwin Simpson),艾里纳·吉维奇(Iryna Gurevych) 。 NAACL-HLT 2019。
blind [PDF] [代码和数据] - 白色到黑色:有效的黑盒对抗攻击。 Syotam Gil,Yoav Chai或Gorodissky,Jonathan Berant 。 NAACL-HLT 2019。
blind [PDF] [代码] - 黑盒生成对抗文本序列,以逃避深度学习分类器。 Ji Gao,Jack Lanchantin,Mary Lou Soffa,Yanjun Qi 。 IEEE SPW 2018。
score [PDF] [代码] - 在角色级神经机器翻译的对抗示例中。 Javid Ebrahimi,Daniel Lowd,Dejing Dou 。 Coling 2018。
gradient [PDF] [代码] - 合成和自然噪声都破坏神经机器的翻译。 Yonatan Belinkov,Yonatan Bisk 。 ICLR 2018。
blind [PDF] [代码和数据]
2.4多层攻击
- LLM可以欺骗自己:基于及时的对抗性攻击。 Xilie Xu,Keyi Kong,Ning Liu,Lizhen Cui,Di Wang,Jingfeng Zhang,Mohan Kankanhalli 。 ICLR 2024。
blind [PDF] - 具有行为克隆的多粒性文本对抗攻击。 Yangyi Chen,Jin Su,Wei Wei 。 EMNLP 2021。
blind [PDF] [代码] - 综合对抗性响应的对抗性负面反应和评估。 Prakhar Gupta,Yulia Tsvetkov,Jeffrey Bigham 。 ACL的发现:ACL-IJCNLP 2021。
blind [PDF] [代码] - 芝麻街上的代码混合:对抗性多数的黎明。 Samson Tan,Shafiq Joty 。 NAACL-HLT 2021。
score [PDF] [代码] - 自然触发器进行文本分类的通用对抗攻击。 Liwei Song,Xinwei Yu,Hsuan-Tung Peng,Karthik Narasimhan 。 NAACL-HLT 2021。
gradient [PDF] [代码] - BBAEG:迈向基于BERT的生物医学对抗示例生成文本分类。 Ishani Mondal 。 NAACL-HLT 2021。
score [PDF] [代码] - 不要以“ NSWVTNVAKGXPM”的形式获取答案 - 自动内容评分系统对对抗输入的令人惊讶的漏洞。 Yuning ding,Brian Riordan,Andrea Horbach,Aoife Cahill,Torsten Zesch 。 Coling 2020。
blind [PDF] [代码] - 通用的对抗触发器,用于攻击和分析NLP 。 Eric Wallace,Shi Feng,Nikhil Kandpal,Matt Gardner,Sameer Singh 。 EMNLP-IJCNLP 2019。
gradient [PDF] [代码] [网站] - TextBugger:针对现实世界应用程序生成对抗文本。 Jinfeng Li,Shouling JI,Tianyu Du,Bo Li,Ting Wang 。 NDSS 2019。
gradient score [PDF] - 使用深增强模型生成黑框对抗示例,以用于文本分类器。 Prashanth Vijayaraghavan,Deb Roy 。 ECMLPKDD 2019。
score [PDF] - Hotflip:文本分类的白色框对面示例。 Javid Ebrahimi,Anyi Rao,Daniel Lowd,Dejing Dou 。 ACL 2018。
gradient [PDF] [代码] - 对话模型的对抗性过度敏感性和过度稳定性策略。 Tong Niu,Mohit Bansal 。 Conll 2018。
blind [PDF] [代码和数据] - 比较基于注意力的卷积和复发性神经网络:机器阅读理解的成功和局限性。 Matthias Blohm,Glorianna Jagfeld,Ekta Sood,Xiang Yu,Ngoc Thang Vu 。 Conll 2018。
gradient [PDF] [代码]
3。辩护文件
- AI生成的文本检测器对对抗性扰动是否可靠? Guanhua Huang,Yuchen Zhang,Zhe Li,Yongjian You,Mingze Wang和Zhouwang Yang。 ACL 2024。[PDF] [代码]
- SEMRODE:宏对抗训练,以学习对单词级攻击强大的表示形式。 Brian Formento,Wenjie Feng,Chuan-Sheng Foo,Anh Tuan Luu,See-Kiong Ng 。 NAACL 2024。[PDF] [代码]
- DSRM:增强文本对抗训练,并以分配转移风险最小化。 Songyang Gao,Shihan Dou,Yan Liu,Xiao Wang,Qi Zhang,Zhongyu Wei,Jin MA,Ying Shan 。 ACL 2023。[PDF] [代码]
- 具有扰动令牌检测的生成对抗训练,以实现模型鲁棒性。 Jiahao Zhao,Wenji Mao 。 EMNLP 2023。[PDF] [代码]
- 基于文本歧管的防御自然语言对抗性例子。 Dang Minh Nguyen,Luu Anh Tuan 。 EMNLP 2022。[PDF] [代码]
- 通过Shapley添加说明来检测单词级的对抗文本攻击。 Lukas Huber,MarcAlexanderKühn,Edoardo Mosca,Georg Groh 。 REPL4NLP@ACL 2022。[PDF] [代码]
- 在文本分类中检测对抗性示例:通过稳健密度估计的基准和基线。 Kiyoon Yoo,Jangho Kim,Jiho Jang,Nojun Kwawk 。 ACL 2022(发现)。 [PDF] [代码]
- “那是一个可疑的反应!”:解释逻辑变化以检测NLP对抗性攻击。 Edoardo Mosca,Shreyash Agarwal,JavierRandoRamírez,Georg Groh 。 ACL 2022。[PDF] [代码]
- 盾牌:使用随机多专家补丁程序捍卫文本神经网络,以防止多个黑盒对抗攻击。泰恩·莱(Thai Le),鼻孔公园,东旺·李(Dongwon Lee) 。 ACL 2022。[PDF]
- 野外的扰动:利用人工写的文本扰动进行现实的对抗攻击和防御。泰国LE,Jooyoung Lee,Kevin Yen,Yifan Hu,Dongwon Lee 。 ACL 2022(发现)。 [PDF]
- 通过离散的对抗训练实现模型鲁棒性。莫尔·艾维(Maor Ivgi),乔纳森·贝兰特(Jonathan Berant )。 EMNLP 2021。[PDF] [代码]
- 通过Dirichlet邻里合奏团对基于同义替代替代的对抗性攻击的防御。 Yi Zhou,Xiaoqing Zheng,Cho-Jui Hsieh,Kai-Wei Chang,Xuanjing Huang 。 ACL-IJCNLP 2021。[PDF]
- 达西(Darcy)的甜兔子洞:使用蜜罐检测通用触发器的对抗性攻击。泰恩·莱(Thai Le),鼻孔公园,东旺·李(Dongwon Lee) 。 ACL-IJCNLP 2021。[PDF] [代码]
- 通过更多覆盖范围更好的鲁棒性:可靠的固定填充物的对抗和混合数据增强。 Chenglei Si,Zhengyan Zhang,Fanchao Qi,Zhiyuan Liu,Yasheng Wang,Qun Liu,Maosong Sun。 ACL的发现:ACL-IJCNLP 2021。[PDF] [代码]
- 伯特防御:基于BERT的概率模型,以打击认知启发的矫正攻击。 Yannik Keller,Jan Mackensen,Steffen Eger 。 ACL的发现:ACL-IJCNLP 2021。[PDF] [代码]
- 捍卫训练预先训练的语言模型,而无需牺牲表现。 Rongzhou Bao,Jiayi Wang,Hai Zhao 。 ACL的发现:ACL-IJCNLP 2021。[PDF] [代码]
- 神经机器翻译的歧管对抗增强。 Guandan Chen,Kai Fan,Kaibo Zhang,拳击Chen,Zhongqiang Huang 。 ACL的发现:ACL-IJCNLP 2021。[PDF]
- 自然语言对抗性防御通过同义编码。小王,霍·金,昆。 UAI 2021。[PDF] [代码]
- 通过快速梯度投影方法反对基于同义词替代的文本攻击的对抗训练。小王,Yichen Yang,Yihe Deng,Kun He 。 AAAI 2021。[PDF] [代码]
- 用于检测文本对抗示例的频率引导的单词替换。 Maximilian Mozes,Pontus Stenetorp,Bennett Kleinberg,Lewis D. Griffin 。 EACL 2021。[PDF] [代码]
- 对自然语言单词替换进行鲁棒性。新舒亚董,安·图安·卢(Anh tuan Luu),隆格(Rongrong Ji),李(Hong Liu)。 ICLR 2021。[PDF] [代码]
- Infobert:从信息理论的角度提高语言模型的鲁棒性。 Boxin Wang,Shuohang Wang,Yu Cheng,Zhe Gan,Ruoxi Jia,Bo Li,Jingjing Liu 。 ICLR 2021。[PDF] [代码]
- 通过对抗攻击增强具有脆弱性的神经模型。 Rong Zhang,Qifei Zhou,Bo An,Weiping Li,Tong Mo,Bo Wu 。 Coling 2020。[PDF] [代码]
- 对比度的零射击学习,用于跨域插槽填充与逆向攻击。 Keqing He,Jinchao Zhang,Yuanmeng Yan,Weiran Xu,Cheng Niu,Jie Zhou 。殖民地2020。[PDF]
- 介意你的拐点!通过基础反射编码来改善非标准英语的NLP 。 Samson Tan,Shafiq Joty,Lav R. Varshney,Min-Yen Kan 。 EMNLP 2020。[PDF] [代码]
- 强大的编码:打击对抗错别字的框架。 Erik Jones,Robin Jia,Aditi Raghunathan,Percy Liang 。 ACL 2020。[PDF] [代码]
- 联合角色级别的嵌入和对抗稳定性训练以捍卫对抗性文本。 Hui Liu,Yongzheng Zhang,Yipeng Wang,Zheng Lin,Yige Chen 。 AAAI 2020。[PDF]
- 强大的对抗性训练方法,用于机器阅读理解。 Kai Liu,Xin Liu,Yang,Jing Liu,Jinsong Su,Sujian Li,Qiaoqiao She 。 AAAI 2020。[PDF]
- FreelB:增强的对抗性培训,以了解语言理解。 Chen Zhu,Yu Cheng,Zhe Gan,Siqi Sun,Tom Goldstein,Jingjing Liu 。 Cors 2019。[PDF] [代码]
- 学会区分扰动以阻止文本分类中的对抗攻击。 Yichao Zhou,Jyun-Yu Jiang,Kai-Wei Chang,Wei Wang 。 EMNLP-IJCNLP 2019。[PDF] [代码]
- 为对话安全而构建它打破了它的修复:对对抗性人类攻击的鲁棒性。艾米莉·迪南(Emily Dinan),塞缪尔·霍(Samuel Humeau),巴拉特·钦塔塔(Bharath Chintagunta),杰森·韦斯顿(Jason Weston) 。 EMNLP-IJCNLP 2019。[PDF] [数据]
- 用强有力的单词识别来打击对抗性拼写错误。丹麦·普鲁西(Danish Pruthi),布万·德辛拉(Bhuwan Dhingra),Zachary C. Lipton 。 ACL 2019。[PDF] [代码]
- 自然语言处理任务中的健壮到噪声模型。瓦伦丁·马里克(Valentin Malykh) 。 ACL 2019。[PDF] [代码]
4。认证的鲁棒性
- 对单词替代攻击具有不同隐私的认证鲁棒性。 Wenjie Wang,Pengfei Tang,Jian Lou,Li Xiong 。 Naacl-HLT 2021。[PDF]
- 自动扰动分析,用于可扩展的认证鲁棒性及其他。 Kaidi Xu,Zhouxing Shi,Huan Zhang,Yihan Wang,Kai-Wei Chang,Minlie Huang,Bhavya Kailkhura,Xue Lin,Cho-Jui Hsieh 。神经2020。[PDF] [代码]
- 更安全:一种无结构的方法,用于对对抗单词替换进行认证的鲁棒性。 Mao Ye,Chengyue Gong,Qiang Liu 。 ACL 2020。[PDF] [代码]
- 变压器的稳健性验证。 Zhouxing Shi,Huan Zhang,Kai-Wei Chang,Minlie Huang,Cho-Jui Hsieh 。 ICLR 2020。[PDF] [代码]
- 通过间隔结合传播实现对符号替换的验证鲁棒性。 Po-Sen Huang,Robert Stanforth,Johannes Welbl,Chris Dyer,Dani Yogatama,Sven Gowal,Krishnamurthy Dvijotham,Pushmeet Kohli 。 EMNLP-IJCNLP 2019。[PDF]
- 对对抗单词替换的认证鲁棒性。 Robin Jia,Aditi Raghunathan,KeremGöksel,Percy Liang 。 EMNLP-IJCNLP 2019。[PDF] [代码]
- POPQORN:量化复发性神经网络的鲁棒性。 Ching-Yun KO,Zhaoyang Lyu,Lily Weng,Luca Daniel,Ngai Wong,Dahua Lin 。 ICML 2019。[PDF] [代码]
5。基准和评估
- 解码器:对GPT模型中可信度的全面评估。 Boxin Wang, Weixin Chen, Hengzhi Pei, Chulin Xie, Mintong Kang, Chenhui Zhang, Chejian Xu, Zidi Xiong, Ritik Dutta, Rylan Schaeffer, Sang T. Truong, Simran Arora, Mantas Mazeika, Dan Hendrycks, Zinan Lin, Yu Cheng, Sanmi Koyejo, Dawn歌曲,博·李。 Neurips 2023(数据集和基准轨迹)。 [PDF] [网站]
- 在文本对抗攻击中保留语义。大卫·赫雷尔(David Herel),雨果·西斯内罗斯(Hugo Cisneros),托马斯·米科洛夫(Tomas Mikolov )。 ECAI 2023。[PDF] [代码]
- 提示GPT-3可靠。 Chenglei Si,Zhe Gan,Zhengyuan Yang,Shuohang Wang,Jianfeng Wang,Jordan Boyd-Graber,Lijuan Wang 。 ICLR 2023。[PDF] [代码]
- 为什么对对抗性扰动不可察觉?重新考虑对抗性NLP中的研究范式。 Yangyi Chen,Hongcheng Gao,Ganqu Cui,Fanchao Qi,Longtao Huang,Zhiyuan Liu,Maosong Sun。 EMNLP 2022。[PDF] [代码和数据]
- 将神经NLP模型的鲁棒性解释为文本扰动。 Yunxiang Zhang,Liangming Pan,Samson Tan,Min-Yen Kan 。 ACL的发现,2022年。[PDF]
- 与文本分类的人类和机器生成的单词级对抗示例进行对比。 Maximilian Mozes,Max Bartolo,Pontus Stenetorp,Bennett Kleinberg,Lewis D. Griffin 。 EMNLP 2021。[PDF] [代码]
- Dynabench:在NLP中重新考虑基准测试。 Douwe Kiela,Max Bartolo,Yixin Nie,Divyansh Kaushik,Atticus Geiger,Zhengxuan Wu,Bertie Vidgen,Grusha Prasad,Amanpreet Singh,Pratik Ringshia,Pratik Ringshia,Pratik Ringshia,Ma班萨尔,克里斯托弗·波茨,阿迪娜·威廉姆斯。 NAACL 2021。[PDF] [网站]
- 对抗性胶:用于语言模型鲁棒性评估的多任务基准。 Boxin Wang,Chejian Xu,Shuohang Wang,Zhe Gan,Yu Cheng,Jianfeng Gao,Ahmed Hassan Awadallah,Bo Li 。 Neurips 2021(数据集和基准轨迹)。 [PDF] [网站]
- 寻找一个有效的防御者:对对抗性单词替代的防御进行基准测试。 Zongyi Li,Jianhan Xu,Jiehang Zeng,Linyang Li,Xiaoqing Zheng,Qi Zhang,Kai-Wei Chang和Cho-Jui Hsieh 。 EMNLP 2021。[PDF]
- 双重扰动:关于鲁棒性和反事实偏见评估的鲁棒性。 Chong Zhang,Jieyu Zhao,Huan Zhang,Kai-Wei Chang和Cho-Jui Hsieh Naacl 2021。[PDF] [代码]
- 重新评估自然语言的对抗例子。约翰·莫里斯(John Morris),埃利·利兰德(Eli Lifland),杰克·兰坎丁(Jack Lanchantin),扬冯吉(Yangfeng JI),Yanjun Qi 。 ACL的发现:EMNLP 2020。[PDF] [代码和数据]
- 从英雄到Zéroe:低级对抗攻击的基准。 Steffen Eger,Yannik Benz 。 AACL-IJCNLP 2020。[PDF] [代码和数据]
- 对抗性NLI:一种自然语言理解的新基准。 Yixin Nie,Adina Williams,Emily Dinan,Mohit Bansal,Jason Weston,Douwe Kiela 。 ACL 2020。[PDF] [DEMO] [数据集和排行榜]
- 通过对比集评估NLP模型。 Matt Gardner, Yoav Artzi, Victoria Basmova, Jonathan Berant, Ben Bogin, Sihao Chen, Pradeep Dasigi, Dheeru Dua, Yanai Elazar, Ananth Gottumukkala, Nitish Gupta, Hanna Hajishirzi, Gabriel Ilharco, Daniel Khashabi, Kevin Lin, Jiangming Liu,尼尔森·刘(Nelson F. ACL的发现:EMNLP 2020。[PDF] [网站]
- 评估序列到序列模型的对抗扰动。 Paul Michel,Xian Li,Graham Neubig,Juan Miguel Pino 。 NAACL-HLT 2019。[PDF] [代码]
6。其他论文
- 确定人类的策略来产生单词级别的对手实例。 Maximilian Mozes,Bennett Kleinberg,Lewis D. Griffin 。 ACL的发现:EMNLP 2022。[PDF]
- 词汇:基于词汇的对抗强化培训,用于强大的情感分类。 Jingjing Xu,Liang Zhao,Hanqi Yan,Qi Zeng,Yun Liang,Xu Sun。 EMNLP-IJCNLP 2019。[PDF] [代码]
- 统一的视觉语义嵌入:具有结构化含义表示的桥接视觉和语言。 Hao Wu,Jiayuan Mao,Yufeng Zhang,Yuning Jiang,Lei Li,Weiwei Sun,Wei-Ying MA 。 CVPR 2019。[PDF]
- 冒险:具有知识指导的示例的文本需要的对抗性培训。 Dongyeop Kang,Tushar Khot,Ashish Sabharwal,Eduard Hovy 。 ACL 2018。[PDF] [代码]
- 从对比对抗样本中学习视觉上的语义。 Haoyue Shi,Jiayuan Mao,Tete Xiao,Yuning Jiang,Jian Sun。 Coling 2018。[PDF] [代码]
贡献者
我们感谢所有列表的贡献者。非常欢迎更多的贡献。