Docues à lire sur l'attaque et la défense adversaire textuelle (TAAD)
Cette liste est actuellement entretenue par Chenghao Yang à Uchicago.
D'autres contributeurs principaux précédents, dont Fanchao Qi, et Yuan Zang lorsqu'ils étaient à Thunlp.
Nous remercions beaucoup tous les grands contributeurs.
Contenu
- 0. Kites d'outils
- 1. Documents d'enquête
- 2. Documents d'attaque (classés en fonction du niveau de perturbation)
- 2.1 Attaque au niveau de la phrase
- 2.2 Attaque au niveau des mots
- 2.3 Attaque au niveau du charbon
- 2.4 Attaque à plusieurs niveaux
- 3. Documents de défense
- 4. Robustesse certifiée
- 5. Benchmark and Evaluation
- 6. Autres papiers
- Contributeurs
0. Kites d'outils
- RobustQA: un cadre pour l'analyse de génération de texte adversaire sur les systèmes de réponse aux questions . Yasaman Boreshban, Seyed Morteza Mirbostani, Seyedeh Fatemeh Ahmadi, Gita Shojaee, Fatemeh Kamani, Gholamreza Ghassem-Sani, Seyed Abolghasem Mirroshandel . Demo EMNLP 2022. [Base de code] [PDF]
- Seqattack: sur les attaques contradictoires pour la reconnaissance des entités nommées . Walter Simoncini, Gerasimos Spanakis . Demo EMNLP 2021. [Site Web] [PDF]
- OpenAttack: une boîte à outils d'attaque adversaire textuelle open source . Guoyang Zeng, Fanchao Qi, Qianrui Zhou, Tingji Zhang, Bairu Hou, Yuan Zang, Zhiyuan Liu, Maosong Sun. ACL-IJCNLP 2021 Demo. [Site Web] [DOC] [PDF]
- TextAttack: un cadre pour les attaques contradictoires, l'augmentation des données et la formation contradictoire dans la PNL . John Morris, Eli Lifland, Jin Yong Yoo, Jake Grigsby, Di Jin, Yanjun Qi . Demo EMNLP 2020. [Site Web] [DOC] [PDF]
1. Documents d'enquête
- Mesurer et améliorer la robustesse dans les modèles PNL: une enquête . Xuezhi Wang, Haohan Wang, Diyi Yang . NAACL 2022. [PDF]
- Vers un réseau neuronal profond robuste dans les textes: une enquête . Wenqi Wang, Lina Wang, Benxiao Tang, Run Wang, Aoshuang Ye . TKDE 2021. [PDF]
- Attaques contradictoires contre les modèles d'apprentissage en profondeur dans le traitement du langage naturel: une enquête . Wei Emma Zhang, Quan Z. Sheng, Ahoud Alhazmi, Chenliang Li . ACM TIST 2020. [PDF]
- Attaques et défenses contradictoires dans les images, les graphiques et le texte: une revue . Han Xu, Yao MA, Hao-Chen Liu, Debayan Deb, Hui Liu, Ji-Liang Tang, Anil K. Jain . International Journal of Automation and Computing 2020. [PDF]
- Méthodes d'analyse dans le traitement du langage neuronal: une enquête . Yonatan Belinkov, James Glass . TACL 2019. [PDF]
2. Attaquer les papiers
Chaque article est attaché à une ou plusieurs étiquettes suivantes indiquant la quantité d'informations que le modèle d'attaque connaît sur le modèle de victime : gradient (= white , toutes les informations), score (décision de sortie et scores), decision (seule décision de sortie) et blind (rien)
2.1 Attaque au niveau de la phrase
- Utilisation d'attaques contradictoires pour révéler le biais statistique dans les modèles de compréhension de la lecture des machines . Jieyu Lin, Jiajie Zou, Nai Ding . ACL-IJCNLP 2021.
blind [PDF] - Attaque adversaire et défense gris-box pour la classi fi cation des sentiments . Ying Xu, Xu Zhong, Antonio Jimeno Yepes, Jey Han Lau . NAACL-HLT 2021.
gradient [PDF] [Code] - Générer des paraphrases à commande syntaxiquement sans utiliser de paires parallèles annotées . Kuan-Hao Huang et Kai-Wei Chang . EACL 2021. [PDF] [Code]
- Cat-Gen: Amélioration de la robustesse dans les modèles PNL via la génération de texte contradictoire contrôlée . Tianlu Wang, Xuezhi Wang, Yao Qin, Ben Packer, Kang Lee, Jilin Chen, Alex Beutel, Ed Chi . EMNLP 2020.
score [PDF] - T3: Tree-Autoencoder a contraint la génération de texte adversaire pour une attaque ciblée . Boxin Wang, Hengzhi Pei, Boyuan Pan, Qian Chen, Shuohang Wang, Bo Li . EMNLP 2020.
gradient [PDF] [Code] - Attaque contradictoire et défense des modèles de prédiction structurés . Wenjuan Han, Liwen Zhang, Yong Jiang, Kewei Tu . EMNLP 2020.
blind [PDF] [CODE] - Malcom: générer des commentaires malveillants pour attaquer les modèles de détection de fausses nouvelles neuronales . Thai le, Suhang Wang, Dongwon Lee . ICDM 2020.
gradient [PDF] [Code] - Amélioration de la robustesse des questions répondant aux systèmes pour les questions paraphrasant . Wee Chung Gan, Hwee Tou ng . ACL 2019.
blind [PDF] [données] - Imptez-moi si vous le pouvez: Génération humaine en boucle d'exemples adversaires pour répondre aux questions . Eric Wallace, Pedro Rodriguez, Shi Feng, Ikuya Yamada, Jordan Boyd-Graber . TACL 2019.
score [PDF] - PAWS: paraphrase les adversaires du mot de brouillage . Yuan Zhang, Jason Baldridge, Luheng He . NAACL-HLT 2019.
blind [PDF] [ensemble de données] - Évaluer et améliorer la robustesse des systèmes de dialogue: une étude de cas sur un agent de négociation . Minhao Cheng, Wei Wei, Cho-Jui Hsieh . NAACL-HLT 2019.
score gradient [PDF] [Code] - Règles adversaires sémantiquement équivalentes pour le débogage des modèles NLP . Marco Tulio Ribeiro, Sameer Singh, Carlos Guestrin . ACL 2018.
decision [PDF] [Code] - Regurer adversarialement les modèles NLI neuronaux pour intégrer les connaissances de base logiques . Pasquale Minervini, Sebastian Riedel . Conll 2018.
score [PDF] [Code et données] - Modèles robustes de compréhension des machines via une formation contradictoire . Yicheng Wang, Mohit Bansal . NAACL-HLT 2018.
decision [PDF] [ensemble de données] - Génération d'exemple adversaire avec des réseaux de paraphrase à commande syntaxique . Mohit Iyyer, John Wieting, Kevin Gimpel, Luke Zettlemoyer . NAACL-HLT 2018.
blind [PDF] [Code et données] - Générer des exemples adversaires naturels . Zhengli Zhao, Dheeru Dua, Sameer Singh . ICLR 2018.
decision [PDF] [Code] - Exemples adversaires pour évaluer les systèmes de compréhension de la lecture . Robin Jia, Percy Liang . EMNLP 2017.
score decision blind [PDF] [Code] - Ensembles contradictoires pour régulariser les prédicteurs de liens neuronaux . Pasquale Minervini, Thomas Demeester, Tim Rocktäschel, Sebastian Riedel . UAI 2017.
score [PDF] [Code]
2.2 Attaque au niveau des mots
- Expansion de la portée: adapter les attaques adversaires anglaises aux chinois . Hanyu Liu, Chengyuan Cai, Yanjun Qi . Résultats de l'ACL 2023.
decision [PDF] [Code] - Génération de texte contradictoire par recherche et apprentissage . Guoyi Li, Bingkang Shi, Zongzhen Liu, Dehan Kong, Yulei Wu, Xiaodan Zhang, Longtao Huang, Honglei Lyu . Résultats d'ACL 2023.
score [PDF] [Code] - Combler l'écart entre CV et NLP! Un cadre d'attaque adversaire textuel basé sur un gradient . Lifan Yuan, Yichi Zhang, Yangyi Chen, Wei Wei . Résultats de l'ACL 2023.
decision [PDF] [Code] - Texthacker: Algorithme de recherche local hybride basé sur l'apprentissage pour l'attaque adversaire du Text Hard-Adversarial . Zhen Yu, Xiaosé Wang, Wanxiang Che, Kun He . Résultats de l'EMNLP 2022.
decision [PDF] [Code] - Texthoaxer: Attaques adversaires à étiquette dur budgétisées contre le texte . Muchao ye, Chenglin Miao, Ting Wang, Fenglong MA . AAAI 2022.
decision [PDF] [Code] - Attaques adversaires de boîte noire économes et évolutives sur des données séquentielles discrètes via l'optimisation bayésienne . Deokjae Lee, Seungyong Moon, Junhyeok Lee, Hyun Oh Song . ICML 2022.
score [PDF] [CODE] - Semattack: Attaques textuelles naturelles sur différents espaces sémantiques . Boxin Wang, Chejian Xu, Xiangyu Liu, Yu Cheng, Bo Li . Résultats de NAACL 2022.
gradient [PDF] [Code] - Attaques contradictoires basées sur le gradient contre les transformateurs de texte . Chuan Guo, Alexandre Sablayrolles, Hervé Jégou, Douwe Kiela . EMNLP 2021.
gradient [PDF] [Code] - Une solide ligne de base pour les attaques efficaces de requête dans une boîte noire . Rishabh Maheswary, Saket Maheshwary, Vikram Pudi . EMNLP 2021.
score [PDF] [Code] - Sur la transférabilité des attaques contradictoires contre le classificateur de texte neuronal . Liping Yuan, Xiaoqing Zheng, Yi Zhou, Cho-Jui Hsieh, Kai-Wei Chang . EMNLP 2021. [PDF]
- Création d'exemples adversaires pour la traduction de la machine neuronale . Xinze Zhang, Junzhe Zhang, Zhenhua Chen, Kun He . ACL-IJCNLP 2021.
score [PDF] [CODE] - Une étude empirique sur l'attaque contradictoire sur NMT: les langues et les positions sont importantes . Zhiyuan Zeng, Deyi Xiong . ACL-IJCNLP 2021.
score [PDF] - Un examen plus approfondi de la robustesse des analyseurs de dépendance neuronale en utilisant de meilleurs exemples contradictoires . Yuxuan Wang, Wanxiang Che, Ivan Titov, Shay B. Cohen, Zhilin Lei, Ting Liu . Résultats d'ACL: ACL-IJCNLP 2021.
score [PDF] [CODE] - Perturbation contextualisée pour l'attaque adversaire textuelle . Dianqi Li, Yizhe Zhang, Hao Peng, Liqun Chen, Chris Brockett, Ming-Ting Sun, Bill Dolan . NAACL-HLT 2021.
score [PDF] [CODE] - ADV-OLM: générer des adversaires textuels via OLM . Vijit Malik, Ashwani Bhat, Ashutosh Modi . EACL 2021.
score [PDF] [Code] - Stylométrie adversaire dans la nature: Attaques de substitution lexicale transférable contre le pro fi l . Chris Emmery, Ákos Kádár, Grzegorz Chrupała . EACL 2021.
blind [PDF] [CODE] - Génération d'attaques en langage naturel dans un réglage de la boîte noire dure . Rishabh Maheshwary, Saket Maheshwary, Vikram Pudi . AAAI 2021.
decision [PDF] [Code] - Une attaque inspirée de la géométrie pour générer des exemples adversaires en langage naturel . Zhao Meng, Roger Wattenhofer . Coling 2020.
gradient [PDF] [Code] - Bert-Attack: Attaque contradictoire contre Bert en utilisant Bert . Linyang Li, Ruotian MA, Qipeng Guo, Xiangyang Xue, Xipeng Qiu . EMNLP 2020.
score [PDF] [Code] - BAE: Exemples adversaires basés sur Bert pour la classification du texte . Siddhant Garg, Goutham Ramakrishnan . EMNLP 2020.
score [PDF] [Code] - Détection des biais de désambiguïsation du sens des mots dans la traduction machine pour les attaques adversaires modèles agnostiques . Denis Emelin, Ivan Titov, Rico Sennrich . EMNLP 2020.
blind [PDF] [CODE] - Attaques et défenses d'imitation pour les systèmes de traduction machine à boîte noire . Eric Wallace, Mitchell Stern, Dawn Song . EMNLP 2020.
decision [PDF] [Code] - Robustesse à la modification avec des mots partagés dans l'identification paraphrase . Zhouxing Shi, Minlie Huang . Résultats de l'ACL: EMNLP 2020.
score [PDF] - Attaque adversaire textuelle au niveau du mot comme optimisation combinatoire . Yuan Zang, Fanchao Qi, Chenghao Yang, Zhiyuan Liu, Meng Zhang, Qun Liu, Maosong Sun. ACL 2020.
score [PDF] [Code] - C'est le temps de Morphin! Combattre la discrimination linguistique avec les perturbations inflexionnelles . Samson Tan, Shafiq Joty, Min-Yen Kan, Richard Socher . ACL 2020.
score [PDF] [Code] - Sur la robustesse des encodeurs linguistiques contre les erreurs grammaticales . Fan Yin, Quanyu Long, Tao Meng, Kai-Wei Chang . ACL 2020.
score [PDF] [Code] - Évaluer et améliorer la robustesse des modèles d'analyse de dépendance basés sur le réseau neuronal avec des exemples adversaires . Xiaoqing Zheng, Jiehang Zeng, Yi Zhou, Cho-Jui Hsieh, Minhao Cheng, Xuanjing Huang . ACL 2020.
score gradient [PDF] [Code] - Une génération renforcée d'exemples contradictoires pour la traduction des machines neuronales . Wei Zou, Shujian Huang, Jun Xie, Xinyu Dai, Jiajun Chen . ACL 2020.
decision [PDF] - Bert est-il vraiment robuste? Une forte référence pour l'attaque en langage naturel contre la classification et l'implication du texte . Di Jin, Zhijing Jin, Joey Tianyi Zhou, Peter Szolovits . AAAI 2020.
score [PDF] [Code] - SEQ2SICK: Évaluation de la robustesse des modèles de séquence à séquence avec des exemples adversaires . Minhao Cheng, Jinfeng Yi, Pin-Yu Chen, Huan Zhang, Cho-Jui Hsieh . AAAI 2020.
score [PDF] [Code] - Attaque gourmand et attaque de Gumbel: générer des exemples adversaires pour des données discrètes . Puyudi Yang, Jianbo Chen, Cho-Jui Hsieh, Jane-Lingwang, Michael I. Jordan . JMLR 2020.
score [PDF] [Code] - Sur la robustesse des modèles auto-attentifs . Yu-Lun Hsieh, Minhao Cheng, Da-Cheng Juan, Wei Wei, Wen-Lian Hsu, Cho-Jui Hsieh . ACL 2019.
score [PDF] - Générer des exemples adversaires en langage naturel grâce à la saillance des mots pondérés par la probabilité . Shuhuai Ren, Yihe Deng, Kun He, Wanxiang Che . ACL 2019.
score [PDF] [Code] - Générer des exemples contradictoires courants pour les langues naturelles . Huangzhao Zhang, Hao Zhou, Ning Miao, Lei Li . ACL 2019.
score gradient [PDF] [Code] - Traduction de machine neurale robuste avec entrées doublement contradictoires . Yong Cheng, Lu Jiang, Wolfgang Macherey . ACL 2019.
gradient [PDF] - Attaques contradictoires universelles contre les classificateurs de texte . Melika Behjati, Seyed-Mohsen Moosavi-Dezfooli, Mahdieh Soleymani Baghshah, Pascal Frossard . ICASSP 2019.
gradient [PDF] - Générer des exemples adversaires en langage naturel . Moustafa Alzantot, Yash Sharma, Ahmed Elgohary, Bo-Jhang Ho, Mani Srivastava, Kai-Wei Chang . EMNLP 2018.
score [PDF] [Code] - Briser les systèmes NLI avec des phrases qui nécessitent de simples inférences lexicales . Max Glockner, Vered Shwartz, Yoav Goldberg . ACL 2018.
blind [PDF] [ensemble de données] - La classification du texte profond peut être dupe . Bin Liang, Hongcheng Li, Miaoqiang Su, Pan Bian, Xirong Li, Wenchang Shi . IJCAI 2018.
score gradient [PDF] - Perturbation adversaire interprétable dans l'espace d'intégration d'entrée pour le texte . Sato, Motoki, Jun Suzuki, Hiroyuki Shindo, Yuji Matsumoto . IJCAI 2018.
gradient [PDF] [Code] - Vers l'élaboration d'échantillons adversaires de texte . Suranjana Samanta, Sameep Mehta . ECIR 2018.
gradient [PDF] - Création de séquences d'entrée adversaires pour les réseaux de neurones récurrents . Nicolas Papernot, Patrick McDaniel, Ananthram Swami, Richard Harang . Milcom 2016.
gradient [PDF]
2.3 Attaque au niveau du charbon
- Revisiter les attaques contradictoires au niveau des personnages pour les modèles de langue . Elias Abad Rocamora , Yongtao WU, Fanghui Liu, Grigorios G. Chrysos, Volkan Cevher, ICML 2024.
score blind gradient [PDF] [Code] - Vertattack: Profiter de la vision horizontale des classificateurs de texte . Jonathan Rusert , NAACL 2024.
score blind [PDF] - Attaque au niveau de la ponctuation: un seul coup et une ponctuation unique peut tromper les modèles de texte . Wenqiang Wang, Chongyang DU, Tao Wang, Kaihao Zhang, Wenhan Luo, Lin MA, Wei Liu, Xiaochun Cao . NIRIPS 2023.
score blind [PDF] - L'utilisation de ponctuation comme attaque contradictoire contre les systèmes de PNL basés sur l'apprentissage en profondeur: une étude empirique . Brian Formento, Chuan Sheng Foo, Luu Anh Tuan, voir Kiong ng . EACL (Résultats) 2023.
score blind [PDF] [Code] - Extraction du modèle et transférabilité adversaire, votre Bert est vulnérable! . Xuanli He, Lingjuan Lyu, Lichao Sun, Qiongkai Xu . NAACL-HLT 2021.
blind [PDF] [CODE] - Le traitement du texte comme les humains le font: attaquer et protéger visuellement les systèmes PNL . Steffen Eger, Gözde Gül ¸sahin, Andreas Rücklé, Ji-ung Lee, Claudia Schulz, Mohsen Mesgar, Krishnkant Swarnkar, Edwin Simpson, Iryna Gurevynch . NAACL-HLT 2019.
blind [PDF] [Code et données] - Blanc à noir: distillation efficace des attaques adversaires de la boîte noire . Syotam Gil, Yoav Chai ou Gorodissky, Jonathan Berant . NAACL-HLT 2019.
blind [PDF] [CODE] - Génération de séquences de texte adversares à boîte noire pour échapper aux classificateurs d'apprentissage en profondeur . Ji Gao, Jack Lanchantin, Mary Lou Soffa, Yanjun Qi . IEEE SPW 2018.
score [PDF] [Code] - Sur des exemples adversaires pour la traduction de la machine neuronale au niveau des caractères . Javid Ebrahimi, Daniel Lowd, Dejing Dou . Coling 2018.
gradient [PDF] [Code] - Le bruit synthétique et naturel brise tous les deux la traduction de la machine neurale . Yonatan Belinkov, Yonatan Bisk . ICLR 2018.
blind [PDF] [code et données]
2.4 Attaque à plusieurs niveaux
- Un LLM peut se tromper: une attaque contradictoire basée sur la base . Xilie Xu, Keyi Kong, Ning Liu, Lizhen Cui, Di Wang, Jingfeng Zhang, Mohan Kankanhalli . ICLR 2024.
blind [PDF] - Attaque adversaire textuelle multi-granularité avec clonage de comportement . Yangyi Chen, Jin Su, Wei Wei . EMNLP 2021.
blind [PDF] [CODE] - Synthèse des réponses négatives adversaires pour le classement et l'évaluation de la réponse robuste . Prakhar Gupta, Yulia Tsvetkov, Jeffrey Bigham . Résultats d'ACL: ACL-IJCNLP 2021.
blind [PDF] [CODE] - Mixing de code sur Sesame Street: Dawn of the Adversarial Polyglots . Samson Tan, Shafiq Joty . NAACL-HLT 2021.
score [PDF] [CODE] - Attaques contradictoires universelles avec déclencheurs naturels pour la classification du texte . Liwei Song, Xinwei Yu, Hsuan-tung Peng, Karthik Narasimhan . NAACL-HLT 2021.
gradient [PDF] [Code] - BBAEG: Vers une génération d'exemple adversaire biomédicale basée à Bert pour la classification du texte . Ishani Mondal . NAACL-HLT 2021.
score [PDF] [CODE] - Ne prenez pas «NSWVTNVAKGXPM» pour une réponse - la vulnérabilité surprenante des systèmes de notation de contenu automatique à une entrée adversaire . Yuning Ding, Brian Riordan, Andrea Horbach, Aoife Cahill, Torsten Zesch . Coling 2020.
blind [PDF] [CODE] - Déclencheurs adversaires universels pour attaquer et analyser la PNL . Eric Wallace, Shi Feng, Nikhil Kandpal, Matt Gardner, Sameer Singh . EMNLP-IJCNLP 2019.
gradient [PDF] [Code] [Site Web] - Textbugger: générer du texte contradictoire contre les applications du monde réel . Jinfeng Li, Shouling Ji, Tianyu Du, Bo Li, Ting Wang . NDSS 2019.
score gradient [PDF] - Génération d'exemples adversaires de la boîte noire pour les classificateurs de texte à l'aide d'un modèle renforcé profond . Prashanth Vijayaraghavan, Deb Roy . ECMLPKDD 2019.
score [PDF] - Hotflip: exemples adversaires de la boîte blanc pour la classification du texte . Javid Ebrahimi, Anyi Rao, Daniel Lowd, Dejing Dou . ACL 2018.
gradient [PDF] [Code] - Sur-sensibilité adversaire et stratégies de sur-stabilité pour les modèles de dialogue . Tong Niu, Mohit Bansal . Conll 2018.
blind [PDF] [code et données] - Comparaison des réseaux de neurones convolutionnels et récurrents basés sur l'attention: succès et limitations de la compréhension de la lecture des machines . Matthias Blohm, Glorianna Jagfeld, Ekta Sood, Xiang Yu, Ngoc Thang Vu . Conll 2018.
gradient [PDF] [Code]
3. Documents de défense
- Les détecteurs de texte générés par l'IA sont-ils robustes aux perturbations contradictoires? Guanhua Huang, Yuchen Zhang, Zhe Li, Yongjian You, Mingze Wang et Zhouwang Yang. ACL 2024. [PDF] [Code]
- SEMRODE: Formation adversaire macro pour apprendre des représentations robustes aux attaques au niveau des mots . Brian Formento, Wenjie Feng, Chuan-Sheng Foo, Anh Tuan Luu, See-Kiong ng . NAACL 2024. [PDF] [CODE]
- DSRM: stimuler la formation adversaire textuelle avec la minimisation des risques de décalage de distribution . Songyang Gao, Shihan Dou, Yan Liu, Xiao Wang, Qi Zhang, Zhongyu Wei, Jin Ma, Ying Shan . ACL 2023. [PDF] [Code]
- Formation adversaire générative avec détection de jetons perturbée pour la robustesse du modèle . Jiahao Zhao, Wenji Mao . EMNLP 2023. [PDF] [CODE]
- Défense textuelle basée sur le collecteur contre les exemples adversaires en langage naturel . Dang Minh Nguyen, Luu Anh Tuan . EMNLP 2022. [PDF] [CODE]
- Détection des attaques de texte contradictoires au niveau des mots via des explications additives de Shapley . Lukas Huber, Marc Alexander Kühn, Edoardo Mosca, Georg Groh . Rep4nlp @ ACL 2022. [PDF] [CODE]
- Détection d'exemples adversaires dans la classification du texte: référence et ligne de base via une estimation de densité robuste . Kiyoon Yoo, Jangho Kim, Jiho Jang, Nojun Kwawk . ACL 2022 (résultats). [pdf] [code]
- «C'est une réaction suspecte!»: Interpréter la variation des logites pour détecter les attaques adversaires de la PNL . Edoardo Mosca, Shreyash Agarwal, Javier Rando Ramírez, Georg Groh . ACL 2022. [PDF] [Code]
- SHIELD: Défendre des réseaux de neurones textuels contre plusieurs attaques adversaires de la boîte noire avec patcher stochastique multi-experts . Thai Le, Noseong Park, Dongwon Lee . ACL 2022. [PDF]
- Perturbations dans la nature: tirant parti des perturbations de texte écrites par l'homme pour une attaque et une défense adversaires réalistes . Thai LE, Jooyoung Lee, Kevin Yen, Yifan Hu, Dongwon Lee . ACL 2022 (résultats). [PDF]
- Atteindre la robustesse du modèle grâce à une formation contradictoire discrète . Maor Ivgi, Jonathan Berant . EMNLP 2021. [PDF] [CODE]
- Défense contre les attaques adversaires basées sur la substitution des synonymes via l'ensemble de quartier Dirichlet . Yi Zhou, Xiaoqing Zheng, Cho-Jui Hsieh, Kai-Wei Chang, Xuanjing Huang . ACL-IJCNLP 2021. [PDF]
- Un trou de lapin doux de Darcy: en utilisant des pots de miel pour détecter les attaques contradictoires de Universal Trigger . Thai Le, Noseong Park, Dongwon Lee . ACL-IJCNLP 2021. [PDF] [CODE]
- Meilleure robustesse par plus de couverture: augmentation des données adversaires et de mélange pour une fin de fintun . Chenglei SI, Zhengyan Zhang, Fanchao Qi, Zhiyuan Liu, Yasheng Wang, Qun Liu, Maosong Sun. Résultats d'ACL: ACL-IJCNLP 2021. [PDF] [CODE]
- Bert-Defense: un modèle probabiliste basé sur Bert pour lutter contre les attaques adversaires orthographiques inspirées de cognition . Yannik Keller, Jan Mackensen, Steffen Eger . Résultats d'ACL: ACL-IJCNLP 2021. [PDF] [CODE]
- Défendre des modèles de langue pré-formés à partir de la substitution de mots adversaires sans sacrifice de performance . Rongzhou Bao, Jiayi Wang, Hai Zhao . Résultats d'ACL: ACL-IJCNLP 2021. [PDF] [CODE]
- Augmentation adversaire du collecteur pour la traduction des machines neuronales . Guandan Chen, fan de Kai, Kaibo Zhang, Boxing Chen, Zhongqiang Huang . Résultats d'ACL: ACL-IJCNLP 2021. [PDF]
- Défense adversaire du langage naturel grâce à l'encodage synonyme . Xiaosé Wang, Hao Jin, Kun He . UAI 2021. [PDF] [Code]
- Formation contradictoire avec méthode de projection de gradient rapide contre les attaques de texte basées sur la substitution du synonyme . Xiaosé Wang, Yichen Yang, Yihe Deng, Kun He . AAAI 2021. [PDF] [Code]
- Substitutions de mots guidés par fréquence pour détecter des exemples adversaires textuels . Maximilian Mozes, Pontus Stenetorp, Bennett Kleinberg, Lewis D. Griffin . EACL 2021. [PDF] [Code]
- Vers la robustesse contre les substitutions des mots en langage naturel. Xinshuai Dong, Anh Tuan Luu, Rongrong Ji, Hong Liu. ICLR 2021. [PDF] [CODE]
- Infobert: Amélioration de la robustesse des modèles de langue dans une perspective théorique de l'information . Boxin Wang, Shuohang Wang, Yu Cheng, Zhe Gan, Ruoxi Jia, Bo Li, Jingjing Liu . ICLR 2021. [PDF] [CODE]
- Amélioration des modèles neuronaux avec vulnérabilité via une attaque adversaire . Rong Zhang, Qifei Zhou, Bo An, Weiping Li, Tong MO, Bo Wu . Coling 2020. [PDF] [Code]
- Apprentissage zéro contrastif pour le remplissage de créneaux inter-domaines avec attaque adversaire . Keqing He, Jinchao Zhang, Yuanmeng Yan, Weiran Xu, Cheng Niu, Jie Zhou . Coling 2020. [PDF]
- Attention à vos inflexions! Amélioration de la PNL pour les anglais non standard avec codage d'inflexion de base . Samson Tan, Shafiq Joty, Lav R. Varshney, Min-Yen Kan . EMNLP 2020. [PDF] [CODE]
- Encodages robustes: un cadre pour lutter contre les fautes de frappe adversaire . Erik Jones, Robin Jia, Aditi Raghunathan, Percy Liang . ACL 2020. [PDF] [Code]
- Mot de caractéristique conjoint Intégration du mot et formation de stabilité contradictoire pour défendre le texte contradictoire . Hui Liu, Yongzheng Zhang, Yipeng Wang, Zheng Lin, Yige Chen . AAAI 2020. [PDF]
- Une approche de formation contradictoire robuste de la compréhension de la lecture des machines . Kai Liu, Xin Liu, un Yang, Jing Liu, Jinsong Su, Sujian Li, Qiaoqiao She . AAAI 2020. [PDF]
- Freelb: formation accusatrice améliorée pour la compréhension du langage . Chen Zhu, Yu Cheng, Zhe Gan, Siqi Sun, Tom Goldstein, Jingjing Liu . Corr 2019. [PDF] [Code]
- Apprendre à discriminer les perturbations pour bloquer les attaques contradictoires dans la classification du texte . Yichao Zhou, Jyun-yu Jiang, Kai-Wei Chang, Wei Wang . EMNLP-IJCNLP 2019. [PDF] [CODE]
- Construisez-le Break It Fix It pour la sécurité du dialogue: robustesse de l'attaque humaine adversaire . Emily Dinan, Samuel Humeau, Bharath Chintagunta, Jason Weston . EMNLP-IJCNLP 2019. [PDF] [Données]
- Combattre les fautes d'orthographe adversaire avec une reconnaissance de mots robuste . Pruthi danois, Bhuwan Dhingra, Zachary C. Lipton . ACL 2019. [PDF] [Code]
- Modèles robustes à bruit dans les tâches de traitement du langage naturel . Valentin Malykh . ACL 2019. [PDF] [Code]
4. Robustesse certifiée
- Robustesse certifiée à l'attaque de substitution des mots par une confidentialité différentielle . Wenjie Wang, Pengfei Tang, Jian Lou, Li Xiong . NAACL-HLT 2021. [PDF]
- Analyse de perturbation automatique pour la robustesse certifiée évolutive et au-delà . Kaidi Xu, Zhouxing Shi, Huan Zhang, Yihan Wang, Kai-Wei Chang, Minlie Huang, Bhavya Kailkhura, Xue Lin, Cho-Jui Hsieh . Neirips 2020. [PDF] [Code]
- Plus sûr: une approche sans structure pour la robustesse certifiée aux substitutions de mots adversaires . Mao Ye, Chengyue Gong, Qiang Liu . ACL 2020. [PDF] [Code]
- Vérification de la robustesse pour les transformateurs . Zhouxing Shi, Huan Zhang, Kai-Wei Chang, Minlie Huang, Cho-Jui Hsieh . ICLR 2020. [PDF] [Code]
- Atteindre une robustesse vérifiée aux substitutions des symboles via une propagation liée à l'intervalle . Po-Sen Huang, Robert Stanforth, Johannes Welbl, Chris Dyer, Dani Yogatama, Sven Gowal, Krishnamurthy Dvijotham, Pushmeet Kohli . EMNLP-IJCNLP 2019. [PDF]
- Robustesse certifiée aux substitutions de mots adversaires . Robin Jia, Aditi Raghunathan, Kerem Göksel, Percy Liang . EMNLP-IJCNLP 2019. [PDF] [CODE]
- Popqorn: quantifier la robustesse des réseaux de neurones récurrents . Ching-Yun Ko, Zhaoyang Lyu, Lily Weng, Luca Daniel, Ngai Wong, Dahua Lin . ICML 2019. [PDF] [Code]
5. Benchmark and Evaluation
- DecodingTrust: Une évaluation complète de la fiabilité dans les modèles GPT . Boxin Wang, Weixin Chen, Hengzhi Pei, Chulin Xie, Mintong Kang, Chenhui Zhang, Chejian Xu, Zidi Xiong, Ritik Dutta, Rylan Schaeffer, Sang T. Truong, Simran Arora, Mantas Mazeika, Dan Hendrys, Dinan Chanson, bo li . Neirips 2023 (ensembles de données et repères de référence). [PDF] [Site Web]
- Préservation de la sémantique dans les attaques adversaires textuelles . David Herel, Hugo Cisneros, Tomas Mikolov . Ecai 2023. [PDF] [Code]
- Inciter GPT-3 à être fiable . Chenglei SI, Zhe Gan, Zhengyuan Yang, Shuohang Wang, Jianfeng Wang, Jordan Boyd-Graber, Lijuan Wang . ICLR 2023. [PDF] [CODE]
- Pourquoi les perturbations adversaires devraient-elles être imperceptibles? Repenser le paradigme de recherche dans la PNL adversaire . Yangyi Chen, Hongcheng Gao, Ganqu Cui, Fanchao Qi, Longtao Huang, Zhiyuan Liu, Maosong Sun. EMNLP 2022. [PDF] [Code et données]
- Interprétation de la robustesse des modèles NLP neuronaux aux perturbations textuelles. Yunxiang Zhang, Liangming Pan, Samson Tan, Min-Yen Kan . Résultats de l'ACL, 2022. [PDF]
- Exemples adversaires au niveau des mots humains et machines contrastés pour la classification du texte . Maximilian Mozes, Max Bartolo, Pontus Stenetorp, Bennett Kleinberg, Lewis D. Griffin . EMNLP 2021. [PDF] [CODE]
- Dynabench: Repenser l'analyse comparative dans la PNL. Douwe Kiela, Max Bartolo, Yixin Nie, Divyansh Kaushik, Atticus Geiger, Zhengxuan Wu, Bertie Vidgen, Grusha Prasad, Amanpreet Singh, Pratik Ringshia, Zhiyi Ma, Tristan Thrush, Robin Jia, Zeerak a été Bansal, Christopher Potts, Adina Williams . NAACL 2021. [PDF] [Site Web]
- Gale adversaire: une référence multi-tâches pour l'évaluation de la robustesse des modèles linguistiques. Boxin Wang, Chejian Xu, Shuohang Wang, Zhe Gan, Yu Cheng, Jianfeng Gao, Ahmed Hassan Awadallah, Bo Li . Neirips 2021 (ensembles de données et repères de référence). [PDF] [Site Web]
- Recherche d'un défenseur efficace: analyse comparative contre la substitution des mots adversaires. Zongyi Li, Jianhan Xu, Jiehang Zeng, Linyang Li, Xiaoqing Zheng, Qi Zhang, Kai-Wei Chang et Cho-Jui Hsieh . EMNLP 2021. [PDF]
- Double perturbation: sur la robustesse de la robustesse et de l'évaluation des biais contrefactuelles . Chong Zhang, Jieyu Zhao, Huan Zhang, Kai-Wei Chang et Cho-Jui Hsieh Naacl 2021. [PDF] [Code]
- Réévaluer des exemples adversaires en langage naturel . John Morris, Eli Lifland, Jack Lanchantin, Yangfeng JI, Yanjun Qi . Résultats d'ACL: EMNLP 2020. [PDF] [Code et données]
- De Hero à Zéroe: une référence d'attaques contradictoires de bas niveau . Steffen Eger, Yannik Benz . AACL-IJCNLP 2020. [PDF] [Code et données]
- NLI adversaire: une nouvelle référence pour la compréhension du langage naturel . Yixin Nie, Adina Williams, Emily Dinan, Mohit Bansal, Jason Weston, Douwe Kiela . ACL 2020. [PDF] [Demo] [DataSet & Leaderboard]
- Évaluation des modèles NLP via des ensembles de contrastes . Matt Gardner, Yoav Artzi, Victoria Basmova, Jonathan Berant, Ben Bogin, Sihao Chen, Pradeep Dasigi, Dheeru Dua, Yanai Elazar, Aanth Gottumukkala, Nitish Gupta, Hanna Hajishirzi, Gabriel ILharco, Danie Nelson F. Liu, Phoebe Mulcaire, Qiang Ning, Sameer Singh, Noah A. Smith, Sanjay Subramanian, Reut Tsarfaty, Eric Wallace, Ally Zhang, Ben Zhou . Résultats d'ACL: EMNLP 2020. [PDF] [Site Web]
- Sur l'évaluation des perturbations adversaires pour les modèles de séquence à séquence . Paul Michel, Xian Li, Graham Neubig, Juan Miguel Pino . NAACL-HLT 2019. [PDF] [Code]
6. Autres papiers
- Identification des stratégies humaines pour générer des exemples contradictoires au niveau des mots . Maximilian Mozes, Bennett Kleinberg, Lewis D. Griffin . Résultats de l'ACL: EMNLP 2022. [PDF]
- Lexicalat: une formation en renforcement adversaire à base de lexicale pour une classification des sentiments robuste . Jingjing Xu, Liang Zhao, Hanqi Yan, Qi Zeng, Yun Liang, Xu Sun. EMNLP-IJCNLP 2019. [PDF] [CODE]
- Incorporation visuelle-sémantique unifiée: pontant la vision et le langage avec des représentations de sens structurées . Hao Wu, Jiayuan Mao, Yufeng Zhang, Yuning Jiang, Lei Li, Weiwei Sun, Wei-ying MA . CVPR 2019. [PDF]
- Aventure: formation adversaire pour l'implication textuelle avec des exemples guidés par la connaissance . Dongyeop Kang, Tushar Khot, Ashish Sabharwal, Eduard Hovy . ACL 2018. [PDF] [Code]
- Apprendre la sémantique visuellement fondée sur des échantillons adversaires contrastifs . Haoyue Shi, Jiayuan Mao, Tete Xiao, Yuning Jiang, Jian Sun. Coling 2018. [PDF] [Code]
Contributeurs
Nous remercions tous les contributeurs de cette liste. Et d'autres contributions sont les bienvenues.