Must-Read-Papiere zu textlichen kontroversen Angriff und Verteidigung (Taad)
Diese Liste wird derzeit von Chenghao Yang in Uchicago gepflegt.
Andere frühere Hauptbeiträge, darunter Fanchao Qi und Yuan Zang, als sie in Thunlp waren.
Wir danken allen großen Mitwirkenden sehr.
Inhalt
- 0. Toolkits
- 1. Umfragepapiere
- 2. Angriffspapiere (nach Störungsstufe eingestuft)
- 2.1 Angriff auf Satzebene
- 2.2 Angriff auf Wortebene
- 2.3 Angriff auf Char-Ebene
- 2.4 Multi-Level-Angriff
- 3. Verteidigungsarbeiten
- 4.. Zertifizierte Robustheit
- 5. Benchmark und Bewertung
- 6. Andere Papiere
- Mitwirkende
0. Toolkits
- RobustQA: Ein Rahmen für die Analyse der kontroversen Textgenerierung zu Fragen Antwortsystemen . Yasaman Boreshban, Seyed Morteza Mirbostani, Seyedeh Fatemeh Ahmadi, Gita Shojaee, Fatemeh Kamani, Gholamreza Ghassem-sani, Seyed Abolghasem Mirroshandel . EMNLP 2022 Demo. [Codebase] [PDF]
- SEQUTTACK: Über kontroverse Angriffe für die genannte Entitätserkennung . Walter Simoncini, Gerasimos Spanakis . EMNLP 2021 Demo. [Website] [PDF]
- OpenAtChtack: Ein Open-Source-textuelles kontroverses Angriffs-Toolkit . Guoyang Zeng, Fanchao Qi, Qianrui Zhou, Tingji Zhang, Bairu Hou, Yuan Zang, Zhiyuan Liu, Maosong Sun. ACL-IJCNLP 2021 Demo. [Website] [DOC] [PDF]
- Textangriff: Ein Framework für kontroverse Angriffe, Datenvergrößerung und kontroverses Training in NLP . John Morris, Eli Lifland, Jin Yong Yoo, Jake Grigsby, Di Jin, Yanjun Qi . EMNLP 2020 Demo. [Website] [DOC] [PDF]
1. Umfragepapiere
- Messen und verbessern Sie die Robustheit in NLP -Modellen: eine Umfrage . Xuezhi Wang, Haohan Wang, Diyi Yang . NAACl 2022. [PDF]
- Auf einem robusten tiefen neuronalen Netzwerk in Texten: Eine Umfrage . Wenqi Wang, Lina Wang, Benxiao Tang, Run Wang, Aoshuang Ye . Tkde 2021. [PDF]
- Gegentliche Angriffe auf tiefe Lernmodelle in der Verarbeitung natürlicher Sprache: Eine Umfrage . Wei Emma Zhang, Quan Z. Sheng, Ahoud Alhazmi, Chenliang li . ACM TIST 2020. [PDF]
- Gegentliche Angriffe und Abwehrkräfte in Bildern, Grafiken und Text: Eine Rezension . Han Xu, Yao MA, Hao-Chen Liu, Debayan Deb, Hui Liu, Ji-Liang Tang, Anil K. Jain . Internationales Journal of Automation and Computing 2020. [PDF]
- Analysemethoden in der Verarbeitung neuronaler Sprache: Eine Umfrage . Yonatan Belinkov, James Glass . TACL 2019. [PDF]
2. Angriffspapiere
Jedes Papier ist an ein oder mehrere folgende Beschriftungen beigefügt, die angeben, wie viele Informationen das Angriffsmodell über das Opfermodell kennt: gradient (= white , alle Informationen), score (Ausgabeentscheidung und Bewertungen), decision (einzige Ausgabeentscheidung) und blind (Nichts)
2.1 Angriff auf Satzebene
- Verwenden von kontroversen Angriffen, um die statistische Tendenz in den maschinellen Leseverständnismodellen anzuzeigen . Jieyu Lin, Jiajie Zou, Nai Ding . ACL-IJCNLP 2021.
blind [PDF] - Grey-Box-Gegnerangriff und Verteidigung für die Klassifizierung der Gefühle . Ying Xu, Xu Zhong, Antonio Jimeno Yepes, Jey Han Lau . NAACl-HLT 2021.
gradient [PDF] [Code] - Erzeugen syntaktisch kontrollierter Paraphrasen ohne Verwendung kommentierter paralleler Paare . Kuan-Hao Huang und Kaiwei Chang . EACL 2021. [PDF] [Code]
- Cat-Gen: Verbesserung der Robustheit in NLP-Modellen durch kontrollierte kontroverse Textgenerierung . Tianlu Wang, Xuezhi Wang, Yao Qin, Ben Packer, Kang Lee, Jilin Chen, Alex Beutel, Ed Chi . EMNLP 2020.
score [PDF] - T3: Baum-Autoencoder-eingeschränkte kontroverse Textgenerierung für gezielte Angriffe . Boxin Wang, Hengzhi Pei, Boyuan Pan, Qian Chen, Shuohang Wang, Bo li . EMNLP 2020.
gradient [PDF] [Code] - Gegenteiler Angriff und Verteidigung strukturierter Vorhersagemodelle . Wenjuan Han, Liwen Zhang, Yong Jiang, Kewei Tu . EMNLP 2020.
blind [PDF] [Code] - MALCOM: Erzeugen Sie bösartige Kommentare, um neuronale Fake -News -Erkennungsmodelle anzugreifen . Thai Le, Suhang Wang, Dongwon Lee . ICDM 2020.
gradient [PDF] [Code] - Verbesserung der Robustheit von Fragen zur Beantwortung von Systemen zur Frage der Paraphrasieren . Wee Chung Gan, hwee tou ng . ACL 2019.
blind [PDF] [Daten] - Trick mich, wenn Sie können: Menschen in der Schleife Generation von widersprüchlichen Beispielen für die Beantwortung von Fragen . Eric Wallace, Pedro Rodriguez, Shi Feng, Ikuya Yamada, Jordan Boyd-Graber . TACL 2019.
score [PDF] - Pfoten: Umschaffung von Gegnern von Wortkrampfen . Yuan Zhang, Jason Baldridge, Luheng er . NAACL-HLT 2019.
blind [PDF] [Datensatz] - Bewertung und Verbesserung der Robustheit von Dialogsystemen: eine Fallstudie zu einem Verhandlungsagenten . Minhao Cheng, Wei Wei, Cho-Jui Hsieh . NAACL-HLT 2019.
gradient score [PDF] [Code] - Semantisch äquivalente ätzende Regeln für das Debuggen von NLP -Modellen . Marco Tulio Ribeiro, Sameer Singh, Carlos Guestrin . ACL 2018.
decision [PDF] [Code] - Kongorial regulieren neuronale NLI -Modelle zur Integration logischer Hintergrundwissen . Pasquale Minervini, Sebastian Riedel . Conll 2018.
score [PDF] [Code & Daten] - Robustes Maschinenverständnismodelle über kontroverses Training . Yicheng Wang, Mohit Bansal . NAACL-HLT 2018.
decision [PDF] [Datensatz] - Egovers Beispielgenerierung mit syntaktisch kontrollierten Paraphrase -Netzwerken . Mohit Iyyer, John Wieting, Kevin Gimpel, Luke Zettlemoyer . NAACL-HLT 2018.
blind [PDF] [Code & Daten] - Erzeugung natürlicher kontroverser Beispiele . Zhengli Zhao, Dheeru Dua, Sameer Singh . ICLR 2018.
decision [PDF] [Code] - Gegentliche Beispiele für die Bewertung von Leseverständnissystemen . Robin Jia, Percy Liang . EMNLP 2017.
score blind [ decision ] [Code] - Gegentliche Sets für die Regularisierung von Prädiktoren für neuronale Verbindung . Pasquale Minervini, Thomas Demeester, Tim Rocktäschel, Sebastian Riedel . UAI 2017.
score [PDF] [Code]
2.2 Angriff auf Wortebene
- Erweiterung des Geltungsbereichs: Anpassung an englische kontroverse Angriffe an Chinesisch . Hanyu Liu, Chengyuan Cai, Yanjun Qi . Ergebnisse der ACL 2023.
decision [PDF] [Code] - Gegentliche Textgenerierung durch Suche und Lernen . Guoyi Li, Bingkang Shi, Zongzhen Liu, Dehan Kong, Yulei Wu, Xiaodan Zhang, Longao Huang, Honglei Lyu . Ergebnisse von ACL 2023.
score [PDF] [Code] - Brücken Sie die Lücke zwischen CV und NLP! Ein gradientenbasiertes textbezogenes kontroverses Angriffsgerüst . Lifan Yuan, Yichi Zhang, Yangyi Chen, Wei Wei . Ergebnisse der ACL 2023.
decision [PDF] [Code] - TexThacker: Lernbasiertes hybrid lokaler Suchalgorithmus für Text Hard-Label-Gegner . Zhen Yu, Xiaosen Wang, Wanxiang Che, Kun HE . Ergebnisse von EMNLP 2022.
decision [PDF] [Code] - SMTHOAXER: Budgetierte kontroverse Hard-Label-Gegnerangriffe auf Text . Muchao Ye, Chenglin Miao, Ting Wang, Fenglong MA . AAAI 2022.
decision [PDF] [Code] - Queryeffiziente und skalierbare Schwarzbox-Gegnerangriffe auf diskrete sequentielle Daten durch Bayesian-Optimierung . Deokjae Lee, Seunggyong Moon, Junhyeok Lee, Hyun Oh Lied . ICML 2022.
score [PDF] [Code] - Semangt: Natürliche Textangriffe auf verschiedene semantische Räume . Boxin Wang, Chejian Xu, Xiangyu Liu, Yu Cheng, Bo li . Ergebnisse von NAACl 2022.
gradient [PDF] [Code] - Gegentliche Gegnerangriffe gegen Texttransformatoren . Chuan Guo, Alexandre Sablayrolles, Hervé Jégou, Douwe Kiela . EMNLP 2021.
gradient [PDF] [Code] - Eine starke Grundlinie für effiziente Angriffe in einer schwarzen Box . Rishabh Maheswary, Saket Maheshwary, Vikram Pudi . EMNLP 2021.
score [PDF] [Code] - Über die Übertragbarkeit von kontroversen Angriffen gegen den Klassifikator des neuronalen Textes . Liping Yuan, Xiaoqing Zheng, Yi Zhou, Cho-Jui Hsieh, Kaiwei Chang . EMNLP 2021. [PDF]
- Gegentliche Beispiele für die Übersetzung neuronaler Maschinen machen . Xinze Zhang, Junzhe Zhang, Zhenhua Chen, Kun HE . ACL-IJCNLP 2021.
score [PDF] [Code] - Eine empirische Studie zum kontroversen Angriff auf NMT: Sprachen und Positionen sind wichtig . Zhiyuan Zeng, Deyi Xiong . ACL-IJCNLP 2021.
score [PDF] - Ein genauerer Blick auf die Robustheit neuronaler Abhängigkeitsparsers mit besseren kontroversen Beispielen . Yuxuan Wang, Wanxiang Che, Ivan Titov, Shay B. Cohen, Zhilin Lei, Ting Liu . Ergebnisse von ACL: ACL-IJCNLP 2021.
score [PDF] [Code] - Kontextualisierte Störung des textlichen kontroversen Angriffs . Dianqi Li, Yizhe Zhang, Hao Peng, Liqun Chen, Chris Brockett, Ming-Ting-Sonne, Bill Dolan . NAACl-HLT 2021.
score [PDF] [Code] - Adv-olm: Erzeugen von Textgegner über OLM . Vijit Malik, Ashwani Bhat, Ashutosh Modi . EACL 2021.
score [PDF] [Code] - Konverselle Stylometrie in freier Wildbahn: Übertragbare lexikalische Substitutionsangriffe auf das Profilieren des Autors . Chris Emmery, Ákos Kádár, Grzegorz Chrupała . EACL 2021.
blind [PDF] [Code] - Erzeugen Sie natürliche Sprachangriffe in einer Hard -Label Black Box -Einstellung . Rishabh Maheshwary, Saket Maheshwary, Vikram Pudi . AAAI 2021.
decision [PDF] [Code] - Ein von Geometrie inspirierter Angriff zur Erzeugung natürlicher Sprachgegner . Zhao Meng, Roger Watttenhofer . Coling 2020.
gradient [PDF] [Code] - Bert-Angriff: Gegenteil gegen Bert mit Bert . Linyang Li, Ruotian MA, Qipeng Guo, Xiangyang Xue, Xipeng Qiu . EMNLP 2020.
score [PDF] [Code] - BAE: Bert-basierte kontroverse Beispiele für die Textklassifizierung . Siddhant Garg, Goutham Ramakrishnan . EMNLP 2020.
score [PDF] [Code] - Erkennung von Verzerrungen für Wortsinnserkennung in der maschinellen Übersetzung für modellagnostische kontroverse Angriffe . Denis Emelin, Ivan Titov, Rico Sennrich . EMNLP 2020.
blind [PDF] [Code] - Nachahmungsangriffe und Verteidigung für Black-Box-maschinelle Übersetzungssysteme . Eric Wallace, Mitchell Stern, Dawn Song . EMNLP 2020.
decision [PDF] [Code] - Robustheit zur Änderung mit gemeinsamen Wörtern in der Paraphrase -Identifizierung . Zhouxing Shi, Minlie Huang . Ergebnisse von ACL: EMNLP 2020.
score [PDF] - Textliche kontroverse Angriff auf Wortebene als kombinatorische Optimierung . Yuan Zang, Fanchao Qi, Chenghao Yang, Zhiyuan Liu, Meng Zhang, Qun Liu, Maosong Sun. ACL 2020.
score [PDF] [Code] - Es ist Morphin 'Zeit! Bekämpfung der sprachlichen Diskriminierung mit Beugungstörungen . Samson Tan, Shafiq Joty, Min-yen Kan, Richard Socker . ACL 2020.
score [PDF] [Code] - Über die Robustheit von Sprachcodierern gegen grammatikalische Fehler . Fan Yin, Quanyu Long, Tao Meng, Kaiwei Chang . ACL 2020.
score [PDF] [Code] - Bewertung und Verbesserung der Robustheit neuronaler netzwerkbasierter Abhängigkeits-Parsing-Modelle mit kontroversen Beispielen . Xiaoqing Zheng, Jiehang Zeng, Yi Zhou, Cho-Jui Hsieh, Minhao Cheng, Xuanjing Huang . ACL 2020.
gradient score [PDF] [Code] - Eine verstärkte Erzeugung von kontroversen Beispielen für die Übersetzung neuronaler Maschinen . Wei Zou, Shujian Huang, Jun Xie, Xinyu Dai, Jiajun Chen . ACL 2020.
decision [PDF] - Ist Bert wirklich robust? Eine starke Grundlage für natürliche Sprachangriffe auf die Textklassifizierung und die Einführung von Text . Di Jin, Zhijing Jin, Joey Tianyi Zhou, Peter Szolovits . AAAI 2020.
score [PDF] [Code] - SEQ2SICK: Bewertung der Robustheit von Sequenz-zu-Sequenz-Modellen mit gegnerischen Beispielen . Minhao Cheng, Jinfeng Yi, Pin-Yu Chen, Huan Zhang, Cho-Jui Hsieh . AAAI 2020.
score [PDF] [Code] - Gieriger Angriff und Gumbel -Angriff: Generieren von kontroversen Beispielen für diskrete Daten . Puyudi Yang, Jianbo Chen, Cho-Jui Hsieh, Jane-Lingwang, Michael I. Jordan . JMLR 2020.
score [PDF] [Code] - Über die Robustheit selbstansichter Modelle . Yu-Lun Hsieh, Minhao Cheng, Da-Cheng Juan, Wei Wei, Wen-Lian Hsu, Cho-Jui Hsieh . ACL 2019.
score [PDF] - Erzeugung natürlicher Sprachgegner Beispiele durch Wahrscheinlichkeit gewichtete Wortmals . Shuhuai Ren, Yihe Deng, Kun He, Wanxiang Che . ACL 2019.
score [PDF] [Code] - Erzeugen von fließenden widersprüchlichen Beispielen für natürliche Sprachen . Huangzhao Zhang, Hao Zhou, Ning Miao, Lei Li . ACL 2019.
gradient score [PDF] [Code] - Robuste Übersetzung der neuronalen maschinellen Übersetzung mit doppelten kontroversen Eingaben . Yong Cheng, Lu Jiang, Wolfgang Macherey . ACL 2019.
gradient [PDF] - Universelle kontroverse Angriffe auf Textklassifizierer . Melika Behjati, Seyed-Mohsen Moosavi-Dezfooli, Mahdieh Solymani Baghshah, Pascal Frossard . ICASSP 2019.
gradient [PDF] - Erzeugung natürlicher Sprachgegenteile . Moustafa Alzantot, Yash Sharma, Ahmed Elgohary, Bo-Jhang Ho, Mani Srivastava, Kai-Wei Chang . EMNLP 2018.
score [PDF] [Code] - Brechen von NLI -Systemen mit Sätzen, die einfache lexikalische Schlussfolgerungen erfordern . Max Glockner, Vered Shwartz, Yoav Goldberg . ACL 2018.
blind [PDF] [Datensatz] - Eine tiefe Textklassifizierung kann täuschen werden . Bin Liang, Hongcheng Li, Miaoqiang Su, Pan Bian, Xirong Li, Wenchang Shi . IJCAI 2018.
gradient score [PDF] - Interpretierbare kontroverse Störung in der Eingabeeinbettungsraum für Text . Sato, Motoki, Jun Suzuki, Hiroyuki Shindo, Yuji Matsumoto . IJCAI 2018.
gradient [PDF] [Code] - Zum Erstellen von Textgegenteilproben . Suranjana Samanta, Samep Mehta . ECIR 2018.
gradient [PDF] - Gegenteils -Eingangssequenzen für wiederkehrende neuronale Netzwerke basteln . Nicolas Papernot, Patrick McDaniel, Ananthram Swami, Richard Harang . Milcom 2016.
gradient [PDF]
2.3 Angriff auf Char-Ebene
- Überprüfung von gegnerischen Angriffen auf Charakterebene für Sprachmodelle . Elias Abad Rocamora , Yongtao Wu, Fanghui Liu, Grigorios G. Chrysos, Volkan Cevher, ICML 2024.
score blind gradient [PDF] [Code] - Vertattack: Horizontale Vision der Textklassifizierer nutzen . Jonathan Rusert , Naacl 2024.
score blind [PDF] - Angriff auf Interpunktionsebene: Single-Shot- und Single Interpunktion können Textmodelle täuschen . Wenqiang Wang, Chongyang du, Tao Wang, Kaihao Zhang, Wenhan Luo, Lin Ma, Wei Liu, Xiaochun Cao . Neurips 2023.
score blind [PDF] - Verwendung von Interpunktion als kontroversem Angriff auf tief lernbasierte NLP-Systeme: eine empirische Studie . Brian Formento, Chuan Sheng Foo, Luu anh Tuan, siehe Kiong Ng . EACL (Ergebnisse) 2023.
score blind [PDF] [Code] - Modellextraktion und kontroverse Übertragbarkeit, Ihre Bert ist anfällig! . Xuanli He, Lingjuan Lyu, Lichao Sun, Qiongkai Xu . NAACl-HLT 2021.
blind [PDF] [Code] - Textverarbeitung wie Menschen: NLP -Systeme visuell angreifen und abschirmen . Steffen Eger, Gözde Gül ¸sahin, Andreas Rücklé, Ji-Inung Lee, Claudia Schulz, Mohsen Mesgar, Krishnkant Swarnkar, Edwin Simpson, Iryna Gurevych . NAACL-HLT 2019.
blind [PDF] [Code & Daten] - Weiß-zu-Schwarz-Schwarz: Effiziente Streuung von Schwarzbox-kontroversen Angriffen . Syotam Gil, Yoav Chai oder Gorodissky, Jonathan Berant . NAACL-HLT 2019.
blind [PDF] [Code] - Black-Box-Erzeugung von kontroversen Textsequenzen, um Deep Learning-Klassifikatoren auszuweichen . Ji Gao, Jack Lanchantin, Mary Lou Soffa, Yanjun Qi . IEEE SPW 2018.
score [PDF] [Code] - Zu kontroversen Beispielen für die neuronale Maschinenübersetzung auf Charakterebene . Javid Ebrahimi, Daniel Lowd, Dejing Dou . Coling 2018.
gradient [PDF] [Code] - Synthetisches und natürliches Rauschen brechen beide neuronale maschinelle Übersetzung . Yonatan Belinkov, Yonatan Bisk . ICLR 2018.
blind [PDF] [Code & Daten]
2.4 Multi-Level-Angriff
- Ein LLM kann sich täuschen: ein prompt basierter kontroverser Angriff . Xilie Xu, Keyi Kong, Ning Liu, Lizhen Cui, Di Wang, Jingfeng Zhang, Mohan Kankanhalli . ICLR 2024.
blind [PDF] - Multi-Granularitäts-kontroverse Angriff mit Verhaltensklonen . Yangyi Chen, Jin Su, Wei Wei . EMNLP 2021.
blind [PDF] [Code] - Synthetisierende kontroverse negative Reaktionen für das robuste Reaktionsranking und die Bewertung . Prakhar Gupta, Yulia Tsvetkov, Jeffrey Bigham . Ergebnisse von ACL: ACL-IJCNLP 2021.
blind [PDF] [Code] - Code-Mischung in der Sesamstraße: Morgendämmerung der kontroverszen Polyglots . Samson Tan, Shafiq Joty . NAACl-HLT 2021.
score [PDF] [Code] - Universelle kontroverse Angriffe mit natürlichen Triggern für die Textklassifizierung . Liweig, Xinwei Yu, Hsuan-Tung Peng, Karthik Narasimhan . NAACl-HLT 2021.
gradient [PDF] [Code] - BBAEG: Auf dem Bert-biomedizinischen kontroversen Beispielerzeugung für die Textklassifizierung . Ishani Mondal . NAACl-HLT 2021.
score [PDF] [Code] - Nehmen Sie nicht „NSWVTNVAKGXPM“ für eine Antwort - die überraschende Anfälligkeit automatischer Inhaltsbewertungssysteme für die kontroversen Eingabe . Yuning Ding, Brian Riordan, Andrea Horbach, Aoife Cahill, Torsten Zesch . Coling 2020.
blind [PDF] [Code] - Universelle kontroverse Auslöser für das Angriff und die Analyse von NLP . Eric Wallace, Shi Feng, Nikhil Kandpal, Matt Gardner, Sameer Singh . EMNLP-IJCNLP 2019.
gradient [PDF] [Code] [Website] - TextBugger: Generieren von kontroversem Text gegen reale Anwendungen . Jinfeng Li, Shouling Ji, Tianyu du, Bo li, Ting Wang . NDSS 2019.
gradient score [PDF] - Generieren von schwarz-box-kontroversen Beispielen für Textklassifizierer mit einem tief verstärkten Modell . Prashanth Vijayaraghavan, Deb Roy . ECMLPKDD 2019.
score [PDF] - HOTFLIP: Egfar-Beispiele für die Textklassifizierung . Javid Ebrahimi, Anyi Rao, Daniel Lowd, Dejing Dou . ACL 2018.
gradient [PDF] [Code] - Konverselle Überempfindlichkeit und Übersteuerungsstrategien für Dialogmodelle . Tong Niu, Mohit Bansal . Conll 2018.
blind [PDF] [Code & Daten] - Vergleich des aufmerksamkeitsbasierten Faltungs- und wiederkehrenden neuronalen Netzwerke: Erfolg und Einschränkungen beim Leseverständnis von Maschinen . Matthias Blohm, Glorianna Jagfeld, Ekta Sood, Xiang Yu, Ngoc Thang Vu . Conll 2018.
gradient [PDF] [Code]
3. Verteidigungsarbeiten
- Sind AI-generierte Textdetektoren für kontroverse Störungen robust? Guanhua Huang, Yuchen Zhang, Zhe Li, Yongjian You, Mingze Wang und Zhouwang Yang. ACL 2024. [PDF] [Code]
- SEMRODE: MAKRO-kontroverses Training zum Erlernen von Darstellungen, die für Angriffe auf Wortebene robust sind . Brian Formento, Wenjie Feng, Chuan-Sheng Foo, Anh Tuan Luu, See-Kiong Ng . NAACl 2024. [PDF] [Code]
- DSRM: Steigern Sie das kontroverse textversariale Training mit der Minimierung des Verteilungsverschiebungsrisikos . Songyang Gao, Shihan Dou, Yan Liu, Xiao Wang, Qi Zhang, Zhongyu Wei, Jin MA, Ying Shan . ACL 2023. [PDF] [Code]
- Generatives kontroverses Training mit gestörter Token -Erkennung für Modellrobustheit . Jiahao Zhao, Wenji Mao . EMNLP 2023. [PDF] [Code]
- Texuelle Verteilerverteidigung gegen natürliche Sprachgegner . Dang Minh Nguyen, Luu anh Tuan . EMNLP 2022. [PDF] [Code]
- Erkennen von gegnerischen Textangriffen auf Wortebene über Shapley-additive Erklärungen . Lukas Huber, Marc Alexander Kühn, Edoardo Mosca, Georg Groh . Repl4nlp@acl 2022. [PDF] [Code]
- Erkennung von kontroversen Beispielen in der Textklassifizierung: Benchmark und Basislinie über eine robuste Schätzung der Dichte . Kiyoon Yoo, Jangho Kim, Jiho Jang, Nojun Kwawk . ACL 2022 (Ergebnisse). [PDF] [Code]
- "Das ist eine verdächtige Reaktion!" Edoardo Mosca, Shreyash Agarwal, Javier Rando Ramírez, Georg Groh . ACL 2022. [PDF] [Code]
- Shield: Verteidigung von textlichen neuronalen Netzwerken gegen mehrere schwarz-Box-Gegnerangriffe mit stochastischem Multi-Experten-Patcher . Thai Le, Noseong Park, Dongwon Lee . ACL 2022. [PDF]
- Störungen in freier Wildbahn: Nutzung menschlich geschriebener Textstörungen für realistische kontroverse Angriff und Verteidigung . Thai Le, Jooyoung Lee, Kevin Yen, Yifan Hu, Dongwon Lee . ACL 2022 (Ergebnisse). [PDF]
- Erzielen Sie die Robustheit der Modell durch diskrete Gegner . Maor Ivgi, Jonathan Berant . EMNLP 2021. [PDF] [Code]
- Verteidigung gegen synonyms Substitutionsbasierte kontroverse Angriffe über Dirichlet Neighborhood Ensemble . Yi Zhou, Xiaoqing Zheng, Cho-Jui Hsieh, Kaiwei Chang, Xuanjing Huang . ACL-IJCNLP 2021. [PDF]
- Ein süßes Kaninchenloch von Darcy: Verwenden von Honeypots, um die kontroversen Angriffe von Universal Trigger zu erkennen . Thai Le, Noseong Park, Dongwon Lee . ACL-IJCNLP 2021. [PDF] [Code]
- Bessere Robustheit durch mehr Berichterstattung: Gegner- und Mischdatenvergrößerung für robuste Finetuning . Chenglei SI, Zhengyan Zhang, Fanchao Qi, Zhiyuan Liu, Yasheng Wang, Qun Liu, Maosong Sun. Ergebnisse von ACL: ACL-IJCNLP 2021. [PDF] [Code]
- Bert-Defense: Ein probabilistisches Modell, das auf Bert basiert, um kognitiv inspirierte orthografische kontroverse Angriffe zu bekämpfen . Yannik Keller, Jan MacKensen, Steffen Eger . Ergebnisse von ACL: ACL-IJCNLP 2021. [PDF] [Code]
- Verteidigung von vorgeborenen Sprachmodellen vor dem gegenseitigen Word-Substitution ohne Leistungsopfer . Rongzhou Bao, Jiayi Wang, Hai Zhao . Ergebnisse von ACL: ACL-IJCNLP 2021. [PDF] [Code]
- Verwirrungsgegner -Vergrößerung für die Übersetzung neuronaler maschineller Übersetzung . Guandan Chen, Kai Fan, Kaibo Zhang, Boxing Chen, Zhongqiang Huang . Ergebnisse von ACL: ACL-IJCNLP 2021. [PDF]
- Natürliche Sprachgegner -Verteidigung durch Synonym -Codierung . Xiaosen Wang, Hao Jin, Kun HE . UAI 2021. [PDF] [Code]
- Gegentes Training mit schneller Gradientenprojektionsmethode gegen Synonymsubstitutionsbasis -Textangriffe . Xiaosen Wang, Yichen Yang, Yihe Deng, Kun HE . AAAI 2021. [PDF] [Code]
- Frequenzgesteuerte Wortsubstitutionen zum Erkennen von textuellen widersprüchlichen Beispielen . Maximilian Mozes, Pontus Stenetorp, Bennett Kleinberg, Lewis D. Griffin . EACL 2021. [PDF] [Code]
- In Richtung Robustheit gegen natürliche Sprache Worts Substitutionen. Xinshuai Dong, Anh Tuan Luu, Rongrong JI, Hong Liu. ICLR 2021. [PDF] [Code]
- Infobert: Verbesserung der Robustheit von Sprachmodellen aus einer Informationstheoretik . Boxin Wang, Shuohang Wang, Yu Cheng, Zhe Gan, Ruoxi Jia, Bo li, Jingjing Liu . ICLR 2021. [PDF] [Code]
- Verbesserung der neuronalen Modelle mit Anfälligkeit durch kontroversen Angriffe . Rong Zhang, Qifeei Zhou, Bo an, weh Li, Tong Mo, Bo Wu . Coling 2020. [PDF] [Code]
- Kontrastives Null-Shot-Lernen für Cross-Domänen-Schlitzfüllung mit einem Angriff . Keqing He, Jinchao Zhang, Yuanmeng Yan, Weiran Xu, Cheng Niu, Jie Zhou . Coling 2020. [PDF]
- Achten Sie auf Ihre Beugung! Verbesserung der NLP für nicht standardmäßige Englisch mit Basis-Inflexcodierung . SAMSON TAN, SHAFIQ JOTY, LAV R. VARSHEY, MIN-YEN KAN . EMNLP 2020. [PDF] [Code]
- Robuste Codierungen: Ein Rahmen für die Bekämpfung von kontroversen Tippfehler . Erik Jones, Robin Jia, Aditi Raghunathan, Percy Liang . ACL 2020. [PDF] [Code]
- Joint-Charakter-Level-Worteinbettung und kontroverses Stabilitätstraining zur Verteidigung des kontroversen Textes . Hui Liu, Yongzheng Zhang, Yipeng Wang, Zheng Lin, Yige Chen . AAAI 2020. [PDF]
- Ein robuster kontroverser Trainingsansatz für das Leseverständnis des Maschinenverständnisses . Kai Liu, Xin Liu, ein Yang, Jing Liu, Jinsong Su, Sujian Li, Qiaoqiao sie . AAAI 2020. [PDF]
- Freelb: Verbessertes kontroverses Training für das Sprachverständnis . Chen Zhu, Yu Cheng, Zhe Gan, Siqi Sun, Tom Goldstein, Jingjing Liu . Corr 2019. [PDF] [Code]
- Lernen, Störungen zur Blockierung von gegnerischen Angriffen in der Textklassifizierung zu unterscheiden . Yichao Zhou, Jyun-yu Jiang, Kaiwei Chang, Wei Wang . EMNLP-IJCNLP 2019. [PDF] [Code]
- Bauen Sie es auf, um es für den Dialogsicherheit zu beheben: Robustheit durch den kontroversen menschlichen Angriff . Emily Dinan, Samuel Humeau, Bharath Chintagunta, Jason Weston . EMNLP-IJCNLP 2019. [PDF] [Daten]
- Bekämpfung von widersprüchlichen Missschreibungen mit robuster Worterkennung . Dänischer Pruthi, Bhuwan Dhingra, Zachary C. Lipton . ACL 2019. [PDF] [Code]
- Robust-to-Noise-Modelle bei Aufgaben der natürlichen Sprachverarbeitung . Valentin Malykh . ACL 2019. [PDF] [Code]
4.. Zertifizierte Robustheit
- Zertifizierte Robustheit für Wortsubstitutionsangriffe mit unterschiedlicher Privatsphäre . Wenjie Wang, Pengfei Tang, Jian Lou, Li Xiong . NAACl-HLT 2021. [PDF]
- Automatische Störungsanalyse für skalierbare zertifizierte Robustheit und darüber hinaus . Kaidi Xu, Zhouxing Shi, Huan Zhang, Yihan Wang, Kaiwei Chang, Minlie Huang, Bhavya Kailkhura, Xue Lin, Cho-Jui Hsieh . Neurips 2020. [PDF] [Code]
- Sicherer: Ein strukturfreier Ansatz für die zertifizierte Robustheit gegenüber kontroversen Worts Substitutionen . Mao Ye, Chengyue Gong, Qiang Liu . ACL 2020. [PDF] [Code]
- Robustheitsprüfung für Transformatoren . Zhouxing Shi, Huan Zhang, Kaiwei Chang, Minlie Huang, Cho-Jui Hsieh . ICLR 2020. [PDF] [Code]
- Erzielung der verifizierten Robustheit gegenüber Symbolsubstitutionen durch intervallgebundene Ausbreitung . Po-Sen Huang, Robert Stanforth, Johannes Welbl, Chris Dyer, Dani Yogatama, Sven Gowal, Krishnamurthy Dvijotham, Pushmeet Kohli . EMNLP-IJCNLP 2019. [PDF]
- Zertifizierte Robustheit gegenüber kontroversem Wortnetz . Robin Jia, Aditi Raghunathan, Kerem Göksel, Percy Liang . EMNLP-IJCNLP 2019. [PDF] [Code]
- Popqorn: Quantifizierung der Robustheit wiederkehrender neuronaler Netzwerke . Ching-yun Ko, Zhaoyang Lyu, Lily Weng, Luca Daniel, Ngai Wong, Dahua Lin . ICML 2019. [PDF] [Code]
5. Benchmark und Bewertung
- DecodingTrust: Eine umfassende Bewertung der Vertrauenswürdigkeit in GPT -Modellen . Boxin Wang, Weixin Chen, Hengzhi Pei, Chulin Xie, Mintong Kang, Chenhui Zhang, Chejian Xu, Zidi Xiong, Ritik Dutta, Rylan Schaeffer, Sang T. Truong, Simran Arora, Mantas Mazeika, Dan Hendrycks, Zinan Lin, Yu Cheng, Sanmi Koyejo, Dawn Lied, Bo li . Neurips 2023 (Datensätze und Benchmarks Track). [PDF] [Website]
- Erhaltung der Semantik bei textlichen kontroversen Angriffen . David Herel, Hugo Cisneros, Tomas Mikolov . ECAI 2023. [PDF] [Code]
- Aufforderung an GPT-3, zuverlässig zu sein . Chenglei Si, Zhe Gan, Zhengyuan Yang, Shuohang Wang, Jianfeng Wang, Jordan Boyd-Graber, Lijuan Wang . ICLR 2023. [PDF] [Code]
- Warum sollten Gegnerstörungen nicht wahrnehmbar sein? Überdenken Sie das Forschungsparadigma im kontroversen NLP . Yangyi Chen, Hongcheng Gao, Ganqu Cui, Fanchao Qi, Longao Huang, Zhiyuan Liu, Maosong Sun. EMNLP 2022. [PDF] [Code & Daten]
- Interpretation der Robustheit neuronaler NLP -Modelle für textuelle Störungen. Yunxiang Zhang, Liangming Pan, Samson Tan, Min-yen Kan . Ergebnisse von ACL, 2022. [PDF]
- Kontrastierende kontrastierende kontroverse Beispiele für maschinengenerierte Wortebene für die Textklassifizierung . Maximilian Mozes, Max Bartolo, Pontus Stenetorp, Bennett Kleinberg, Lewis D. Griffin . EMNLP 2021. [PDF] [Code]
- Dynabench: Benchmarking in NLP überdenken. Douwe Kiela, Max Bartolo, Yixin Nie, Divyansh Kaushik, Atticus Geiger, Zhengxuan Wu, Bertie Vidgen, Grusha Prasad, Amanpreet Singh, Pratik Ringshia, Zhiyi MA, Tristan Thrush, Sbastian Riedel, Zeerak, Pontus Stenetan, Sebastian Riedel, Zeerak, Pontus Stenetan, Sbastian Riedel, Zeerak, Pontus Stenetan, Sbastian Riese, Zeerak, Pontus Stenetan, Sebastian Riedel, Zeerak, Pontus St. Bansal, Christopher Potts, Adina Williams . NAACL 2021. [PDF] [Website]
- VERTRAGSFLUSE: Ein Multi-Task-Benchmark für die Robustheitsbewertung von Sprachmodellen. Boxin Wang, Chejian Xu, Shuohang Wang, Zhe Gan, Yu Cheng, Jianfeng Gao, Ahmed Hassan Awadallah, Bo li . Neurips 2021 (Datensätze und Benchmarks Track). [PDF] [Website]
- Auf der Suche nach einem effizienten Verteidiger: Benchmarking -Verteidigung gegen die Substitution des kontroversen Wortes. Zongyi Li, Jianhan Xu, Jiehang Zeng, Linyang Li, Xiaoqing Zheng, Qi Zhang, Kaiwei Chang und Cho-Jui Hsieh . EMNLP 2021. [PDF]
- Doppelte Störung: Über die Robustheit der Robustheit und der Bewertung der kontrafaktischen Vorspannung . Chong Zhang, Jieyu Zhao, Huan Zhang, Kaiwei Chang und Cho-Jui Hsieh Naacl 2021. [PDF] [Code]
- Realuieren von kontroversen Beispielen in der natürlichen Sprache . John Morris, Eli Lifland, Jack Lanchantin, Yangfeng Ji, Yanjun Qi . Ergebnisse von ACL: EMNLP 2020. [PDF] [Code & Daten]
- Vom Helden bis Zéroe: Ein Maßstab für kontroverse Niveau-Angriffe . Steffen Eger, Yannik Benz . AACL-IJCNLP 2020. [PDF] [Code & Daten]
- Gegentliche NLI: Ein neuer Benchmark für das Verständnis der natürlichen Sprache . Yixin Nie, Adina Williams, Emily Dinan, Mohit Bansal, Jason Weston, Douwe Kiela . ACL 2020. [PDF] [Demo] [Datensatz & Rangliste]
- Bewertung von NLP -Modellen über Kontrastsätze . Matt Gardner, Yoav Artzi, Victoria Basmova, Jonathan Berant, Ben Bogin, Sihao Chen, Pradeep Dasigi, Dheeru Dua, Yanai Elazar, Ananth Gottumukkala, Nitish Gupta, Hanna Hajishirzi, Gabriel Ilharco, Daniel Khashabi, Kevin Lin, Jiangming Liu, Nelson F. Liu, Phoebe Mulcaire, Qiang Ning, Sameer Singh, Noah A. Smith, Sanjay Subramanian, Reutniener Tsarfaty, Eric Wallace, Ally Zhang, Ben Zhou . Ergebnisse von ACL: EMNLP 2020. [PDF] [Website]
- Zur Bewertung von kontroversen Störungen für Sequenz-zu-Sequenz-Modelle . Paul Michel, Xian Li, Graham Neuubig, Juan Miguel Pino . NAACL-HLT 2019. [PDF] [Code]
6. Andere Papiere
- Identifizierung menschlicher Strategien zur Erzeugung von kontroversen Beispielen auf Wortebene . Maximilian Mozes, Bennett Kleinberg, Lewis D. Griffin . Ergebnisse von ACL: EMNLP 2022. [PDF]
- LEXICALAT: Lexikalbasierte kontroverse Verstärkungstraining für eine robuste Stimmungsklassifizierung . Jingjing Xu, Liang Zhao, Hanqi Yan, Qi Zeng, Yun Liang, Xu Sun. EMNLP-IJCNLP 2019. [PDF] [Code]
- Einheitliche visuell-semantische Einbettungen: Überbrückung von Vision und Sprache mit strukturierten Bedeutungsdarstellungen . Hao Wu, Jiyuan Mao, Yufeng Zhang, Yuning Jiang, Lei Li, Weiwei Sonne, Weiging Ma . CVPR 2019. [PDF]
- Abenteuer: Gegentes Training für Textbeschaffung mit wissensgeführten Beispielen . Dongyeop Kang, Tushar Khot, Ashish Sabharwal, Eduard Hovy . ACL 2018. [PDF] [Code]
- Lernen visuell geweihter Semantik aus kontrastiven kontroversen Proben . Haoyue Shi, Jiyuan Mao, Tete Xiao, Yuning Jiang, Jian Sun. Coling 2018. [PDF] [Code]
Mitwirkende
Wir danken allen Mitwirkenden dieser Liste. Und weitere Beiträge sind sehr willkommen.