Makalah yang harus dibaca tentang serangan permusuhan dan pertahanan tekstual (TAAD)
Daftar ini saat ini dikelola oleh Chenghao Yang di Uchicago.
Kontributor utama lainnya sebelumnya termasuk Fanchao Qi, dan Yuan Zang ketika mereka berada di Thunlp.
Kami berterima kasih banyak kepada semua kontributor hebat.
Isi
- 0. Toolkit
- 1. Makalah Survei
- 2. Kertas Serangan (diklasifikasikan menurut tingkat gangguan)
- 2.1 Serangan Tingkat Kalimat
- 2.2 Serangan Level Kata
- 2.3 Serangan Level Char
- 2.4 Serangan multi-level
- 3. Kertas Pertahanan
- 4. Ketahanan Bersertifikat
- 5. Benchmark dan Evaluasi
- 6. Makalah Lainnya
- Kontributor
0. Toolkit
- RobustQA: Kerangka kerja untuk analisis pembuatan teks permusuhan pada sistem penjawab pertanyaan . Yasaman Boreshban, Seyed Morteza Mirbostani, Seyedeh Fatemeh Ahmadi, Gita Shojaee, Fatemeh Kamani, Gholamreza Ghassem-Sani, Seyed Abolghasem Mirroshandel . Demo EMNLP 2022. [CodeBase] [PDF]
- Seqattack: tentang serangan permusuhan untuk pengakuan entitas yang disebutkan . Walter Simoncini, Gerasimos Spanakis . Demo EMNLP 2021. [Situs web] [PDF]
- OpenAttack: Toolkit serangan permusuhan tekstual open-source . Guoyang Zeng, Fanchao Qi, Qianrui Zhou, Tingji Zhang, Bairu Hou, Yuan Zang, Zhiyuan Liu, Maosong Sun. Demo ACL-IJCNLP 2021. [Situs web] [DOC] [PDF]
- TextAttack: Kerangka kerja untuk serangan permusuhan, augmentasi data, dan pelatihan permusuhan di NLP . John Morris, Eli Lifland, Jin Yong Yoo, Jake Grigsby, Di Jin, Yanjun Qi . Demo EMNLP 2020. [Situs web] [DOC] [PDF]
1. Makalah Survei
- Mengukur dan meningkatkan ketahanan dalam model NLP: survei . Xuezhi Wang, Haohan Wang, Diyi Yang . NAACL 2022. [PDF]
- Menuju jaringan saraf dalam yang kuat dalam teks: survei . Wenqi Wang, Lina Wang, Benxiao Tang, Run Wang, Aoshuang Ye . TKDE 2021. [PDF]
- Serangan permusuhan pada model pembelajaran yang mendalam dalam pemrosesan bahasa alami: survei . Wei Emma Zhang, Quan Z. Sheng, Ahoud Alhazmi, Chenliang Li . Acm tist 2020. [PDF]
- Serangan permusuhan dan pertahanan dalam gambar, grafik, dan teks: ulasan . Han Xu, Yao MA, Hao-Chen Liu, Debayan Deb, Hui Liu, Ji-Liang Tang, Anil K. Jain . Jurnal Internasional Otomasi dan Komputasi 2020. [PDF]
- Metode Analisis dalam Pemrosesan Bahasa Saraf: Survei . Yonatan Belinkov, James Glass . TACL 2019. [PDF]
2. Kertas Serangan
Setiap makalah dilampirkan pada satu atau lebih label berikut yang menunjukkan berapa banyak informasi yang diketahui model serangan tentang model korban : gradient (= white , semua informasi), score (keputusan output dan skor), decision (hanya keputusan output) dan blind (tidak ada)
2.1 Serangan Tingkat Kalimat
- Menggunakan serangan permusuhan untuk mengungkapkan bias statistik dalam model pemahaman pembacaan mesin . Jieyu Lin, Jiajie Zou, Nai Ding . ACL-IJCNLP 2021.
blind [PDF] - Serangan permusuhan dan pertahanan kotak-abu-kotak untuk klasifikasi sentimen . Ying Xu, Xu Zhong, Antonio Jimeno Yepes, Jey Han Lau . NAACL-HLT 2021.
gradient [PDF] [Kode] - Menghasilkan parafrase yang dikendalikan secara sintaksis tanpa menggunakan pasangan paralel beranotasi . Kuan-Hao Huang dan Kai-Wei Chang . EACL 2021. [PDF] [Kode]
- Cat-Gen: Meningkatkan ketahanan dalam model NLP melalui pembuatan teks permusuhan yang terkontrol . Tianlu Wang, Xuezhi Wang, Yao Qin, Ben Packer, Kang Lee, Jilin Chen, Alex Beutel, Ed Chi . EMNLP 2020.
score [PDF] - T3: Tree-Autoencoder membatasi generasi teks permusuhan untuk serangan yang ditargetkan . Boxin Wang, Hengzhi Pei, Boyuan Pan, Qian Chen, Shuohang Wang, Bo Li . EMNLP 2020.
gradient [PDF] [Kode] - Serangan permusuhan dan pertahanan model prediksi terstruktur . Wenjuan Han, Liwen Zhang, Yong Jiang, Kei Tu . EMNLP 2020.
blind [PDF] [Kode] - MALCOM: Menghasilkan komentar jahat untuk menyerang model deteksi berita palsu saraf . Thai Le, Suhang Wang, Dongwon Lee . ICDM 2020.
gradient [PDF] [Kode] - Meningkatkan ketahanan sistem penjawab pertanyaan untuk mempertanyakan parafrase . Wee Chung Gan, Hwee Tou Ng . ACL 2019.
blind [PDF] [Data] - Trik saya jika Anda bisa: Generasi manusia-in-the-loop dari contoh-contoh permusuhan untuk menjawab pertanyaan . Eric Wallace, Pedro Rodriguez, Shi Feng, Ikuya Yamada, Jordan Boyd-Graber . TACL 2019.
score [PDF] - PAWS: musuh parafrase dari perebutan kata . Yuan Zhang, Jason Baldridge, Luheng He . NAACL-HLT 2019.
blind [PDF] [Dataset] - Mengevaluasi dan meningkatkan ketahanan sistem dialog: studi kasus pada agen negosiasi . Minhao Cheng, Wei Wei, Cho-Jui Hsieh . NAACL-HLT 2019.
score gradient [PDF] [Kode] - Aturan permusuhan yang setara secara semantik untuk debugging model NLP . Marco Tulio Ribeiro, Sameer Singh, Carlos Guestrin . ACL 2018.
decision [PDF] [Kode] - Secara permusuhan mengatur model NLI saraf untuk mengintegrasikan pengetahuan latar belakang logis . Pasquale Minervini, Sebastian Riedel . Conll 2018.
score [PDF] [Kode & Data] - Model pemahaman mesin yang kuat melalui pelatihan permusuhan . Yicheng Wang, Bansal Mohit . NAACL-HLT 2018.
decision [PDF] [Dataset] - Generasi contoh permusuhan dengan jaringan parafrase yang dikendalikan secara sintaksis . Mohit Iyyer, John Wieting, Kevin Gimpel, Luke Zettlemoyer . NAACL-HLT 2018.
blind [PDF] [Kode & Data] - Menghasilkan contoh permusuhan alami . Zhengli Zhao, Dheeru Dua, Sameer Singh . ICLR 2018.
decision [PDF] [Kode] - Contoh permusuhan untuk mengevaluasi sistem pemahaman membaca . Robin Jia, Percy Liang . EMNLP 2017.
decision score blind [PDF] [Kode] - Set permusuhan untuk mengatur prediktor tautan saraf . Pasquale Minervini, Thomas Demeester, Tim Rocktäschel, Sebastian Riedel . UAI 2017.
score [PDF] [Kode]
2.2 Serangan Level Kata
- Memperluas ruang lingkup: Mengadaptasi serangan permusuhan bahasa Inggris terhadap Cina . Hanyu Liu, Chengyuan Cai, Yanjun Qi . Temuan ACL 2023.
decision [PDF] [Kode] - Generasi teks bermusuhan dengan mencari dan belajar . Guoyi Li, Bingkang Shi, Zongzhen Liu, Dehan Kong, Yulei Wu, Xiaodan Zhang, Longtao Huang, Honglei Lyu . Temuan ACL 2023.
score [PDF] [Kode] - Jembatan kesenjangan antara CV dan NLP! Kerangka serangan permusuhan tekstual berbasis gradien . Lifan Yuan, Yichi Zhang, Yangyi Chen, Wei Wei . Temuan ACL 2023.
decision [PDF] [Kode] - Texthacker: Algoritma Pencarian Lokal Berbasis Pembelajaran untuk Serangan Perhimpunan Label Hard-Label . Zhen Yu, Xiaosen Wang, Wanxiang Che, Kun He . Temuan EMNLP 2022.
decision [PDF] [Kode] - Texthoaxer: Serangan permusuhan hard-label yang dianggarkan pada teks . Muchao Ye, Chenglin Miao, Ting Wang, Fenglong MA . AAAI 2022.
decision [PDF] [Kode] - Serangan permusuhan kotak hitam-efisien dan skalabel pada data berurutan diskrit melalui optimasi Bayesian . Deokjae Lee, Seungyong Moon, Junhyeok Lee, Hyun Oh Song . ICML 2022.
score [PDF] [Kode] - Semattack: Serangan tekstual alami pada ruang semantik yang berbeda . Boxin Wang, Chejian Xu, Xiangyu Liu, Yu Cheng, Bo Li . Temuan NAACL 2022.
gradient [PDF] [Kode] - Serangan permusuhan berbasis gradien terhadap transformator teks . Chuan Guo, Alexandre Sablayrolles, Hervé Jégou, Douwe Kiela . EMNLP 2021.
gradient [PDF] [Kode] - Baseline yang kuat untuk serangan efisien kueri dalam pengaturan kotak hitam . Rishabh Maheswary, Saket Maheshwary, Vikram Pudi . EMNLP 2021.
score [PDF] [Kode] - Tentang transferabilitas serangan permusuhan terhadap pengklasifikasi teks saraf . Liping Yuan, Xiaoqing Zheng, Yi Zhou, Cho-Jui Hsieh, Kai-Wei Chang . EMNLP 2021. [PDF]
- Membuat contoh -contoh permusuhan untuk terjemahan mesin saraf . Xinze Zhang, Junzhe Zhang, Zhenhua Chen, Kun He . ACL-IJCNLP 2021.
score [PDF] [Kode] - Sebuah studi empiris tentang serangan permusuhan pada NMT: Bahasa dan posisi penting . Zhiyuan Zeng, Deyi Xiong . ACL-IJCNLP 2021.
score [PDF] - Pandangan yang lebih dekat ke ketahanan parser ketergantungan saraf menggunakan contoh permusuhan yang lebih baik . Yuxuan Wang, Wanxiang Che, Ivan Titov, Shay B. Cohen, Zhilin Lei, Ting Liu . Temuan ACL: ACL-IJCNLP 2021.
score [PDF] [Kode] - Gangguan kontekstual untuk serangan permusuhan tekstual . Dianqi Li, Yizhe Zhang, Hao Peng, Liqun Chen, Chris Brockett, Ming-Ting Sun, Bill Dolan . NAACL-HLT 2021.
score [PDF] [Kode] - Adv-OLM: Menghasilkan musuh tekstual melalui OLM . Vijit Malik, Ashwani Bhat, Ashutosh Modi . EACL 2021.
score [PDF] [Kode] - Stylometry permusuhan di alam liar: serangan substitusi leksikal yang dapat ditransfer pada profil penulis . Chris Emmery, ákos Kádár, Grzegorz Chrupała . EACL 2021.
blind [PDF] [Kode] - Menghasilkan serangan bahasa alami dalam pengaturan kotak hitam label keras . Rishabh Maheshwary, Saket Maheshwary, Vikram Pudi . AAAI 2021.
decision [PDF] [Kode] - Serangan yang diilhami oleh geometri untuk menghasilkan contoh-contoh permusuhan bahasa alami . Zhao Meng, Roger Wattenhofer . Coling 2020.
gradient [PDF] [Kode] - Bert-serangan: Serangan permusuhan terhadap Bert menggunakan Bert . Linyang Li, Ruotian MA, Qipeng Guo, Xiangyang Xue, Xipeng Qiu . EMNLP 2020.
score [PDF] [Kode] - BAE: Contoh permusuhan berbasis Bert untuk klasifikasi teks . Siddhant Garg, Goutham Ramakrishnan . EMNLP 2020.
score [PDF] [Kode] - Mendeteksi Word Sense Disambiguation Biases dalam Terjemahan Mesin untuk Serangan Perselisihan Model-Agnostik . Denis Emelin, Ivan Titov, Rico Sennrich . EMNLP 2020.
blind [PDF] [Kode] - Serangan dan pertahanan imitasi untuk sistem terjemahan mesin black-box . Eric Wallace, Mitchell Stern, Lagu Dawn . EMNLP 2020.
decision [PDF] [Kode] - Ketahanan terhadap modifikasi dengan kata -kata bersama dalam identifikasi parafrase . Zhouxing Shi, Minlie Huang . Temuan ACL: EMNLP 2020.
score [PDF] - Serangan permusuhan tekstual tingkat kata sebagai optimasi kombinatorial . Yuan Zang, Fanchao Qi, Chenghao Yang, Zhiyuan Liu, Meng Zhang, Qun Liu, Maosong Sun. ACL 2020.
score [PDF] [Kode] - Ini saatnya morphin! Memerangi diskriminasi linguistik dengan gangguan infleksional . Samson Tan, Shafiq Joty, Min-Yen Kan, Richard Socher . ACL 2020.
score [PDF] [Kode] - Tentang ketahanan encoder bahasa terhadap kesalahan tata bahasa . Fan Yin, Quanyu Long, Tao Meng, Kai-Wei Chang . ACL 2020.
score [PDF] [Kode] - Mengevaluasi dan meningkatkan kekokohan model parsing ketergantungan berbasis jaringan saraf dengan contoh-contoh permusuhan . Xiaoqing Zheng, Jiehang Zeng, Yi Zhou, Cho-Jui Hsieh, Minhao Cheng, Xuanjing Huang . ACL 2020.
score gradient [PDF] [Kode] - Generasi yang diperkuat dari contoh -contoh permusuhan untuk terjemahan mesin saraf . Wei Zou, Shujian Huang, Jun Xie, Xinyu Dai, Jiajun Chen . ACL 2020.
decision [PDF] - Apakah Bert benar -benar kuat? Baseline yang kuat untuk serangan bahasa alami pada klasifikasi teks dan diperlukan . Di Jin, Zhijing Jin, Joey Tianyi Zhou, Peter Szolovits . AAAI 2020.
score [PDF] [Kode] - SEQ2SICK: Mengevaluasi ketahanan model urutan-ke-urutan dengan contoh-contoh permusuhan . Minhao Cheng, Jinfeng Yi, Pin-Yu Chen, Huan Zhang, Cho-Jui Hsieh . AAAI 2020.
score [PDF] [Kode] - Serangan Serakah dan Serangan Gumbel: Menghasilkan contoh -contoh permusuhan untuk data diskrit . Puyudi Yang, Jianbo Chen, Cho-Jui Hsieh, Jane-Lingwang, Michael I. Jordan . JMLR 2020.
score [PDF] [Kode] - Tentang ketahanan model perhatian diri . Yu-Lun Hsieh, Minhao Cheng, Da-Cheng Juan, Wei Wei, Wen-Lian Hsu, Cho-Jui Hsieh . ACL 2019.
score [PDF] - Menghasilkan Contoh Perselisihan Bahasa Alami Melalui Probabilitas Kata Berat Kata -kata . Shuhuai Ren, Yihe Deng, Kun He, Wanxiang Che . ACL 2019.
score [PDF] [Kode] - Menghasilkan contoh permusuhan yang lancar untuk bahasa alami . Huangzhao Zhang, Hao Zhou, Ning Miao, Lei Li . ACL 2019.
score gradient [PDF] [Kode] - Terjemahan mesin saraf yang kuat dengan input permusuhan ganda . Yong Cheng, Lu Jiang, Wolfgang Macherey . ACL 2019.
gradient [PDF] - Serangan permusuhan universal pada pengklasifikasi teks . Melika Behjati, Seyed-Mohsen Moosavi-Dezfooli, Mahdieh Soleymani Baghshah, Pascal Frossard . ICASSP 2019.
gradient [PDF] - Menghasilkan Contoh Perselisihan Bahasa Alami . Moustafa Alzantot, Yash Sharma, Ahmed Elgohary, Bo-Jhang Ho, Mani Srivastava, Kai-Wei Chang . EMNLP 2018.
score [PDF] [Kode] - Memecahkan sistem NLI dengan kalimat yang membutuhkan kesimpulan leksikal sederhana . Max Glockner, Vered Shwartz, Yoav Goldberg . ACL 2018.
blind [PDF] [Dataset] - Klasifikasi teks yang dalam bisa dibodohi . Bin Liang, Hongcheng Li, Miaoqiang Su, Pan Bian, Xirong Li, Wenchang Shi . IJCAI 2018.
score gradient [PDF] - Gangguan permusuhan yang dapat ditafsirkan dalam input menanamkan ruang untuk teks . Sato, Motoki, Jun Suzuki, Hiroyuki Shindo, Yuji Matsumoto . IJCAI 2018.
gradient [PDF] [Kode] - Menuju Crafting Teks Sampel permusuhan . Suranjana Samanta, Sameep Mehta . ECIR 2018.
gradient [PDF] - Membuat urutan input permusuhan untuk jaringan saraf berulang . Nicolas Papernot, Patrick McDaniel, Ananthram Swami, Richard Harang . MILCOM 2016.
gradient [PDF]
2.3 Serangan Level Char
- Meninjau kembali serangan permusuhan tingkat karakter untuk model bahasa . Elias Abad Rocamora , Yongtao Wu, Fanghui Liu, Grigorios G. Chrysos, Volkan Cevher, ICML 2024.
score gradient blind [PDF] [kode] - Vertattack: Mengambil keuntungan dari penglihatan horizontal pengklasifikasi teks . Jonathan Rusert , NAACL 2024.
score blind [PDF] - Serangan level tanda baca: Single-shot dan tanda baca tunggal dapat membodohi model teks . Wenqiang Wang, Chongyang Du, Tao Wang, Kaiho Zhang, Wenhan Luo, Lin Ma, Wei Liu, Xiaochun Cao . Neurips 2023.
score blind [PDF] - Menggunakan tanda baca sebagai serangan permusuhan pada sistem NLP berbasis pembelajaran yang mendalam: Sebuah studi empiris . Brian Formento, Chuan Sheng Foo, Luu Anh Tuan, lihat Kiong ng . EACL (Temuan) 2023.
score blind [PDF] [kode] - Ekstraksi model dan transferabilitas permusuhan, Bert Anda rentan! . Xuanli He, Lingjuan Lyu, Lichao Sun, Qongkai Xu . NAACL-HLT 2021.
blind [PDF] [Kode] - Pemrosesan teks seperti manusia: menyerang dan melindungi sistem NLP secara visual . Steffen Eger, Gözde Gül ¸sahin, Andreas Rücklé, Ji-un Lee, Claudia Schulz, Mohsen Mesgar, Krishnkant Swarnkar, Edwin Simpson, Iryna Gurevych . NAACL-HLT 2019.
blind [PDF] [Kode & Data] - Putih-ke-Hitam: Distilasi yang efisien dari serangan permusuhan kotak hitam . Syotam Gil, Yoav Chai, atau Gorodissky, Jonathan Berant . NAACL-HLT 2019.
blind [PDF] [Kode] - Generasi Black-box dari urutan teks permusuhan untuk menghindari pengklasifikasi pembelajaran yang mendalam . Ji Gao, Jack Lanchantin, Mary Lou Soffa, Yanjun Qi . IEEE SPW 2018.
score [PDF] [Kode] - Pada contoh-contoh permusuhan untuk terjemahan mesin saraf tingkat karakter . Javid Ebrahimi, Daniel Lowd, Dejing Dou . Coling 2018.
gradient [PDF] [Kode] - Kebisingan sintetis dan alami keduanya mematahkan terjemahan mesin saraf . Yonatan Belinkov, Yonatan Bisk . ICLR 2018.
blind [PDF] [Kode & Data]
2.4 Serangan multi-level
- LLM dapat membodohi dirinya sendiri: serangan permusuhan berbasis cepat . Xilie Xu, Keyi Kong, Ning Liu, Lizhen Cui, Di Wang, Jingfeng Zhang, Mohan Kankanhalli . ICLR 2024.
blind [PDF] - Serangan permusuhan tekstual multi-granularitas dengan kloning perilaku . Yangyi Chen, Jin Su, Wei Wei . EMNLP 2021.
blind [PDF] [Kode] - Mensintesis respons negatif permusuhan untuk peringkat dan evaluasi respons yang kuat . Prakhar Gupta, Yulia Tsvetkov, Jeffrey Bigham . Temuan ACL: ACL-IJCNLP 2021.
blind [PDF] [Kode] - Pencampuran kode di Sesame Street: Dawn of the Princeglots Pribersarial . Samson Tan, Shafiq Joty . NAACL-HLT 2021.
score [PDF] [Kode] - Serangan permusuhan universal dengan pemicu alami untuk klasifikasi teks . Liwei Song, Xinwei Yu, Hsuan-Tung Peng, Karthik Narasimhan . NAACL-HLT 2021.
gradient [PDF] [Kode] - BBAEG: Menuju Generasi Contoh permusuhan biomedis berbasis Bert untuk klasifikasi teks . Ishani Mondal . NAACL-HLT 2021.
score [PDF] [Kode] - Jangan mengambil "NSWVTNVAKGXPM" untuk jawaban - kerentanan mengejutkan dari sistem penilaian konten otomatis terhadap input permusuhan . Yuning Ding, Brian Riordan, Andrea Horbach, Aoife Cahill, Torsten Zesch . Coling 2020.
blind [PDF] [Kode] - Pemicu permusuhan universal untuk menyerang dan menganalisis NLP . Eric Wallace, Shi Feng, Nikhil Kandpal, Matt Gardner, Sameer Singh . EMNLP-IJCNLP 2019.
gradient [PDF] [Kode] [Situs Web] - TextBugger: Menghasilkan teks permusuhan terhadap aplikasi dunia nyata . Jinfeng Li, Shouling JI, Tianyu Du, Bo Li, Ting Wang . NDSS 2019.
score gradient [PDF] - Menghasilkan contoh permusuhan kotak hitam untuk pengklasifikasi teks menggunakan model yang diperkuat dalam . Prashanth Vijayaraghavan, Deb Roy . ECMLPKDD 2019.
score [PDF] - Hotflip: Contoh permusuhan kotak putih untuk klasifikasi teks . Javid Ebrahimi, Anyi Rao, Daniel Lowd, Dejing Dou . ACL 2018.
gradient [PDF] [Kode] - Sensitivitas berlebihan dan strategi stabilitas berlebihan untuk model dialog . Tong Niu, Bansal Mohit . Conll 2018.
blind [PDF] [Kode & Data] - Membandingkan jaringan saraf konvolusional dan berulang berbasis perhatian: keberhasilan dan keterbatasan dalam pemahaman membaca mesin . Matthias Blohm, Glorianna Jagfeld, Ekta Sood, Xiang Yu, Ngoc Thang Vu . Conll 2018.
gradient [PDF] [Kode]
3. Kertas Pertahanan
- Apakah detektor teks yang dihasilkan AI kuat untuk gangguan permusuhan? Guanhua Huang, Yuchen Zhang, Zhe Li, Yongjian You, Mingze Wang, dan Zhouwang Yang. ACL 2024. [PDF] [Kode]
- Semrode: Pelatihan permusuhan makro untuk mempelajari representasi yang kuat untuk serangan tingkat kata . Brian Formento, Wenjie Feng, Chuan-Sheng Foo, Anh Tuan Luu, See-Kiong ng . NAACL 2024. [PDF] [Kode]
- DSRM: Meningkatkan pelatihan permusuhan tekstual dengan minimalisasi risiko shift distribusi . Songyang Gao, Shihan Dou, Yan Liu, Xiao Wang, Qi Zhang, Zhongyu Wei, Jin Ma, Ying Shan . ACL 2023. [PDF] [Kode]
- Pelatihan permusuhan generatif dengan deteksi token yang terganggu untuk ketahanan model . JIAO ZHAO, Wenji Mao . EMNLP 2023. [PDF] [Kode]
- Pertahanan berbasis manifold tekstual terhadap contoh-contoh permusuhan bahasa alami . Dang Minh Nguyen, Luu Anh Tuan . EMNLP 2022. [PDF] [Kode]
- Mendeteksi serangan teks permusuhan tingkat kata melalui penjelasan aditif Shapley . Lukas Huber, Marc Alexander Kühn, Edoardo Mosca, Georg Groh . Repl4nlp@acl 2022. [Pdf] [kode]
- Deteksi contoh permusuhan dalam klasifikasi teks: tolok ukur dan baseline melalui estimasi kepadatan yang kuat . Kiyoon Yoo, Jangho Kim, Jiho Jang, Nojun Kwawk . ACL 2022 (Temuan). [pdf] [kode]
- “Itu adalah reaksi yang mencurigakan!”: Menafsirkan variasi login untuk mendeteksi serangan permusuhan NLP . Edoardo Mosca, Shreyash Agarwal, Javier Rando Ramírez, Georg Groh . ACL 2022. [PDF] [Kode]
- SHIELD: Membela jaringan saraf tekstual terhadap beberapa serangan permusuhan kotak hitam dengan patcher multi-ekspert stokastik . Thai Le, Taman Noseong, Dongwon Lee . ACL 2022. [PDF]
- Gangguan di alam liar: Memanfaatkan gangguan teks yang ditulis manusia untuk serangan dan pertahanan permusuhan yang realistis . Thai Le, Jooyoung Lee, Kevin Yen, Yifan Hu, Dongwon Lee . ACL 2022 (Temuan). [PDF]
- Mencapai model ketahanan melalui pelatihan permusuhan yang terpisah . Maor Ivgi, Jonathan Berant . EMNLP 2021. [PDF] [Kode]
- Pertahanan terhadap serangan permusuhan berbasis substitusi sinonim melalui Dirichlet Neighborhood Ensemble . Yi Zhou, Xiaoqing Zheng, Cho-Jui Hsieh, Kai-Wei Chang, Xuanjing Huang . ACL-IJCNLP 2021. [PDF]
- Lubang kelinci manis oleh Darcy: Menggunakan honeypot untuk mendeteksi serangan permusuhan universal Trigger . Thai Le, Taman Noseong, Dongwon Lee . ACL-IJCNLP 2021. [PDF] [Kode]
- Ketahanan yang lebih baik dengan lebih banyak pertanggungan: augmentasi data aprise dan mixup untuk finetuning yang kuat . Chenglei Si, Zhengyan Zhang, Fanchao Qi, Zhiyuan Liu, Yasheng Wang, Qun Liu, Maosong Sun. Temuan ACL: ACL-IJCNLP 2021. [PDF] [Kode]
- Bert-Defense: Model probabilistik berdasarkan Bert untuk memerangi serangan ortografis yang diilhami secara kognitif . Yannik Keller, Jan Mackensen, Steffen Eger . Temuan ACL: ACL-IJCNLP 2021. [PDF] [Kode]
- Membela model bahasa pra-terlatih dari substitusi kata-kata tanpa pengorbanan kinerja . Rongzhou Bao, Jiayi Wang, Hai Zhao . Temuan ACL: ACL-IJCNLP 2021. [PDF] [Kode]
- Augmentasi permusuhan berlipat ganda untuk terjemahan mesin saraf . Guandan Chen, Kipas Kai, Kaibo Zhang, Boxing Chen, Zhongqiang Huang . Temuan ACL: ACL-IJCNLP 2021. [PDF]
- Bahasa alami pertahanan permusuhan melalui penyandian sinonim . Xiaosen Wang, Hao Jin, Kun He . UAI 2021. [PDF] [Kode]
- Pelatihan permusuhan dengan metode proyeksi gradien cepat terhadap serangan teks berbasis substitusi sinonim . Xiaosen Wang, Yichen Yang, Yihe Deng, Kun He . AAAI 2021. [PDF] [Kode]
- Substitusi kata yang dipandu frekuensi untuk mendeteksi contoh-contoh permusuhan tekstual . Maximilian Mozes, Pontus Stenetorp, Bennett Kleinberg, Lewis D. Griffin . EACL 2021. [PDF] [Kode]
- Menuju ketahanan terhadap substitusi kata bahasa alami. Xinshuai Dong, Anh Tuan Luu, Rongrong Ji, Hong Liu. ICLR 2021. [PDF] [Kode]
- InfoBert: Meningkatkan ketahanan model bahasa dari perspektif teori informasi . Boxin Wang, Shuohang Wang, Yu Cheng, Zhe Gan, Ruoxi Jia, Bo Li, Jingjing Liu . ICLR 2021. [PDF] [Kode]
- Meningkatkan model saraf dengan kerentanan melalui serangan permusuhan . Rong Zhang, Qifei Zhou, Bo An, Weiping Li, Tong Mo, Bo Wu . Coling 2020. [PDF] [Kode]
- Pembelajaran Zero-Shot yang kontras untuk pengisian slot lintas domain dengan serangan adversarial . Keqing He, Jinchao Zhang, Yuanmeng Yan, Weiran Xu, Cheng Niu, Jie Zhou . Coling 2020. [PDF]
- Pikirkan infleksi Anda! Meningkatkan NLP untuk bahasa Inggris non-standar dengan pengkodean basis-infleksi . Samson Tan, Shafiq Joty, Lav R. Varshney, Min-Yen Kan . EMNLP 2020. [PDF] [Kode]
- Pengkodean yang kuat: Kerangka kerja untuk memerangi kesalahan ketik permusuhan . Erik Jones, Robin Jia, Aditi Raghunathan, Percy Liang . ACL 2020. [PDF] [Kode]
- Kata tingkat karakter bersama yang menanamkan dan pelatihan stabilitas permusuhan untuk membela teks permusuhan . Hui Liu, Yongzheng Zhang, Yipeng Wang, Zheng Lin, Yige Chen . AAAI 2020. [PDF]
- Pendekatan pelatihan permusuhan yang kuat untuk pemahaman membaca mesin . Kai Liu, Xin Liu, An Yang, Jing Liu, Jinsong Su, Suji Li, Qiaoqiao She . AAAI 2020. [PDF]
- Freelb: Pelatihan permusuhan yang ditingkatkan untuk pemahaman bahasa . Chen Zhu, Yu Cheng, Zhe Gan, Siqi Sun, Tom Goldstein, Jingjing Liu . CORR 2019. [PDF] [Kode]
- Belajar mendiskriminasi gangguan untuk memblokir serangan permusuhan dalam klasifikasi teks . Yichao Zhou, Jyun-yu Jiang, Kai-Wei Chang, Wei Wang . EMNLP-IJCNLP 2019. [PDF] [Kode]
- Bangunlah itu break It Fix untuk Keselamatan Dialog: Ketahanan dari serangan manusia yang bermusuhan . Emily Dinan, Samuel Humeau, Bharath Chintagunta, Jason Weston . EMNLP-IJCNLP 2019. [PDF] [Data]
- Memerangi kesalahan ejaan permusuhan dengan pengenalan kata yang kuat . Denmark Pruthi, Bhuwan Dhingra, Zachary C. Lipton . ACL 2019. [PDF] [Kode]
- Model yang kuat-ke-noise dalam tugas pemrosesan bahasa alami . Valentin Malykh . ACL 2019. [PDF] [Kode]
4. Ketahanan Bersertifikat
- Ketahanan bersertifikat terhadap serangan substitusi kata dengan privasi diferensial . Wenjie Wang, Pengfei Tang, Jian Lou, Li Xiong . NAACL-HLT 2021. [PDF]
- Analisis gangguan otomatis untuk ketahanan bersertifikat yang dapat diskalakan dan seterusnya . Kaidi Xu, Zhouxing Shi, Huan Zhang, Yihan Wang, Kai-Wei Chang, Minlie Huang, Bhavya Kailkhura, Xue Lin, Cho-Jui Hsieh . Neurips 2020. [PDF] [Kode]
- Safer: Pendekatan bebas struktur untuk ketahanan bersertifikat terhadap substitusi kata yang bermusuhan . Mao Ye, Chengyue Gong, Qiang Liu . ACL 2020. [PDF] [Kode]
- Verifikasi ketahanan untuk transformator . Zhouxing Shi, Huan Zhang, Kai-Wei Chang, Minlie Huang, Cho-Jui Hsieh . ICLR 2020. [PDF] [Kode]
- Mencapai ketahanan terverifikasi untuk simbol substitusi melalui propagasi terikat interval . Po-Sen Huang, Robert Stanforth, Johannes Welbl, Chris Dyer, Dani Yogatama, Sven Gowal, Krishnamurthy Dvijotham, Pushmeet Kohli . EMNLP-IJCNLP 2019. [PDF]
- Ketahanan Bersertifikat untuk Substitusi Kata Perselisihan . Robin Jia, Aditi Raghunathan, Kerem Göksel, Percy Liang . EMNLP-IJCNLP 2019. [PDF] [Kode]
- Popqorn: Mengukur kekokohan jaringan saraf berulang . Ching-Yun Ko, Zhaoyang Lyu, Lily Weng, Luca Daniel, Ngai Wong, Dahua Lin . ICML 2019. [PDF] [Kode]
5. Benchmark dan Evaluasi
- DecodingTrust: Penilaian komprehensif kepercayaan dalam model GPT . Boxin Wang, Weixin Chen, Hengzhi Pei, Chulin Xie, Mintong Kang, Chenhui Zhang, Chejian Xu, Zidi Xiong, Ritik Dutta, Rylan Schaeffer, Sang T. Truong, Simran Arora, Mantas Mazeika, Dan Hendrycks, Zinan Lin, Yu Cheng, Sanmi Koyejo, Dawn Lagu, Bo Li . Neurips 2023 (Datasets and Benchmark Track). [PDF] [Situs Web]
- Melestarikan semantik dalam serangan permusuhan tekstual . David Herel, Hugo Cisneros, Tomas Mikolov . ECAI 2023. [PDF] [Kode]
- Minta GPT-3 menjadi dapat diandalkan . Chenglei SI, Zhe Gan, Zhengyuan Yang, Shuohang Wang, Jianfeng Wang, Jordan Boyd-Graber, Libuan Wang . ICLR 2023. [PDF] [Kode]
- Mengapa gangguan permusuhan harus tidak terlihat? Memikirkan kembali paradigma penelitian dalam NLP permusuhan . Yangyi Chen, Hongcheng Gao, Ganqu Cui, Fanchao Qi, Longtao Huang, Zhiyuan Liu, Maosong Sun. EMNLP 2022. [PDF] [Kode & Data]
- Menafsirkan kekokohan model NLP saraf terhadap gangguan tekstual. Yunxiang Zhang, Pan Liangming, Samson Tan, Min-Yen Kan . Temuan ACL, 2022. [PDF]
- Membandingkan contoh-contoh level-level-level-level yang dihasilkan oleh manusia dan mesin untuk klasifikasi teks . Maximilian Mozes, Max Bartolo, Pontus Stenetorp, Bennett Kleinberg, Lewis D. Griffin . EMNLP 2021. [PDF] [Kode]
- Dynabench: Memikirkan kembali pembandingan di NLP. Douwe Kiela, Max Bartolo, Yixin Nie, Divyansh Kaushik, Atticus Geiger, Zhengxuan Wu, Bertie Vidgen, Grusha Prasad, Amanpreet Singh, Pratik Ringshia, Zhiyi MA, Tristan Thrush, Sebastian Riedel, Zhierak, Zhierak, Zeerak, Zeerak, Zeerak, Zeerak, Zeerak, Riedel, Ringel, Ringel, Zhierak, Zhierak, Ringel, Zhierak, Ringel, Zhierak, Zhierak, Sebastian Riedel, Zhierak, Sebastian Riedel, Zhierak, Sebastian, Bansal, Christopher Potts, Adina Williams . NAACL 2021. [PDF] [Situs Web]
- Lem Presperarial: Tolok ukur multi-tugas untuk evaluasi ketahanan model bahasa. Boxin Wang, Chejian Xu, Shuohang Wang, Zhe Gan, Yu Cheng, Jianfeng Gao, Ahmed Hassan Awadallah, Bo Li . Neurips 2021 (Datasets and Benchmark Track). [PDF] [Situs Web]
- Mencari Bek Efiektif: Benchmarking Defense Against Allow Word Substitusi. Zongyi Li, Jianhan Xu, Jiehang Zeng, Linyang Li, Xiaoqing Zheng, Qi Zhang, Kai-Wei Chang, dan Cho-Jui Hsieh . EMNLP 2021. [PDF]
- Gangguan ganda: tentang ketahanan evaluasi ketahanan dan bias kontrafaktual . Chong Zhang, Jieyu Zhao, Huan Zhang, Kai-Wei Chang, dan Cho-Jui Hsieh NaaCl 2021. [PDF] [Kode]
- Mengevaluasi kembali contoh permusuhan dalam bahasa alami . John Morris, Eli Lifland, Jack Lanchantin, Yangfeng Ji, Yanjun Qi . Temuan ACL: EMNLP 2020. [PDF] [Kode & Data]
- Dari Pahlawan ke Zéroe: Benchmark serangan permusuhan tingkat rendah . Steffen Eger, Yannik Benz . AACL-IJCNLP 2020. [PDF] [Kode & Data]
- Presperarial NLI: tolok ukur baru untuk pemahaman bahasa alami . Yixin Nie, Adina Williams, Emily Dinan, Mohit Bansal, Jason Weston, Douwe Kiela . ACL 2020. [PDF] [Demo] [Dataset & Leaderboard]
- Mengevaluasi model NLP melalui set kontras . Matt Gardner, Yoav Artzi, Victoria Basmova, Jonathan Berant, Ben Bogin, Sihao Chen, Pradeep Dasigi, Dheeru Dua, Yanai Elazar, Ananth Gottumukkala, LiNaBin Lino, Lini, Linan Lino, Gabriel, Gabriel, Gabriel, Gabriel, Gabriel, Gabriel, Gabriel, Gabriel Hajishirzi, Gabriel Hajish, Nelson F. Liu, Phoebe Mulcaire, Qiang Ning, Sameer Singh, Noah A. Smith, Sanjay Subramanian, Reut Tsarfaty, Eric Wallace, Ally Zhang, Ben Zhou . Temuan ACL: EMNLP 2020. [PDF] [Situs Web]
- Pada evaluasi gangguan permusuhan untuk model urutan-ke-urutan . Paul Michel, Xian LI, Graham Neubig, Juan Miguel Pino . NAACL-HLT 2019. [PDF] [Kode]
6. Makalah Lainnya
- Mengidentifikasi strategi manusia untuk menghasilkan contoh-contoh permusuhan tingkat kata . Maximilian Mozes, Bennett Kleinberg, Lewis D. Griffin . Temuan ACL: EMNLP 2022. [PDF]
- Lexicalat: Pelatihan penguatan permusuhan berbasis leksikal untuk klasifikasi sentimen yang kuat . Jingjing Xu, Liang Zhao, Hanqi Yan, Qi Zeng, Yun Liang, Xu Sun. EMNLP-IJCNLP 2019. [PDF] [Kode]
- Unified Visual-Semantic Empantic: menjembatani visi dan bahasa dengan representasi makna terstruktur . Hao Wu, Jiayuan Mao, Yufeng Zhang, Yuning Jiang, Lei Li, Weiwei Sun, Wei-Ying Ma . CVPR 2019. [PDF]
- Petualangan: Pelatihan permusuhan untuk persyaratan tekstual dengan contoh yang dipandu pengetahuan . Dongyeop Kang, Tushar Khot, Ashish Sabharwal, Eduard Hovy . ACL 2018. [PDF] [Kode]
- Mempelajari semantik yang ditumbuhkan secara visual dari sampel permusuhan yang kontras . Haoyue Shi, Jiayuan Mao, Tete Xiao, Yuning Jiang, Jian Sun. Coling 2018. [PDF] [Kode]
Kontributor
Kami berterima kasih kepada semua kontributor untuk daftar ini. Dan lebih banyak kontribusi sangat disambut.