เอกสารที่ต้องอ่านเกี่ยวกับการโจมตีและการป้องกันที่เป็นปฏิปักษ์ (TAAD)
รายการนี้ได้รับการดูแลโดย Chenghao Yang ที่ Uchicago
ผู้สนับสนุนหลักก่อนหน้านี้อื่น ๆ รวมถึง Fanchao Qi และ Yuan Zang เมื่อพวกเขาอยู่ที่ Thunlp
เราขอขอบคุณผู้มีส่วนร่วมที่ยอดเยี่ยมมาก
เนื้อหา
- 0. ชุดเครื่องมือ
- 1. เอกสารสำรวจ
- 2. เอกสารโจมตี (จำแนกตามระดับการก่อกวน)
- 2.1 การโจมตีระดับประโยค
- 2.2 การโจมตีระดับคำ
- 2.3 การโจมตีระดับถ่าน
- 2.4 การโจมตีหลายระดับ
- 3. เอกสารป้องกัน
- 4. ความทนทานที่ได้รับการรับรอง
- 5. เกณฑ์มาตรฐานและการประเมินผล
- 6. เอกสารอื่น ๆ
- ผู้มีส่วนร่วม
0. ชุดเครื่องมือ
- Robustqa: กรอบการทำงานสำหรับการวิเคราะห์การสร้างข้อความที่เป็นปฏิปักษ์เกี่ยวกับระบบตอบคำถาม Yasaman Boreshban, Seyed Morteza Mirbostani, Seyedeh Fatemeh Ahmadi, Gita Shojaee, Fatemeh Kamani, Gholamreza Ghassem-Sani, Seyed Abolghasem Mirroshandel EMNLP 2022 DEMO [Codebase] [PDF]
- Seqattack: การโจมตีที่เป็นปฏิปักษ์สำหรับการรับรู้เอนทิตีที่มีชื่อ Walter Simoncini, Gerasimos Spanakis EMNLP 2021 DEMO [เว็บไซต์] [PDF]
- OpenAttack: ชุดเครื่องมือการโจมตีที่เป็นข้อความโอเพนซอร์สโอเพนซอร์ส Guoyang Zeng, Fanchao Qi, Qianrui Zhou, Tingji Zhang, Bairu Hou, Yuan Zang, Zhiyuan Liu, Maosong Sun ACL-IJCNLP 2021 DEMO [เว็บไซต์] [DOC] [PDF]
- Textattack: กรอบการทำงานสำหรับการโจมตีที่เป็นปฏิปักษ์การเพิ่มข้อมูลและการฝึกอบรมที่เป็นปฏิปักษ์ใน NLP John Morris, Eli Lifland, Jin Yong Yoo, Jake Grigsby, Di Jin, Yanjun Qi EMNLP 2020 DEMO [เว็บไซต์] [DOC] [PDF]
1. เอกสารสำรวจ
- วัดและปรับปรุงความทนทานในโมเดล NLP: การสำรวจ Xuezhi Wang, Haohan Wang, Diyi Yang NAACL 2022. [PDF]
- สู่เครือข่ายประสาทลึกที่แข็งแกร่งในข้อความ: การสำรวจ Wenqi Wang, Lina Wang, Benxiao Tang, Run Wang, Aoshuang Ye TKDE 2021. [PDF]
- การโจมตีที่เป็นปฏิปักษ์ต่อรูปแบบการเรียนรู้เชิงลึกในการประมวลผลภาษาธรรมชาติ: การสำรวจ Wei Emma Zhang, Quan Z. Sheng, Ahoud Alhazmi, Chenliang Li ACM TIST 2020. [PDF]
- การโจมตีและการป้องกันที่เป็นปฏิปักษ์ในภาพกราฟและข้อความ: รีวิว Han Xu, Yao Ma, Hao-Chen Liu, Debayan Deb, Hui Liu, Ji-Liang Tang, Anil K. Jain วารสารระหว่างประเทศของระบบอัตโนมัติและการคำนวณ 2020. [PDF]
- วิธีการวิเคราะห์ในการประมวลผลภาษาประสาท: การสำรวจ Yonatan Belinkov, James Glass Tacl 2019. [PDF]
2. เอกสารโจมตี
กระดาษแต่ละฉบับถูกแนบกับหนึ่งหรือมากกว่าหนึ่งฉลากดังต่อไปนี้แสดงให้เห็นว่าข้อมูล การโจมตี รู้เกี่ยวกับ โมเดลเหยื่อ : gradient (= white , ข้อมูลทั้งหมด), score (การตัดสินใจและคะแนน), decision (การตัดสินใจเอาท์พุทเท่านั้น) และ blind (ไม่มีอะไร)
2.1 การโจมตีระดับประโยค
- การใช้การโจมตีที่เป็นปฏิปักษ์เพื่อเปิดเผยอคติทางสถิติในรูปแบบการอ่านความเข้าใจของเครื่อง Jieyu Lin, Jiajie Zou, Nai Ding ACL-IJCNLP 2021.
blind [PDF] - Grey-Box Adversarial Attack และ Defense สำหรับการจำแนกประเภทความเชื่อมั่น Ying Xu, Xu Zhong, Antonio Jimeno Yepes, Jey Han Lau NAACL-HLT 2021.
gradient [PDF] [รหัส] - การสร้างถอดความที่ควบคุมทางไวยากรณ์โดยไม่ต้องใช้คู่ขนานที่มีคำอธิบายประกอบ Kuan-Hao Huang และ Kai-Wei Chang EACL 2021. [PDF] [รหัส]
- CAT-GEN: การปรับปรุงความทนทานในรุ่น NLP ผ่านการสร้างข้อความที่เป็นปฏิปักษ์ Tianlu Wang, Xuezhi Wang, Yao Qin, Ben Packer, Kang Lee, Jilin Chen, Alex Beutel, Ed Chi EMNLP 2020
score [PDF] - T3: Tree-Autoencoder สร้างการสร้างข้อความที่เป็นปฏิปักษ์ต่อการโจมตีเป้าหมาย Boxin Wang, Hengzhi Pei, Boyuan Pan, Qian Chen, Shuohang Wang, Bo Li EMNLP 2020.
gradient [PDF] [รหัส] - การโจมตีของฝ่ายตรงข้ามและการป้องกันแบบจำลองการทำนายที่มีโครงสร้าง Wenjuan Han, Liwen Zhang, Yong Jiang, Kewei Tu EMNLP 2020.
blind [PDF] [รหัส] - Malcom: สร้างความคิดเห็นที่เป็นอันตรายเพื่อโจมตีโมเดลการตรวจจับข่าวปลอมของระบบประสาท TAIN LE, Suhang Wang, Dongwon Lee ICDM 2020.
gradient [PDF] [รหัส] - การปรับปรุงความทนทานของระบบตอบคำถามเพื่อตั้งคำถามการถอดความ Wee Chung Gan, hwee tou ng ACL 2019.
blind [PDF] [ข้อมูล] - หลอกฉันถ้าคุณทำได้: การสร้างตัวอย่างของมนุษย์ในวงจรสำหรับการตอบคำถาม Eric Wallace, Pedro Rodriguez, Shi Feng, Ikuya Yamada, Jordan Boyd-Graber Tacl 2019.
score [PDF] - PAWS: การถอดความฝ่ายตรงข้ามจากการดิ้นรนคำ หยวนจางเจสันบัลด์ริดจ์ลูเฮงเขา NAACL-HLT 2019.
blind [PDF] [ชุดข้อมูล] - การประเมินและเพิ่มความทนทานของระบบบทสนทนา: กรณีศึกษาเกี่ยวกับตัวแทนการเจรจาต่อรอง Minhao Cheng, Wei Wei, Cho-Jui Hsieh NAACL-HLT 2019.
score gradient [PDF] [รหัส] - กฎของฝ่ายตรงข้ามที่เทียบเท่ากับความหมายสำหรับการดีบักโมเดล NLP Marco Tulio Ribeiro, Sameer Singh, Carlos Guestrin ACL 2018.
decision [PDF] [รหัส] - การปรับรูปแบบ NLI ของระบบประสาทให้เป็นมาตรฐานเพื่อรวมความรู้พื้นฐานเชิงตรรกะ Pasquale Minervini, Sebastian Riedel Conll 2018
score [PDF] [รหัสและข้อมูล] - โมเดลความเข้าใจของเครื่องที่แข็งแกร่งผ่านการฝึกอบรมที่เป็นปฏิปักษ์ Yicheng Wang, Mohit Bansal NAACL-HLT 2018.
decision [PDF] [ชุดข้อมูล] - การสร้างตัวอย่างที่เป็นปฏิปักษ์กับเครือข่ายการถอดความแบบควบคุมวากยสัมพันธ์ Mohit Iyyer, John Wieting, Kevin Gimpel, Luke Zettlemoyer NAACL-HLT 2018.
blind [PDF] [รหัสและข้อมูล] - สร้างตัวอย่างที่เป็นปฏิปักษ์ตามธรรมชาติ Zhengli Zhao, Dheeru Dua, Sameer Singh ICLR 2018.
decision [PDF] [รหัส] - ตัวอย่างที่เป็นปฏิปักษ์สำหรับการประเมินระบบความเข้าใจในการอ่าน Robin Jia, Percy Liang EMNLP 2017.
score decision blind [PDF] [รหัส] - ชุดศัตรูสำหรับการทำนายการเชื่อมโยงประสาทตามปกติ Pasquale Minervini, Thomas Demeester, Tim Rocktäschel, Sebastian Riedel UAI 2017.
score [PDF] [รหัส]
2.2 การโจมตีระดับคำ
- การขยายขอบเขต: การปรับการโจมตีที่เป็นปฏิปักษ์ของอังกฤษเป็นภาษาจีน Hanyu Liu, Chengyuan Cai, Yanjun Qi ผลการวิจัยของ ACL 2023
decision [PDF] [รหัส] - การสร้างข้อความที่เป็นปฏิปักษ์โดยการค้นหาและการเรียนรู้ Guoyi Li, Bingkang Shi, Zongzhen Liu, Dehan Kong, Yulei Wu, Xiaodan Zhang, Longtao Huang, Honglei Lyu ผลการวิจัยของ ACL 2023
score [PDF] [รหัส] - เชื่อมช่องว่างระหว่าง CV และ NLP! กรอบการโจมตีที่เป็นไปได้ตามความเป็นมาของการไล่ระดับสี Lifan Yuan, Yichi Zhang, Yangyi Chen, Wei Wei ผลการวิจัยของ ACL 2023
decision [PDF] [รหัส] - TexThacker: อัลกอริทึมการค้นหาในท้องถิ่นแบบไฮบริดที่ใช้การเรียนรู้สำหรับการโจมตีที่ไม่เหมาะสม Zhen Yu, Xiaosen Wang, Wanxiang Che, Kun HE ผลการวิจัยของ EMNLP 2022.
decision [PDF] [รหัส] - TexThoaxer: การโจมตีที่มีงบประมาณของการโจมตีที่มีงบประมาณของข้อความ Muchao Ye, Chenglin Miao, Ting Wang, Fenglong MA AAAI 2022.
decision [PDF] [รหัส] - การสืบค้นที่มีประสิทธิภาพและปรับขนาดได้จากการโจมตีที่ไม่ต่อเนื่องในกล่องข้อมูลตามลำดับที่ไม่ต่อเนื่องผ่านการเพิ่มประสิทธิภาพแบบเบย์ Deokjae Lee, Seungyong Moon, Junhyeok Lee, Hyun Oh Song ICML 2022.
score [PDF] [รหัส] - Semattack: การโจมตีที่เป็นธรรมชาติในพื้นที่ความหมายที่แตกต่างกัน Boxin Wang, Chejian Xu, Xiangyu Liu, Yu Cheng, Bo Li ผลการวิจัยของ NAACL 2022.
gradient [PDF] [รหัส] - การโจมตีที่มีการไล่ระดับสีตามการไล่ระดับสี Chuan Guo, Alexandre Sablayrolles, HervéJégou, Douwe Kiela EMNLP 2021.
gradient [PDF] [รหัส] - พื้นฐานที่แข็งแกร่งสำหรับการโจมตีที่มีประสิทธิภาพในการสืบค้นในการตั้งค่ากล่องดำ Rishabh Maheswary, Saket Maheshwary, Vikram Pudi EMNLP 2021
score [PDF] [รหัส] - เกี่ยวกับความสามารถในการถ่ายโอนของการโจมตีที่เป็นปฏิปักษ์ต่อตัวจําแนกข้อความประสาท Liping Yuan, Xiaoqing Zheng, Yi Zhou, Cho-Jui Hsieh, Kai-Wei Chang EMNLP 2021. [PDF]
- การสร้างตัวอย่างที่เป็นปฏิปักษ์สำหรับการแปลเครื่องประสาท Xinze Zhang, Junzhe Zhang, Zhenhua Chen, Kun HE ACL-IJCNLP 2021
score [PDF] [รหัส] - การศึกษาเชิงประจักษ์เกี่ยวกับการโจมตีของฝ่ายตรงข้ามใน NMT: ภาษาและตำแหน่งสำคัญ Zhiyuan Zeng, Deyi Xiong ACL-IJCNLP 2021
score [PDF] - การมองอย่างใกล้ชิดเกี่ยวกับความทนทานของตัวแยกวิเคราะห์การพึ่งพาระบบประสาทโดยใช้ตัวอย่างที่ดีกว่า Yuxuan Wang, Wanxiang Che, Ivan Titov, Shay B. Cohen, Zhilin Lei, Ting Liu ผลการวิจัยของ ACL: ACL-IJCNLP 2021
score [PDF] [รหัส] - การก่อกวนบริบทสำหรับการโจมตีที่เป็นปฏิปักษ์ Dianqi Li, Yizhe Zhang, Hao Peng, Liqun Chen, Chris Brockett, Sun หมิงทิง, Bill Dolan NAACL-HLT 2021
score [PDF] [รหัส] - Adv-Olm: สร้างศัตรูที่เป็นข้อความผ่าน OLM Vijit Malik, Ashwani Bhat, Ashutosh Modi EACL 2021.
score [PDF] [รหัส] - stylometry antcersarial ในป่า: การโจมตีคำศัพท์ที่สามารถถ่ายโอนได้ในการโจมตีผู้แต่ง Chris Emmery, ÁkosKádár, Grzegorz Chrupała EACL 2021.
blind [PDF] [รหัส] - สร้างการโจมตีภาษาธรรมชาติในการตั้งค่ากล่องดำฉลาก Rishabh Maheshwary, Saket Maheshwary, Vikram Pudi AAAI 2021.
decision [PDF] [รหัส] - การโจมตีที่ได้รับแรงบันดาลใจจากเรขาคณิตสำหรับการสร้างตัวอย่างที่เป็นปฏิปักษ์กับภาษาธรรมชาติ Zhao Meng, Roger Wattenhofer COLING 2020.
gradient [PDF] [รหัส] - Bert-Attack: การโจมตีที่เป็นปฏิปักษ์ต่อเบิร์ตโดยใช้เบิร์ต Linyang Li, Ruotian MA, Qipeng Guo, Xiangyang Xue, Xipeng Qiu EMNLP 2020
score [PDF] [รหัส] - BAE: ตัวอย่างที่เป็นปฏิปักษ์กับ Bert สำหรับการจำแนกประเภทข้อความ Siddhant Garg, Goutham Ramakrishnan EMNLP 2020
score [PDF] [รหัส] - การตรวจจับความรู้สึกอคติ disambiguation ในการแปลของเครื่องจักรสำหรับการโจมตีที่เป็นปฏิปักษ์ Denis Emelin, Ivan Titov, Rico Sennrich EMNLP 2020.
blind [PDF] [รหัส] - การโจมตีและการป้องกันการเลียนแบบสำหรับระบบการแปลเครื่องดำ Eric Wallace, Mitchell Stern, Dawn Song EMNLP 2020.
decision [PDF] [รหัส] - ความทนทานต่อการปรับเปลี่ยนด้วยคำที่ใช้ร่วมกันในการระบุตัวตน Zhouxing Shi, Minlie Huang ผลการวิจัยของ ACL: EMNLP 2020.
score [PDF] - การโจมตีที่เป็นปฏิปักษ์ต่อคำศัพท์ในระดับคำว่าเป็นการเพิ่มประสิทธิภาพ combinatorial หยวนซาง, Fanchao Qi, Chenghao Yang, Zhiyuan Liu, Meng Zhang, Qun Liu, Maosong Sun ACL 2020.
score [PDF] [รหัส] - ถึงเวลา Morphin 'แล้ว! การต่อสู้กับการเลือกปฏิบัติทางภาษากับการก่อกวน Samson Tan, Shafiq Joty, Min-Yen Kan, Richard Socher ACL 2020.
score [PDF] [รหัส] - บนความทนทานของการเข้ารหัสภาษากับข้อผิดพลาดทางไวยากรณ์ Fan Yin, Quanyu Long, Tao Meng, Kai-Wei Chang ACL 2020.
score [PDF] [รหัส] - การประเมินและเพิ่มความทนทานของแบบจำลองการแยกวิเคราะห์การพึ่งพาเครือข่ายประสาทด้วยตัวอย่างที่เป็นปฏิปักษ์ Xiaoqing Zheng, Jiehang Zeng, Yi Zhou, Cho-Jui Hsieh, Minhao Cheng, Xuanjing Huang ACL 2020.
score gradient [PDF] [รหัส] - ตัวอย่างการเสริมแรงของฝ่ายตรงข้ามสำหรับการแปลเครื่องประสาท Wei Zou, Shujian Huang, Jun Xie, Xinyu Dai, Jiajun Chen ACL 2020.
decision [PDF] - เบิร์ตแข็งแกร่งจริงๆเหรอ? พื้นฐานที่แข็งแกร่งสำหรับการโจมตีภาษาธรรมชาติในการจำแนกประเภทข้อความและการเข้าร่วม Di Jin, Zhijing Jin, Joey Tianyi Zhou, Peter Szolovits AAAI 2020.
score [PDF] [รหัส] - SEQ2SICK: การประเมินความทนทานของแบบจำลองลำดับต่อลำดับด้วยตัวอย่างที่เป็นปฏิปักษ์ Minhao Cheng, Jinfeng Yi, Pin-yu Chen, Huan Zhang, Cho-Jui Hsieh AAAI 2020.
score [PDF] [รหัส] - การโจมตีโลภและการโจมตี Gumbel: การสร้างตัวอย่างที่ไม่ต่อเนื่องสำหรับข้อมูลที่ไม่ต่อเนื่อง Puyudi Yang, Jianbo Chen, Cho-Jui Hsieh, Jane-Lingwang, Michael I. Jordan JMLR 2020
score [PDF] [รหัส] - เกี่ยวกับความแข็งแกร่งของโมเดลที่มีความต้องการตนเอง Yu-Lun Hsieh, Minhao Cheng, Da-Cheng Juan, Wei Wei, Wen-Lian Hsu, Cho-Jui Hsieh ACL 2019.
score [PDF] - การสร้างตัวอย่างที่เป็นปฏิปักษ์กับภาษาธรรมชาติผ่านความน่าจะเป็นคำที่มีน้ำหนัก Shuhuai Ren, Yihe Deng, Kun HE, Wanxiang Che ACL 2019.
score [PDF] [รหัส] - สร้างตัวอย่างที่เป็นปฏิปักษ์ต่อภาษาธรรมชาติ Huangzhao Zhang, Hao Zhou, Ning Miao, Lei Li ACL 2019.
score gradient [PDF] [รหัส] - การแปลเครื่องประสาทที่แข็งแกร่งด้วยอินพุตที่เป็นปฏิปักษ์เป็นสองเท่า Yong Cheng, Lu Jiang, Wolfgang Macherey ACL 2019.
gradient [PDF] - การโจมตีที่เป็นปฏิปักษ์กับตัวแยกประเภทข้อความ Melika Behjati, Seyed-Mohsen Moosavi-dezfooli, Mahdieh Soleymani Baghshah, Pascal Frossard ICASSP 2019.
gradient [PDF] - สร้างตัวอย่างที่เป็นปฏิปักษ์กับภาษาธรรมชาติ Moustafa Alzantot, Yash Sharma, Ahmed Elgohary, Bo-Jhang Ho, Mani Srivastava, Kai-Wei Chang EMNLP 2018
score [PDF] [รหัส] - ทำลายระบบ NLI ด้วยประโยคที่ต้องมีการอนุมานคำศัพท์อย่างง่าย Max Glockner, Vered Shwartz, Yoav Goldberg ACL 2018.
blind [PDF] [ชุดข้อมูล] - การจำแนกประเภทข้อความลึกอาจถูกหลอกได้ Bin Liang, Hongcheng Li, Miaoqiang SU, Pan Bian, Xirong Li, Wenchang Shi IJCAI 2018.
score gradient [PDF] - การก่อกวนการก่อกวนที่เป็นปฏิปักษ์ในพื้นที่ฝังอินพุตสำหรับข้อความ Sato, Motoki, Jun Suzuki, Hiroyuki Shindo, Yuji Matsumoto IJCAI 2018.
gradient [PDF] [CODE] - ไปสู่การประดิษฐ์ตัวอย่างที่เป็นปฏิปักษ์ Suranjana Samanta, Sameep Mehta ECIR 2018.
gradient [PDF] - การสร้างลำดับอินพุตที่เป็นปฏิปักษ์สำหรับเครือข่ายประสาทที่เกิดขึ้นซ้ำ Nicolas Papernot, Patrick McDaniel, Ananthram Swami, Richard Harang MILCOM 2016.
gradient [PDF]
2.3 การโจมตีระดับถ่าน
- การทบทวนการโจมตีที่เป็นปฏิปักษ์ในระดับตัวละครสำหรับแบบจำลองภาษา Elias Abad Rocamora , Yongtao Wu, Fanghui Liu, Grigorios G. Chrysos, Volkan Cevher, ICML 2024
score gradient blind [PDF] [รหัส] - VertAttack: ใช้ประโยชน์จากการมองเห็นแนวนอนของตัวแยกประเภทข้อความ Jonathan Rusert , NAACL 2024.
score blind [PDF] - การโจมตีระดับเครื่องหมายวรรคตอน: เครื่องหมายวรรคตอนเดียวและเครื่องหมายวรรคตอนเดียวสามารถหลอกโมเดลข้อความได้ Wenqiang Wang, Chongyang DU, Tao Wang, Kaihao Zhang, Wenhan Luo, Lin Ma, Wei Liu, Xiaochun Cao Neurips 2023.
score blind [PDF] - การใช้เครื่องหมายวรรคตอนเป็นการโจมตีฝ่ายตรงข้ามในระบบ NLP ที่ใช้การเรียนรู้อย่างลึกซึ้ง: การศึกษาเชิงประจักษ์ Brian Formento, Chuan Sheng Foo, Luu Anh Tuan, ดู Kiong Ng EACL (ผลการวิจัย) 2023.
score blind [PDF] [รหัส] - การสกัดแบบจำลองและความสามารถในการถ่ายโอนที่เป็นปฏิปักษ์เบิร์ตของคุณมีความเสี่ยง! - Xuanli He, Lingjuan Lyu, Lichao Sun, Qiongkai Xu NAACL-HLT 2021.
blind [PDF] [รหัส] - การประมวลผลข้อความเช่นมนุษย์ทำ: การโจมตีด้วยสายตาและป้องกันระบบ NLP Steffen Eger, GözdeGül¸sahin, Andreas Rücklé, Ji-ung Lee, Claudia Schulz, Mohsen Mesgar, Krishnkant Swarnkar, Edwin Simpson, Iryna Gurevych NAACL-HLT 2019.
blind [PDF] [รหัสและข้อมูล] - White-to-Black: การกลั่นที่มีประสิทธิภาพของการโจมตีที่เป็นปฏิปักษ์กับกล่องดำ Syotam Gil, Yoav Chai หรือ Gorodissky, Jonathan Berant NAACL-HLT 2019.
blind [PDF] [รหัส] - การสร้างกล่องสีดำของลำดับข้อความที่เป็นปฏิปักษ์เพื่อหลบเลี่ยงตัวแยกประเภทการเรียนรู้ลึก Ji Gao, Jack Lanchantin, Mary Lou Soffa, Yanjun Qi IEEE SPW 2018
score [PDF] [รหัส] - สำหรับตัวอย่างที่เป็นปฏิปักษ์สำหรับการแปลเครื่องประสาทระดับตัวละคร Javid Ebrahimi, Daniel Lowd, Dejing Dou COLING 2018.
gradient [PDF] [รหัส] - เสียงสังเคราะห์และเสียงธรรมชาติทั้งคู่ทำลายการแปลของเครื่องประสาท Yonatan Belinkov, Yonatan Bisk ICLR 2018.
blind [PDF] [รหัสและข้อมูล]
2.4 การโจมตีหลายระดับ
- LLM สามารถหลอกตัวเองได้: การโจมตีที่เป็นไปได้อย่างรวดเร็ว Xilie Xu, Keyi Kong, Ning Liu, Lizhen Cui, Di Wang, Jingfeng Zhang, Mohan Kankanhalli ICLR 2024.
blind [PDF] - การโจมตีที่เป็นปฏิปักษ์กับความหลากหลายทางข้อความด้วยการโคลนนิ่งพฤติกรรม Yangyi Chen, Jin Su, Wei Wei EMNLP 2021.
blind [PDF] [รหัส] - การสังเคราะห์การตอบสนองเชิงลบของฝ่ายตรงข้ามสำหรับการจัดอันดับการตอบสนองที่แข็งแกร่งและการประเมินผล Prakhar Gupta, Yulia Tsvetkov, Jeffrey Bigham ผลการวิจัยของ ACL: ACL-IJCNLP 2021.
blind [PDF] [รหัส] - การผสมรหัสบน Sesame Street: รุ่งอรุณของ Pollots ที่เป็นปฏิปักษ์ Samson Tan, Shafiq Joty NAACL-HLT 2021
score [PDF] [รหัส] - การโจมตีที่เป็นปฏิปักษ์สากลด้วยทริกเกอร์ธรรมชาติสำหรับการจำแนกประเภทข้อความ Liwei Song, Xinwei Yu, Hsuan-Tung Peng, Karthik Narasimhan NAACL-HLT 2021.
gradient [PDF] [รหัส] - BBAEG: ไปสู่การสร้างตัวอย่างที่เป็นผลมาจาก Bert Biomedical Biomedical สำหรับการจำแนกประเภทข้อความ Ishani Mondal NAACL-HLT 2021
score [PDF] [รหัส] - อย่าใช้“ NSWVTNVAKGXPM” สำหรับคำตอบ - ช่องโหว่ที่น่าประหลาดใจของระบบการให้คะแนนเนื้อหาอัตโนมัติเพื่อการป้อนข้อมูลที่เป็นปฏิปักษ์ Yuning Ding, Brian Riordan, Andrea Horbach, Aoife Cahill, Torsten Zesch COLING 2020.
blind [PDF] [รหัส] - ทริกเกอร์ที่เป็นปฏิปักษ์สากลสำหรับการโจมตีและวิเคราะห์ NLP Eric Wallace, Shi Feng, Nikhil Kandpal, Matt Gardner, Sameer Singh EMNLP-IJCNLP 2019.
gradient [PDF] [รหัส] [เว็บไซต์] - TextBugger: สร้างข้อความที่เป็นปฏิปักษ์กับแอปพลิเคชันในโลกแห่งความเป็นจริง Jinfeng Li, Shouling Ji, Tianyu Du, Bo Li, Ting Wang NDSS 2019.
score gradient [PDF] - การสร้างตัวอย่างที่เป็นปฏิปักษ์กล่องดำสำหรับตัวแยกประเภทข้อความโดยใช้โมเดลเสริมแรงลึก Prashanth Vijayaraghavan, Deb Roy ECMLPKDD 2019
score [PDF] - HotFlip: ตัวอย่างที่น่ากลัวของกล่องสีขาวสำหรับการจำแนกประเภทข้อความ Javid Ebrahimi, Anyi Rao, Daniel Lowd, Dejing Dou ACL 2018.
gradient [PDF] [รหัส] - ความไวเกินความไวและกลยุทธ์ที่มีความเสถียรสำหรับแบบจำลองการสนทนา Tong Niu, Mohit Bansal Conll 2018.
blind [PDF] [Code & Data] - การเปรียบเทียบเครือข่ายประสาทและการเกิดซ้ำที่เกิดจากความสนใจ: ความสำเร็จและข้อ จำกัด ในการอ่านความเข้าใจในการอ่านของเครื่อง Matthias Blohm, Glorianna Jagfeld, Ekta Sood, Xiang Yu, Ngoc Thang Vu Conll 2018.
gradient [PDF] [รหัส]
3. เอกสารป้องกัน
- เครื่องตรวจจับข้อความที่สร้างขึ้นจาก Ai นั้นมีความแข็งแกร่งต่อการก่อกวนของฝ่ายตรงข้ามหรือไม่? Guanhua Huang, Yuchen Zhang, Zhe Li, Yongjian You, Mingze Wang และ Zhouwang Yang ACL 2024. [PDF] [รหัส]
- SEMRODE: การฝึกอบรมฝ่ายตรงข้ามมาโครเพื่อเรียนรู้การเป็นตัวแทนที่แข็งแกร่งต่อการโจมตีระดับคำ Brian Formento, Wenjie Feng, Chuan-Sheng Foo, Anh Tuan Luu, See-Kiong ng NAACL 2024. [PDF] [รหัส]
- DSRM: เพิ่มการฝึกอบรมที่เป็นปฏิปักษ์กับการลดความเสี่ยงของการกระจายการกระจาย Songyang Gao, Shihan Dou, Yan Liu, Xiao Wang, Qi Zhang, Zhongyu Wei, Jin Ma, Ying Shan ACL 2023. [PDF] [รหัส]
- การฝึกฝนฝ่ายตรงข้ามกับการตรวจจับโทเค็นที่ถูกรบกวนเพื่อความทนทานของแบบจำลอง Jiahao Zhao, Wenji Mao EMNLP 2023. [PDF] [รหัส]
- การป้องกันที่หลากหลายตามข้อความกับตัวอย่างที่เป็นปฏิปักษ์กับภาษาธรรมชาติ Dang Minh Nguyen, Luu Anh Tuan EMNLP 2022. [PDF] [รหัส]
- การตรวจจับการโจมตีข้อความที่เป็นปฏิปักษ์ในระดับคำผ่านคำอธิบายเพิ่มเติมของ Shapley Lukas Huber, Marc Alexander Kühn, Edoardo Mosca, Georg Groh repl4nlp@acl 2022. [pdf] [รหัส]
- การตรวจหาตัวอย่างที่เป็นปฏิปักษ์ในการจำแนกประเภทข้อความ: มาตรฐานและพื้นฐานผ่านการประมาณความหนาแน่นที่แข็งแกร่ง Kiyoon Yoo, Jangho Kim, Jiho Jang, Nojun Kwawk ACL 2022 (ผลการวิจัย) [PDF] [รหัส]
- “ นั่นเป็นปฏิกิริยาที่น่าสงสัย!”: การตีความการเปลี่ยนแปลงของ logits เพื่อตรวจจับการโจมตีของ NLP Edoardo Mosca, Shreyash Agarwal, Javier Rando Ramírez, Georg Groh ACL 2022. [PDF] [รหัส]
- Shield: การป้องกันเครือข่ายประสาทเทรดจากการโจมตีที่เป็นปฏิปักษ์กับกล่องดำหลายกล่องด้วยการแก้ไขแบบสุ่มแบบหลายผู้เชี่ยวชาญ TAIN LE, สวนจมูก, Dongwon Lee ACL 2022. [PDF]
- การก่อกวนในป่า: ใช้ประโยชน์จากการก่อกวนข้อความที่มนุษย์เขียนเพื่อการโจมตีและการป้องกันที่เป็นจริง ไทย le, Jooyoung Lee, Kevin Yen, Yifan Hu, Dongwon Lee ACL 2022 (ผลการวิจัย) [PDF]
- การบรรลุความทนทานของแบบจำลองผ่านการฝึกอบรมที่ไม่ต่อเนื่อง Maor Ivgi, Jonathan Berant EMNLP 2021. [PDF] [รหัส]
- การป้องกันการโจมตีที่ใช้การแทนที่ด้วยคำพ้องความหมายผ่านการโจมตีของฝ่ายตรงข้าม Yi Zhou, Xiaoqing Zheng, Cho-Jui Hsieh, Kai-Wei Chang, Xuanjing Huang ACL-IJCNLP 2021. [PDF]
- หลุมกระต่ายหวานโดยดาร์ซี: ใช้ฮันนีพ็อตเพื่อตรวจจับการโจมตีที่เป็นปฏิปักษ์ของ Universal Trigger TAIN LE, สวนจมูก, Dongwon Lee ACL-IJCNLP 2021. [PDF] [รหัส]
- ความทนทานที่ดีขึ้นโดยการครอบคลุมเพิ่มเติม: การเพิ่มข้อมูลที่เป็นปฏิปักษ์และการผสมผสานสำหรับการเพิ่มประสิทธิภาพที่แข็งแกร่ง Chenglei Si, Zhengyan Zhang, Fanchao Qi, Zhiyuan Liu, Yasheng Wang, Qon Liu, Maosong Sun ผลการวิจัยของ ACL: ACL-IJCNLP 2021. [PDF] [รหัส]
- Bert-Defense: โมเดลความน่าจะเป็นที่ใช้ Bert เพื่อต่อสู้กับการโจมตีของ orthographic ertarial Yannik Keller, Jan Mackensen, Steffen Eger ผลการวิจัยของ ACL: ACL-IJCNLP 2021. [PDF] [รหัส]
- ปกป้องแบบจำลองภาษาที่ผ่านการฝึกอบรมมาก่อนจากการทดแทนคำศัพท์โดยไม่เสียสละประสิทธิภาพ Rongzhou Bao, Jiayi Wang, Hai Zhao ผลการวิจัยของ ACL: ACL-IJCNLP 2021. [PDF] [รหัส]
- การเสริมความหลากหลายของการแปลเครื่องประสาท Guandan Chen, Kai Fan, Kaibo Zhang, ชกมวยเฉิน, Zhongqiang Huang ผลการวิจัยของ ACL: ACL-IJCNLP 2021. [PDF]
- การป้องกันความเป็นปฏิปักษ์ของภาษาธรรมชาติผ่านการเข้ารหัสคำพ้องความหมาย Xiaosen Wang, Hao Jin, Kun เขา UAI 2021. [PDF] [รหัส]
- การฝึกอบรมฝ่ายตรงข้ามด้วยวิธีการฉายการไล่ระดับสีที่รวดเร็วกับการโจมตีข้อความที่ใช้แทนคำพ้องความหมาย Xiaosen Wang, Yichen Yang, Yihe Deng, Kun HE AAAI 2021. [PDF] [รหัส]
- คำศัพท์ที่นำทางด้วยความถี่สำหรับการตรวจจับตัวอย่างที่เป็นปฏิปักษ์ต่อข้อความ Maximilian Mozes, Pontus Stenetorp, Bennett Kleinberg, Lewis D. Griffin EACL 2021. [PDF] [รหัส]
- ต่อความทนทานต่อการแทนที่คำภาษาธรรมชาติ Xinshuai Dong, Anh Tuan Luu, Rongrong Ji, Hong Liu ICLR 2021. [PDF] [รหัส]
- Infobert: ปรับปรุงความทนทานของแบบจำลองภาษาจากมุมมองทางทฤษฎีข้อมูล Boxin Wang, Shuohang Wang, Yu Cheng, Zhe Gan, Ruoxi Jia, Bo Li, Jingjing Liu ICLR 2021. [PDF] [รหัส]
- การเสริมสร้างแบบจำลองระบบประสาทด้วยช่องโหว่ผ่านการโจมตีที่เป็นปฏิปักษ์ Rong Zhang, Qifei Zhou, Bo An, Weiping Li, Tong Mo, Bo Wu COLING 2020. [PDF] [รหัส]
- การเรียนรู้แบบไม่มีศูนย์แบบตรงกันข้ามสำหรับสล็อตข้ามโดเมนที่เติมด้วยการโจมตีด้วยการโจมตี Keqing He, Jinchao Zhang, Yuanmeng Yan, Weiran Xu, Cheng Niu, Jie Zhou COLING 2020. [PDF]
- นึกถึงการผันของคุณ! การปรับปรุง NLP สำหรับภาษาอังกฤษที่ไม่ได้มาตรฐานด้วยการเข้ารหัสพื้นฐาน Samson Tan, Shafiq Joty, Lav R. Varshney, Min-Yen Kan EMNLP 2020. [PDF] [รหัส]
- การเข้ารหัสที่แข็งแกร่ง: กรอบสำหรับการต่อสู้กับความผิดพลาดของฝ่ายตรงข้าม Erik Jones, Robin Jia, Aditi Raghunathan, Percy Liang ACL 2020. [PDF] [รหัส]
- การฝังคำระดับอักขระร่วมกันและการฝึกอบรมความมั่นคงของฝ่ายตรงข้ามเพื่อปกป้องข้อความที่เป็นปฏิปักษ์ Hui Liu, Yongzheng Zhang, Yipeng Wang, Zheng Lin, Yige Chen Aaai 2020. [PDF]
- แนวทางการฝึกอบรมที่มีประสิทธิภาพที่แข็งแกร่งเพื่อความเข้าใจในการอ่านเครื่อง Kai Liu, Xin Liu, an Yang, Jing Liu, Jinsong Su, Sujian Li, Qiaoqiao เธอ Aaai 2020. [PDF]
- Freelb: การฝึกอบรมที่เพิ่มขึ้นสำหรับการทำความเข้าใจภาษา Chen Zhu, Yu Cheng, Zhe Gan, Siqi Sun, Tom Goldstein, Jingjing Liu Corr 2019. [PDF] [รหัส]
- การเรียนรู้ที่จะแยกแยะการก่อกวนเพื่อปิดกั้นการโจมตีของฝ่ายตรงข้ามในการจำแนกประเภทข้อความ Yichao Zhou, Jyun-yu Jiang, Kai-Wei Chang, Wei Wang EMNLP-IJCNLP 2019. [PDF] [รหัส]
- สร้างมันขึ้นมาเพื่อแก้ไขเพื่อความปลอดภัยของการสนทนา: ความทนทานจากการโจมตีของมนุษย์ฝ่ายตรงข้าม Emily Dinan, Samuel Humeau, Bharath Chintagunta, Jason Weston EMNLP-IJCNLP 2019. [PDF] [ข้อมูล]
- การต่อสู้กับการสะกดคำผิดที่เป็นปฏิปักษ์กับการจดจำคำที่แข็งแกร่ง Danish Pruthi, Bhuwan Dhingra, Zachary C. Lipton ACL 2019. [PDF] [รหัส]
- โมเดลที่แข็งแกร่งถึงเสียงรบกวนในงานการประมวลผลภาษาธรรมชาติ Valentin Malykh ACL 2019. [PDF] [รหัส]
4. ความทนทานที่ได้รับการรับรอง
- ได้รับการรับรองความทนทานต่อคำศัพท์การโจมตีด้วยความเป็นส่วนตัวที่แตกต่างกัน Wenjie Wang, Pengfei Tang, Jian Lou, Li Xiong NAACL-HLT 2021. [PDF]
- การวิเคราะห์การก่อกวนอัตโนมัติเพื่อความแข็งแกร่งที่ได้รับการรับรองและอื่น ๆ Kaidi Xu, Zhouxing Shi, Huan Zhang, Yihan Wang, Kai-Wei Chang, Minlie Huang, Bhavya Kailkhura, Xue Lin, Cho-Jui Hsieh Neurips 2020. [PDF] [รหัส]
- ปลอดภัยกว่า: วิธีการที่ปราศจากโครงสร้างสำหรับความทนทานที่ได้รับการรับรองเพื่อการแทนที่คำศัพท์ที่เป็นปฏิปักษ์ Mao Ye, Chengyue Gong, Qiang Liu ACL 2020. [PDF] [รหัส]
- การตรวจสอบความทนทานสำหรับหม้อแปลง Zhouxing Shi, Huan Zhang, Kai-Wei Chang, Minlie Huang, Cho-Jui Hsieh ICLR 2020. [PDF] [รหัส]
- การบรรลุความทนทานที่ตรวจสอบแล้วเพื่อการแทนที่สัญลักษณ์ผ่านการแพร่กระจายของช่วงเวลาที่ถูกผูกมัด Po-Sen Huang, Robert Stanforth, Johannes Welbl, Chris Dyer, Dani Yogatama, Sven Gowal, Krishnamurthy Dvijotham, Pushmeet Kohli EMNLP-IJCNLP 2019. [PDF]
- ได้รับการรับรองความทนทานต่อการทดแทนคำศัพท์ที่เป็นปฏิปักษ์ Robin Jia, Aditi Raghunathan, Kerem Göksel, Percy Liang EMNLP-IJCNLP 2019. [PDF] [รหัส]
- Popqorn: การหาปริมาณความทนทานของเครือข่ายประสาทที่เกิดขึ้นอีก Ching-Yun Ko, Zhaoyang Lyu, Lily Weng, Luca Daniel, Ngai Wong, Dahua Lin ICML 2019. [PDF] [รหัส]
5. เกณฑ์มาตรฐานและการประเมินผล
- DecodingTrust: การประเมินที่ครอบคลุมถึงความน่าเชื่อถือในแบบจำลอง GPT Boxin Wang, Weixin Chen, Hengzhi Pei, Chulin Xie, Mintong Kang, Chenhui Zhang, Chejian Xu, Zidi Xiong, Ritik Dutta, Rylan Schaeffer, Sang T. Truong, Simran Arora Bo li . NEURIPS 2023 (ชุดข้อมูลและการวัดประสิทธิภาพ) [PDF] [เว็บไซต์]
- การรักษาความหมายในการโจมตีที่เป็นปฏิปักษ์ David Herel, Hugo Cisneros, Tomas Mikolov Ecai 2023. [PDF] [รหัส]
- การกระตุ้นให้ GPT-3 มีความน่าเชื่อถือ Chenglei Si, Zhe Gan, Zhengyuan Yang, Shuohang Wang, Jianfeng Wang, Jordan Boyd-Graber, Lijuan Wang ICLR 2023. [PDF] [รหัส]
- เหตุใดการก่อกวนของฝ่ายตรงข้ามจึงไม่สามารถมองเห็นได้? ทบทวนกระบวนทัศน์การวิจัยใน NLP ที่เป็นปฏิปักษ์ Yangyi Chen, Hongcheng Gao, Ganquan Cui, Fanchao Qi, Longtao Huang, Zhiyuan Liu, Maosong Sun EMNLP 2022. [PDF] [รหัสและข้อมูล]
- การตีความความทนทานของโมเดล NLP ประสาทเพื่อการก่อกวนข้อความ Yunxiang Zhang, Liangming Pan, Samson Tan, Min-Yen Kan ผลการวิจัยของ ACL, 2022. [PDF]
- การตัดกันตัวอย่างของคำศัพท์ระดับมนุษย์และเครื่องจักรที่สร้างขึ้นจากเครื่องจักรสำหรับการจำแนกประเภทข้อความ Maximilian Mozes, Max Bartolo, Pontus Stenetorp, Bennett Kleinberg, Lewis D. Griffin EMNLP 2021. [PDF] [รหัส]
- Dynabench: ทบทวนการเปรียบเทียบใน NLP Douwe Kiela, Max Bartolo, Yixin Nie, Divyansh Kaushik, Atticus Geiger, Zhengxuan Wu, Bertie Vidgen, Grusha Prasad, Amanpreet Singh, Pratik Ringshia, Zhiyi Ma Bansal, Christopher Potts, Adina Williams NAACL 2021. [PDF] [เว็บไซต์]
- กาวที่เป็นปฏิปักษ์: เกณฑ์มาตรฐานหลายงานสำหรับการประเมินความแข็งแกร่งของแบบจำลองภาษา Boxin Wang, Chejian Xu, Shuohang Wang, Zhe Gan, Yu Cheng, Jianfeng Gao, Ahmed Hassan Awadallah, Bo Li NEURIPS 2021 (ชุดข้อมูลและการวัดประสิทธิภาพ) [PDF] [เว็บไซต์]
- การค้นหาผู้พิทักษ์ที่มีประสิทธิภาพ: การป้องกันการเปรียบเทียบกับการทดแทนคำศัพท์ที่เป็นปฏิปักษ์ Zongyi Li, Jianhan Xu, Jiehang Zeng, Linyang Li, Xiaoqing Zheng, Qi Zhang, Kai-Wei Chang และ Cho-Jui Hsieh EMNLP 2021. [PDF]
- การก่อกวนสองครั้ง: ความทนทานของการประเมินความแข็งแกร่งและการประเมินอคติ Chong Zhang, Jieyu Zhao, Huan Zhang, Kai-Wei Chang และ Cho-Jui Hsieh Naacl 2021. [PDF] [รหัส]
- ประเมินตัวอย่างที่เป็นปฏิปักษ์ในภาษาธรรมชาติอีกครั้ง John Morris, Eli Lifland, Jack Lanchantin, Yangfeng Ji, Yanjun Qi ผลการวิจัยของ ACL: EMNLP 2020. [PDF] [รหัสและข้อมูล]
- จากฮีโร่ถึงZéroe: เกณฑ์มาตรฐานของการโจมตีที่เป็นปฏิปักษ์ในระดับต่ำ Steffen Eger, Yannik Benz AACL-IJCNLP 2020. [PDF] [รหัสและข้อมูล]
- ฝ่ายตรงข้าม NLI: เกณฑ์มาตรฐานใหม่สำหรับการทำความเข้าใจภาษาธรรมชาติ Yixin Nie, Adina Williams, Emily Dinan, Mohit Bansal, Jason Weston, Douwe Kiela ACL 2020. [PDF] [DEMO] [ชุดข้อมูลและลีดเดอร์บอร์ด]
- การประเมินแบบจำลอง NLP ผ่านชุดคอนทราสต์ Matt Gardner, Yoav Artzi, Victoria Basmova, Jonathan Berant, Ben Bogin, Sihao Chen, Pradeep Dasigi, Dheeru Dua, Yanai Elazar, Ananth Gottumukala, Nitish Gupta, Hanna Hajishirzi Nelson F. Liu, Phoebe Mulcaire, Qiang Ning, Sameer Singh, Noah A. Smith, Sanjay Subramanian, Reut Tsarfaty, Eric Wallace, Ally Zhang, Ben Zhou ผลการวิจัยของ ACL: EMNLP 2020. [PDF] [เว็บไซต์]
- ในการประเมินผลการก่อกวนของฝ่ายตรงข้ามสำหรับแบบจำลองลำดับต่อลำดับ Paul Michel, Xian Li, Graham Neubig, Juan Miguel Pino NAACL-HLT 2019. [PDF] [รหัส]
6. เอกสารอื่น ๆ
- การระบุกลยุทธ์ของมนุษย์สำหรับการสร้างตัวอย่างที่เป็นปฏิปักษ์ในระดับคำ Maximilian Mozes, Bennett Kleinberg, Lewis D. Griffin ผลการวิจัยของ ACL: EMNLP 2022. [PDF]
- คำศัพท์: การฝึกอบรมการเสริมแรงจากคำศัพท์ที่ใช้คำศัพท์เพื่อการจำแนกความเชื่อมั่นที่แข็งแกร่ง Jingjing Xu, Liang Zhao, Hanqi Yan, Qi Zeng, Yun Liang, Xu Sun EMNLP-IJCNLP 2019. [PDF] [รหัส]
- การรวมการมองเห็นด้วยภาพรวม: การมองเห็นและภาษาที่มีการแสดงความหมายที่มีโครงสร้าง Hao Wu, Jiayuan Mao, Yufeng Zhang, Yuning Jiang, Lei Li, Weiwei Sun, Weii-inging Ma CVPR 2019. [PDF]
- การผจญภัย: การฝึกอบรมฝ่ายตรงข้ามสำหรับการส่งข้อความที่มีตัวอย่างด้วยความรู้ Dongyeop Kang, Tushar Khot, Ashish Sabharwal, Eduard Hovy ACL 2018. [PDF] [รหัส]
- การเรียนรู้ความหมายที่มีพื้นดินจากสายตาจากตัวอย่างที่ตรงกันข้าม Haoyue Shi, Jiayuan Mao, Tete Xiao, Yuning Jiang, Jian Sun Coling 2018. [PDF] [รหัส]
ผู้มีส่วนร่วม
เราขอขอบคุณผู้มีส่วนร่วมทั้งหมดในรายการนี้ และการมีส่วนร่วมเพิ่มเติมยินดีต้อนรับมาก