Documentos de lectura imprescindible sobre ataque adversario y defensa textuales (TAAD)
Esta lista es actualmente mantenida por Chenghao Yang en Uchicago.
Otros contribuyentes principales anteriores, incluidos Fanchao Qi y Yuan Zang, cuando estaban en Thunlp.
Agradecemos mucho a todos los grandes contribuyentes.
Contenido
- 0. Kits de herramientas
- 1. Documentos de encuestas
- 2. Documentos de ataque (clasificados según el nivel de perturbación)
- 2.1 Ataque a nivel de oración
- 2.2 Ataque a nivel de palabra
- 2.3 Ataque de nivel de char
- 2.4 Ataque de niveles múltiples
- 3. Documentos de defensa
- 4. Robustez certificada
- 5. Benchmark and Evaluation
- 6. Otros documentos
- Colaboradores
0. Kits de herramientas
- ROBUSTQA: Un marco para el análisis de generación de texto adversos en los sistemas de contestadores de preguntas . Yasaman Boreshban, Seyed Morteza Mirbostani, Seyedeh Fatemeh Ahmadi, Gita Shojaee, Fatemeh Kamani, Gholamreza Ghassem-Sani, Seyed Abolghasem Mirroshandel . EMNLP 2022 Demo. [CodeBase] [PDF]
- Seqattack: en ataques adversos para el reconocimiento de entidades nombrado . Walter Simoncini, Gerasimos Spanakis . EMNLP 2021 Demo. [Sitio web] [PDF]
- OpenAttack: un kit de herramientas de ataque adversario de origen abierto . Guoyang Zeng, Fanchao Qi, Qianrui Zhou, Tingji Zhang, Bairu Hou, Yuan Zang, Zhiyuan Liu, Maosong Sun. ACL-IJCNLP 2021 Demo. [Sitio web] [doc] [PDF]
- TextAtack: un marco para ataques adversos, aumento de datos y entrenamiento adversario en PNL . John Morris, Eli Lifland, Jin Yong Yoo, Jake Grigsby, Di Jin, Yanjun Qi . EMNLP 2020 Demo. [Sitio web] [doc] [PDF]
1. Documentos de encuestas
- Mida y mejore la robustez en los modelos de PNL: una encuesta . Xuezhi Wang, Haohan Wang, Diyi Yang . NAACL 2022. [PDF]
- Hacia una robusta red neuronal profunda en textos: una encuesta . Wenqi Wang, Lina Wang, Benxiao Tang, Run Wang, Aoshuang Ye . TKDE 2021. [PDF]
- Ataques adversos a modelos de aprendizaje profundo en el procesamiento del lenguaje natural: una encuesta . Wei Emma Zhang, Quan Z. Sheng, Ahoud Alhazmi, Chenliang Li . ACM TIST 2020. [PDF]
- Ataques y defensas adversas en imágenes, gráficos y texto: una revisión . Han Xu, Yao MA, Hao-Chen Liu, Debayan Deb, Hui Liu, Ji-Liang Tang, Anil K. Jain . Revista Internacional de Automatización y Computación 2020. [PDF]
- Métodos de análisis en el procesamiento del lenguaje neuronal: una encuesta . Yonatan Belinkov, James Glass . TACL 2019. [PDF]
2. Documentos de ataque
Cada documento se adjunta a una o más etiquetas siguientes que indican cuánta información conoce el modelo de ataque sobre el modelo de víctima : gradient (= white , toda la información), score (decisión de salida y puntajes), decision (solo decisión de salida) y blind (nada)
2.1 Ataque a nivel de oración
- Uso de ataques adversos para revelar el sesgo estadístico en los modelos de comprensión de lectura en la máquina . Jieyu Lin, Jiajie Zou, Nai Ding . ACL-IJCNLP 2021.
blind [PDF] - Ataque adversario y defensa de la caja gris para la clasificación de sentimientos . Ying Xu, Xu Zhong, Antonio Jimeno Yepes, Jey Han Lau . NAACL-HLT 2021.
gradient [PDF] [Código] - Generación de paráfrasis controladas sintácticamente sin usar pares paralelos anotados . Kuan-Hao Huang y Kai-Wei Chang . EACL 2021. [PDF] [Código]
- Gen-Gen: Mejora de la robustez en los modelos PNL a través de la generación de texto adversario controlado . Tianlu Wang, Xuezhi Wang, Yao Qin, Ben Packer, Kang Lee, Jilin Chen, Alex Beutel, Ed Chi . EMNLP 2020.
score [PDF] - T3: Tree-AutoCoder restringió la generación de texto adversario para un ataque dirigido . Boxin Wang, Hengzhi Pei, Boyuan Pan, Qian Chen, Shuohang Wang, Bo Li . EMNLP 2020.
gradient [PDF] [Código] - Ataque adversario y defensa de modelos de predicción estructurados . Wenjuan Han, Liwen Zhang, Yong Jiang, Kewei Tu . EMNLP 2020.
blind [PDF] [Código] - Malcom: Generación de comentarios maliciosos para atacar modelos de detección de noticias falsas neuronales . Thai Le, Suhang Wang, Dongwon Lee . ICDM 2020.
gradient [PDF] [Código] - Mejora de la robustez de los sistemas de respuesta de preguntas para cuestionar la paráfrasis . Wee chung gan, hwee tou ng . ACL 2019.
blind [PDF] [Datos] - Contratame si puedes: generación humana en el bucle de ejemplos adversos para responder preguntas . Eric Wallace, Pedro Rodríguez, Shi Feng, Ikuya Yamada, Jordan Boyd-Graber . TACL 2019.
score [PDF] - PAWS: adversarios parafraseados de la lucha de palabras . Yuan Zhang, Jason Baldridge, Luheng He . NAACL-HLT 2019.
blind [PDF] [conjunto de datos] - Evaluación y mejora de la robustez de los sistemas de diálogo: un estudio de caso sobre un agente de negociación . Minhao Cheng, Wei Wei, Cho-Jui Hsieh . NAACL-HLT 2019.
score gradient [PDF] [Código] - Reglas adversas semánticamente equivalentes para depurar modelos PNL . Marco Tulio Ribeiro, Sameer Singh, Carlos Guestrin . ACL 2018.
decision [PDF] [Código] - Regularizando adversar modelos NLI neurales para integrar el conocimiento lógico de antecedentes . Pasquale Minervini, Sebastian Riedel . Conll 2018.
score [PDF] [Código y datos] - Modelos de comprensión de máquina robusta a través de entrenamiento adversario . Yicheng Wang, Mohit Bansal . NAACL-HLT 2018.
decision [PDF] [conjunto de datos] - Generación de ejemplo adversos con redes de paraaphrase controladas sintácticamente . Mohit Iyyer, John Wieting, Kevin Gimpel, Luke Zettlemoyer . NAACL-HLT 2018.
blind [PDF] [Código y datos] - Generación de ejemplos adversos naturales . Zhengli Zhao, Dheeru Dua, Sameer Singh . ICLR 2018.
decision [PDF] [Código] - Ejemplos adversos para evaluar los sistemas de comprensión de lectura . Robin Jia, Percy Liang . EMNLP 2017.
score decision blind [PDF] [Código] - Conjuntos adversos para regularizar predictores de enlaces neuronales . Pasquale Minervini, Thomas Demeester, Tim Rocktäschel, Sebastian Riedel . UAI 2017.
score [PDF] [Código]
2.2 Ataque a nivel de palabra
- Alcance en expansión: adaptación de ataques adversos en inglés a chino . Hanyu Liu, Chengyuan Cai, Yanjun Qi . Hallazgos de ACL 2023.
decision [PDF] [Código] - Generación de texto adversario por búsqueda y aprendizaje . Guoyi Li, Bingkang Shi, Zongzhen Liu, Dehan Kong, Yulei Wu, Xiaodan Zhang, Longtao Huang, Honglei Lyu . Hallazgos de ACL 2023.
score [PDF] [Código] - ¡Unte la brecha entre CV y NLP! Un marco de ataque adversario textual basado en gradiente . Lifan Yuan, Yichi Zhang, Yangyi Chen, Wei Wei . Hallazgos de ACL 2023.
decision [PDF] [Código] - TexThacker: Algoritmo de búsqueda local híbrido basado en el aprendizaje para el ataque con el ataque adversario de etiqueta dura . Zhen Yu, Xiaen Wang, Wanxiang Che, Kun He . Hallazgos de EMNLP 2022.
decision [PDF] [Código] - Texthoaxer: ataques con adversario de marca dura presupuestada en el texto . Muyao Ye, Chenglin Miao, Ting Wang, Fenglong MA . AAAI 2022.
decision [PDF] [Código] - Ataques adversos de la caja negra de consulta y eficiente y escalable en datos secuenciales discretos a través de la optimización bayesiana . Deokjae Lee, Seungyong Moon, Junhyeok Lee, Hyun Oh Song . ICML 2022.
score [PDF] [Código] - Semattack: ataques textuales naturales en diferentes espacios semánticos . Boxin Wang, Chejian Xu, Xiangyu Liu, Yu Cheng, Bo Li . Hallazgos de NAACL 2022.
gradient [PDF] [Código] - Ataques adversos basados en gradiente contra transformadores de texto . Chuan Guo, Alexandre Sablayrolles, Hervé Jégou, Douwe Kiela . EMNLP 2021.
gradient [PDF] [Código] - Una fuerte línea de base para ataques eficientes de consulta en una configuración de caja negra . Rishabh Maheswary, Saket Maheshwary, Vikram Pudi . EMNLP 2021.
score [PDF] [Código] - Sobre la transferibilidad de los ataques adversos contra el clasificador de texto neuronal . Liping Yuan, Xiaoqing Zheng, Yi Zhou, Cho-Jui Hsieh, Kai-Wei Chang . EMNLP 2021. [PDF]
- Crafting Ejemplos adversos para la traducción de la máquina neuronal . Xinze Zhang, Junzhe Zhang, Zhenhua Chen, Kun He . ACL-IJCNLP 2021.
score [PDF] [Código] - Un estudio empírico sobre el ataque adversario contra NMT: los idiomas y las posiciones son importantes . Zhiyuan Zeng, Deyi Xiong . ACL-IJCNLP 2021.
score [PDF] - Una mirada más cercana a la robustez de los analizadores de dependencia neuronal utilizando mejores ejemplos adversos . Yuxuan Wang, Wanxiang CHE, Ivan Titov, Shay B. Cohen, Zhilin Lei, Ting Liu . Hallazgos de ACL: ACL-IJCNLP 2021.
score [PDF] [Código] - Perturbación contextualizada para un ataque adversario textual . Dianqi Li, Yizhe Zhang, Hao Peng, Liqun Chen, Chris Brockett, Ming-Ting Sun, Bill Dolan . NAACL-HLT 2021.
score [PDF] [Código] - ADV-OLM: Generación de adversarios textuales a través de OLM . Vijit Malik, Ashwani Bhat, Ashutosh Modi . EACL 2021.
score [PDF] [Código] - Estilometría adversaria en la naturaleza: ataques de sustitución léxica transferibles para el beneficio del autor . Chris Emmery, Ákos Kádár, Grzegorz Chrupała . EACL 2021.
blind [PDF] [Código] - Generando ataques de lenguaje natural en una configuración de caja negra de etiqueta dura . Rishabh Maheshwary, Saket Maheshwary, Vikram Pudi . AAAI 2021.
decision [PDF] [Código] - Un ataque inspirado en la geometría para generar ejemplos adversos en lenguaje natural . Zhao Meng, Roger Wattenhofer . Coling 2020.
gradient [PDF] [Código] - Bert-Attack: ataque adversario contra Bert usando Bert . Linyang Li, Ruotian MA, Qipeng Guo, Xiangyang Xue, Xipeng Qiu . EMNLP 2020.
score [PDF] [Código] - BAE: ejemplos adversos basados en Bert para la clasificación de texto . Siddhant Garg, Goutham Ramakrishnan . EMNLP 2020.
score [PDF] [Código] - Detección de sesgos de desambiguación del sentido de las palabras en la traducción automática para ataques adversos agnósticos del modelo . Denis Emelin, Ivan Titov, Rico Sennrich . EMNLP 2020.
blind [PDF] [Código] - Ataques de imitación y defensas para sistemas de traducción automática de cajas negras . Eric Wallace, Mitchell Stern, Canción Dawn . EMNLP 2020.
decision [PDF] [Código] - Robustez a la modificación con palabras compartidas en la identificación de paráfrasis . Zhouxing Shi, Minlie Huang . Hallazgos de ACL: EMNLP 2020.
score [PDF] - Atacamiento adversario textual a nivel de palabras como optimización combinatoria . Yuan Zang, Fanchao Qi, Chenghao Yang, Zhiyuan Liu, Meng Zhang, Qun Liu, Maosong Sun. ACL 2020.
score [PDF] [Código] - ¡Es la hora de morfina! Combatir la discriminación lingüística con perturbaciones de inflexión . Samson Tan, Shafiq Joty, Min-Yen Kan, Richard Scher . ACL 2020.
score [PDF] [Código] - Sobre la robustez de los codificadores del lenguaje contra los errores gramaticales . Fan Yin, Quanyu Long, Tao Meng, Kai-Wei Chang . ACL 2020.
score [PDF] [Código] - Evaluar y mejorar la robustez de los modelos de análisis de dependencia basados en redes neuronales con ejemplos adversos . Xiaoqing Zheng, Jiehang Zeng, Yi Zhou, Cho-Jui Hsieh, Minhao Cheng, Xuanjing Huang . ACL 2020.
score gradient [PDF] [Código] - Una generación reforzada de ejemplos adversos para la traducción del automóvil neuronal . Wei Zou, Shujian Huang, Jun Xie, Xinyu Dai, Jiajun Chen . ACL 2020.
decision [PDF] - ¿Bert es realmente robusto? Una fuerte línea de base para el ataque del lenguaje natural en la clasificación de texto y la implicación . Di Jin, Zhijing Jin, Joey Tianyi Zhou, Peter Szolovits . AAAI 2020.
score [PDF] [Código] - SEQ2Sick: Evaluación de la robustez de los modelos de secuencia a secuencia con ejemplos adversos . Minhao Cheng, Jinfeng Yi, Pin-Yu Chen, Huan Zhang, Cho-Jui Hsieh . AAAI 2020.
score [PDF] [Código] - Ataque codicioso y ataque gumbel: generar ejemplos adversos para datos discretos . Puyudi Yang, Jianbo Chen, Cho-Jui Hsieh, Jane-Lingwang, Michael I. Jordan . JMLR 2020.
score [PDF] [Código] - Sobre la robustez de los modelos de autoefición . Yu-lun Hsieh, Minhao Cheng, Da-Cheng Juan, Wei Wei, Wen-Lian Hsu, Cho-Jui Hsieh . ACL 2019.
score [PDF] - Generación de ejemplos adversos en lenguaje natural a través de la probabilidad de prominencia de palabras ponderadas . Shuhuai Ren, Yihe Deng, Kun He, Wanxiang Che . ACL 2019.
score [PDF] [Código] - Generación de ejemplos adversos con fluidez para idiomas naturales . Huangzhao Zhang, Hao Zhou, Ning Miao, Lei Li . ACL 2019.
score gradient [PDF] [Código] - Traducción de máquina neuronal robusta con entradas doblemente adversas . Yong Cheng, Lu Jiang, Wolfgang Macherey . ACL 2019.
gradient [PDF] - Ataques adversos universales en clasificadores de texto . Melika Behjati, Seyed-Mohsen Moosavi-Dezfooli, Mahdieh Soleymani Baghshah, Pascal Frossard . ICASSP 2019.
gradient [PDF] - Generación de ejemplos adversos en lenguaje natural . Moustafa Alzantot, Yash Sharma, Ahmed Elgohary, Bo-Jhang Ho, Mani Srivastava, Kai-Wei Chang . EMNLP 2018.
score [PDF] [Código] - Romper sistemas NLI con oraciones que requieren inferencias léxicas simples . Max Glockner, versado Shwartz, Yoav Goldberg . ACL 2018.
blind [PDF] [conjunto de datos] - Se puede engañar la clasificación de texto profundo . Bin Liang, Hongcheng Li, Miaoqiang Su, Pan Bian, Xirong Li, Wenchang Shi . IJCAI 2018.
score gradient [PDF] - Perturbación adversaria interpretable en el espacio de incrustación de entrada para el texto . Sato, Motoki, Jun Suzuki, Hiroyuki Shindo, Yuji Matsumoto . IJCAI 2018.
gradient [PDF] [Código] - Hacia la elaboración de muestras adversas de texto . Suranjana Samanta, Sameep Mehta . ECIR 2018.
gradient [PDF] - Elaboración de secuencias de entrada adversas para redes neuronales recurrentes . Nicolas Papernot, Patrick McDaniel, Ananthram Swami, Richard Harang . MILCOM 2016.
gradient [PDF]
2.3 Ataque de nivel de char
- Revisando ataques adversos a nivel de personaje para modelos de idiomas . Elias Abad Rocamora , Yongtao Wu, Fanghui Liu, Grigorios G. Chrysos, Volkan Cevher, ICML 2024.
score gradient blind [PDF] [Código] - VertAttack: aprovechando la visión horizontal de los clasificadores de texto . Jonathan Rusert , NAACL 2024.
score blind [PDF] - Ataque a nivel de puntuación: la puntuación única y una sola puntuación puede engañar a los modelos de texto . Wenqiang Wang, Chongyang Du, Tao Wang, Kaihao Zhang, Wenhan Luo, Lin MA, Wei Liu, Xiaochun Cao . Neurips 2023.
score blind [PDF] - Uso de la puntuación como un ataque adversario a los sistemas de PNL basados en el aprendizaje profundo: un estudio empírico . Brian Futmento, Chuan Sheng Foo, Luu anh Tuan, ver Kiong ng . EACL (Hallazgos) 2023.
score blind [PDF] [Código] - Extracción del modelo y transferibilidad adversa, ¡su Bert es vulnerable! . Xuanli He, Lingjuan Lyu, Lichao Sun, Qiongkai Xu . NAACL-HLT 2021.
blind [PDF] [Código] - Procesamiento de texto como lo hacen los humanos: atacando y protegiendo visualmente los sistemas de PNL . Steffen Eger, Gözde Gül ¸sahin, Andreas Rücklé, Ji -ung Lee, Claudia Schulz, Mohsen Mesgar, Krishnkant Swarnkar, Edwin Simpson, Iryna Gurevych . NAACL-HLT 2019.
blind [PDF] [Código y datos] - White-to-Black: Destilación eficiente de los ataques adversos en caja negra . Syotam Gil, Yoav Chai o Gorodissky, Jonathan Berant . NAACL-HLT 2019.
blind [PDF] [Código] - Generación de cajas negras de secuencias de texto adversas para evadir clasificadores de aprendizaje profundo . Ji Gao, Jack Lanchantin, Mary Lou Soffa, Yanjun Qi . IEEE SPW 2018.
score [PDF] [Código] - En ejemplos adversos para la traducción del automóvil neuronal a nivel de carácter . Javid Ebrahimi, Daniel Lowd, Dejing Dou . Coling 2018.
gradient [PDF] [Código] - El ruido sintético y natural rompe la traducción de la máquina neural . Yonatan Belinkov, Yonatan Bisk . ICLR 2018.
blind [PDF] [Código y datos]
2.4 Ataque de niveles múltiples
- Un LLM puede engañarse a sí mismo: un ataque adversario basado en rápido . Xilie Xu, Keyi Kong, Ning Liu, Lizhen Cui, Di Wang, Jingfeng Zhang, Mohan Kankanhalli . ICLR 2024.
blind [PDF] - Ataque de adversario textual multigranularidad con clonación de comportamiento . Yangyi Chen, Jin Su, Wei Wei . EMNLP 2021.
blind [PDF] [Código] - Sincronización de respuestas negativas adversas para la clasificación y evaluación de respuesta sólida . Prakhar Gupta, Yulia Tsvetkov, Jeffrey Bigham . Hallazgos de ACL: ACL-IJCNLP 2021.
blind [PDF] [Código] - Mezcla de código en Sesame Street: Amanecer de los políglocas adversas . Samson Tan, Shafiq Joty . NAACL-HLT 2021.
score [PDF] [Código] - Ataques adversos universales con desencadenantes naturales para la clasificación de texto . Liwei Song, Xinwei Yu, Hsuan-Tung Peng, Karthik Narasimhan . NAACL-HLT 2021.
gradient [PDF] [Código] - BBAEG: Hacia la generación de ejemplo adversas biomédicas basadas en Bert para la clasificación de texto . Ishani Mondal . NAACL-HLT 2021.
score [PDF] [Código] - No tome una respuesta "NSWVTNVAKGXPM" para una respuesta: la sorprendente vulnerabilidad de los sistemas de puntuación de contenido automático a la entrada adversaria . Yuning Ding, Brian Riordan, Andrea Horbach, Aoife Cahill, Torsten Zesch . Coling 2020.
blind [PDF] [Código] - Desencadenantes de adversario universal para atacar y analizar PNL . Eric Wallace, Shi Feng, Nikhil Kandpal, Matt Gardner, Sameer Singh . EMNLP-IJCNLP 2019.
gradient [PDF] [Código] [Sitio web] - TextBugger: Generación de texto adversos contra aplicaciones del mundo real . Jinfeng Li, Shoulling JI, Tianyu Du, Bo Li, Ting Wang . NDSS 2019.
score gradient [PDF] - Generación de ejemplos adversos en caja negra para clasificadores de texto utilizando un modelo reforzado profundo . Prashanth Vijayaraghavan, Deb Roy . ECMLPKDD 2019.
score [PDF] - Hotflip: ejemplos adversos de caja blanca para la clasificación de texto . Javid Ebrahimi, Anyi Rao, Daniel Lowd, Dejing Dou . ACL 2018.
gradient [PDF] [Código] - Estrategias adversas excesivas y sobreestabilidad para modelos de diálogo . Tong Niu, Mohit Bansal . Conll 2018.
blind [PDF] [Código y datos] - Comparación de redes neuronales convolucionales y recurrentes basadas en la atención: éxito y limitaciones en la comprensión de la lectura a la máquina . Matthias Blohm, Glorianna Jagfeld, Ekta Sood, Xiang Yu, Ngoc Thang Vu . Conll 2018.
gradient [PDF] [Código]
3. Documentos de defensa
- ¿Son robustos los detectores de texto generados por IA a las perturbaciones adversas? Guanhua Huang, Yuchen Zhang, Zhe Li, Yongjian You, Mingze Wang y Zhouwang Yang. ACL 2024. [PDF] [Código]
- SEMRODE: entrenamiento macro adversario para aprender representaciones que son sólidas para los ataques a nivel de palabras . Brian Futmento, Wenjie Feng, Chuan-Sheng Foo, Anh Tuan Luu, See-kiong ng . NAACL 2024. [PDF] [Código]
- DSRM: Boost Entrenamiento adversario textual con minimización del riesgo de cambio de distribución . Songyang Gao, Shihan Dou, Yan Liu, Xiao Wang, Qi Zhang, Zhongyu Wei, Jin Ma, Ying Shan . ACL 2023. [PDF] [Código]
- Entrenamiento adversario generativo con detección de token perturbado para la robustez del modelo . Jiahao Zhao, Wenji Mao . EMNLP 2023. [PDF] [Código]
- Defensa textual basada en colectores contra ejemplos adversos en lenguaje natural . Dang Minh Nguyen, Luu anh Tuan . EMNLP 2022. [PDF] [Código]
- Detección de ataques de texto adversos a nivel de palabras a través de explicaciones aditivas de Shapley . Lukas Huber, Marc Alexander Kühn, Edoardo Mosca, Georg Groh . Repl4nlp@ACL 2022. [PDF] [Código]
- Detección de ejemplos adversos en la clasificación de texto: punto de referencia y línea de base a través de una estimación de densidad robusta . Kiyoon Yoo, Jangho Kim, Jiho Jang, Nojun Kwawk . ACL 2022 (hallazgos). [PDF] [Código]
- "¡Esa es una reacción sospechosa!": Interpretando la variación de logits para detectar ataques adversos en PNL . Edoardo Mosca, Shreyash Agarwal, Javier Rando Ramírez, Georg Groh . ACL 2022. [PDF] [Código]
- Escudo: defensores de redes neuronales textuales contra múltiples ataques adversos en caja negra con parche de expertos estocásticos . Thai LE, Parque Originong, Dongwon Lee . ACL 2022. [PDF]
- Perturbaciones en la naturaleza: aprovechando las perturbaciones de texto escritas por humanos para un ataque adversario y defensa realistas . Thai Le, Jooyoung Lee, Kevin Yen, Yifan Hu, Dongwon Lee . ACL 2022 (hallazgos). [PDF]
- Lograr la robustez del modelo a través de una capacitación adversaria discreta . Maor IVGI, Jonathan Berant . EMNLP 2021. [PDF] [Código]
- Defensa contra ataques adversos basados en la sustitución del sinónimo a través del conjunto del vecindario de Dirichlet . Yi Zhou, Xiaoqing Zheng, Cho-Jui Hsieh, Kai-Wei Chang, Xuanjing Huang . ACL-IJCNLP 2021. [PDF]
- Una dulce madriguera del conejo de Darcy: usar honeypots para detectar los ataques adversos del Trigger Universal . Thai LE, Parque Originong, Dongwon Lee . ACL-IJCNLP 2021. [PDF] [Código]
- Mejor robustez por más cobertura: aumento de datos adversos y confusos para ficlar sintonización robusta . Chenglei SI, Zhengyan Zhang, Fanchao Qi, Zhiyuan Liu, Yasheng Wang, Qun Liu, Maosong Sun. Hallazgos de ACL: ACL-IJCNLP 2021. [PDF] [Código]
- Bert-Defense: un modelo probabilístico basado en Bert para combatir ataques de adversario ortográficos inspirados cognitivamente . Yannik Keller, Jan Mackensen, Steffen Eger . Hallazgos de ACL: ACL-IJCNLP 2021. [PDF] [Código]
- Defender modelos de lenguaje pretrontrados de la sustitución de palabras adversas sin sacrificio de rendimiento . Rongzhou Bao, Jiayi Wang, Hai Zhao . Hallazgos de ACL: ACL-IJCNLP 2021. [PDF] [Código]
- Aumento adversario múltiple para la traducción del automóvil neuronal . Guandan Chen, Kai Fan, Kaibo Zhang, Boxing Chen, Zhongqiang Huang . Hallazgos de ACL: ACL-IJCNLP 2021. [PDF]
- Lenguaje natural Defensa adversa a través de la codificación del sinónimo . Xiaen Wang, Hao Jin, Kun He . UAI 2021. [PDF] [Código]
- Entrenamiento adversario con método de proyección de gradiente rápido contra ataques de texto basados en la sustitución del sinónimo . Xiaen Wang, Yichen Yang, Yihe Deng, Kun He . AAAI 2021. [PDF] [Código]
- Sustituciones de palabras guiadas por frecuencia para detectar ejemplos adversos textuales . Maximilian Mozes, Pontus Stenetorp, Bennett Kleinberg, Lewis D. Griffin . EACL 2021. [PDF] [Código]
- Hacia la robustez contra las sustituciones de palabras del lenguaje natural. Xinshuai Dong, Anh Tuan Luu, Rongrong Ji, Hong Liu. ICLR 2021. [PDF] [Código]
- Infobert: Mejora de la robustez de los modelos de lenguaje desde una perspectiva teórica de la información . Boxin Wang, Shuohang Wang, Yu Cheng, Zhe Gan, Ruoxi Jia, Bo Li, Jingjing Liu . ICLR 2021. [PDF] [Código]
- Mejora de los modelos neuronales con vulnerabilidad a través del ataque adversario . Rong Zhang, Qifei Zhou, Bo An, Weiping Li, Tong MO, Bo Wu . Coling 2020. [PDF] [Código]
- Aprendizaje de disparo cero contrastante para el llenado de ranuras de dominio cruzado con un ataque de avance . Keqing He, Jinchao Zhang, Yuanmeng Yan, Weiran Xu, Cheng Niu, Jie Zhou . Coling 2020. [PDF]
- ¡Cuida tus inflexiones! Mejora de PNL para inglés no estándar con codificación de inflección base . Samson Tan, Shafiq Joty, Lav R. Varshney, Min-Yen Kan . EMNLP 2020. [PDF] [Código]
- Codificaciones robustas: un marco para combatir errores tipográficos adversos . Erik Jones, Robin Jia, Aditi Raghunathan, Percy Liang . ACL 2020. [PDF] [Código]
- Entrenamiento de palabras a nivel de carácter conjunto y entrenamiento de estabilidad adversaria para defender el texto adversario . Hui Liu, Yongzheng Zhang, Yipeng Wang, Zheng Lin, Yige Chen . AAAI 2020. [PDF]
- Un enfoque de entrenamiento adversario robusto para la comprensión de lectura a la máquina . Kai Liu, Xin Liu, An Yang, Jing Liu, Jinsong SU, Sujian Li, Qiaoqiao ella . AAAI 2020. [PDF]
- Freelb: capacitación adversaria mejorada para la comprensión del lenguaje . Chen Zhu, Yu Cheng, Zhe Gan, Siqi Sun, Tom Goldstein, Jingjing Liu . Corr 2019. [PDF] [Código]
- Aprender a discriminar las perturbaciones para bloquear los ataques adversos en la clasificación de texto . Yichao Zhou, Jyun-yu Jiang, Kai-Wei Chang, Wei Wang . EMNLP-IJCNLP 2019. [PDF] [Código]
- Construya que lo rompa para arreglarlo para la seguridad del diálogo: robustez del ataque humano adversario . Emily Dinan, Samuel Humeau, Bharath Chintaguinta, Jason Weston . EMNLP-IJCNLP 2019. [PDF] [Datos]
- Combatir errores de ortografía adversas con un robusto reconocimiento de palabras . Pruthi danés, Bhuwan Dhingra, Zachary C. Lipton . ACL 2019. [PDF] [Código]
- Modelos robustos a ruido en tareas de procesamiento del lenguaje natural . Valentin Malykh . ACL 2019. [PDF] [Código]
4. Robustez certificada
- Ataque de robustez certificada a la sustitución de palabras con privacidad diferencial . Wenjie Wang, Pengfei Tang, Jian Lou, Li Xiong . NAACL-HLT 2021. [PDF]
- Análisis de perturbación automática para robustez certificada escalable y más allá . Kaidi Xu, Zhouxing Shi, Huan Zhang, Yihan Wang, Kai-Wei Chang, Minlie Huang, Bhavya Kailkhura, Xue Lin, Cho-Jui Hsieh . Neurips 2020. [PDF] [Código]
- Más seguro: un enfoque sin estructura para la robustez certificada a las sustituciones de palabras adversas . Mao Ye, Chengyue Gong, Qiang Liu . ACL 2020. [PDF] [Código]
- Verificación de robustez para transformadores . Zhouxing Shi, Huan Zhang, Kai-Wei Chang, Minlie Huang, Cho-Jui Hsieh . ICLR 2020. [PDF] [Código]
- Lograr la robustez verificada a las sustituciones de símbolos a través de la propagación de intervalo . Po-Sen Huang, Robert Stanforth, Johannes Welbl, Chris Dyer, Dani Yogatama, Sven Gowal, Krishnamurthy Dvijotham, Pushmeet Kohli . EMNLP-IJCNLP 2019. [PDF]
- Robustez certificada a sustituciones de palabras adversas . Robin Jia, Aditi Raghunathan, Kerem Göksel, Percy Liang . EMNLP-IJCNLP 2019. [PDF] [Código]
- Popqorn: cuantificando la robustez de las redes neuronales recurrentes . Ching-yun Ko, Zhaoyang Lyu, Lily Weng, Luca Daniel, Ngai Wong, Dahua Lin . ICML 2019. [PDF] [Código]
5. Benchmark and Evaluation
- DecodingTrust: una evaluación integral de la confiabilidad en los modelos GPT . Boxin Wang, Weixin Chen, Hengzhi Pei, Chulin Xie, Mintong Kang, Chenhui Zhang, Chejian Xu, Zidi Xiong, Ritik Dutta, Rylan Schaeffer, Sang T. Truong, Simran Arora, Mantas Mazeika, Dan Hendrycks, Zinan Lin, Yu Cheng, Sanmi Koyejo, Dawn Canción, Bo Li . Neurips 2023 (conjuntos de datos y puntos de referencia). [PDF] [Sitio web]
- Preservar semántica en ataques adversos textuales . David Herel, Hugo Cisneros, Tomas Mikolov . ECAI 2023. [PDF] [Código]
- Provocar que GPT-3 sea confiable . Chenglei SI, Zhe Gan, Zhengyuan Yang, Shuohang Wang, Jianfeng Wang, Jordan Boyd-Graber, Lijuan Wang . ICLR 2023. [PDF] [Código]
- ¿Por qué deberían ser imperceptibles las perturbaciones adversas? Repensar el paradigma de investigación en la PNL adversaria . Yangyi Chen, Hongcheng Gao, Ganqu Cui, Fanchao Qi, Longtao Huang, Zhiyuan Liu, Maosong Sun. EMNLP 2022. [PDF] [Código y datos]
- Interpretando la robustez de los modelos NLP neurales a las perturbaciones textuales. Yunxiang Zhang, Liangming Pan, Samson Tan, Min-Yen Kan . Hallazgos de ACL, 2022. [PDF]
- Contrastando ejemplos de adversario a nivel de palabra humano y ametralladoras para la clasificación de texto . Maximilian Mozes, Max Bartolo, Pontus Stenetorp, Bennett Kleinberg, Lewis D. Griffin . EMNLP 2021. [PDF] [Código]
- Dynabench: Repensar la evaluación comparativa en la PNL. Douwe Kiela, Max Bartolo, Yixin Nie, Divyansh Kaushik, Atticus Geiger, Zhengxuan Wu, Bertie Vidgen, Grusha Prasad, Amanpreet Singh, Pratik Ringshia, Zhiyi MA, Tristan Thrush, Sebastian Riedel, Zeerak Waseem, Pontus Stenetorp, Robin, Robin, Robin, Rob, Rob, Rob, Rob, Robinet, Robinet, Robinet, Rob, Robin, Robinet, Rob, Robinet, Rob, Rob, Robin, Robinet, Robinet, Rob, Rob, Robinet, Rob, Robinet, Robinet, Robinet, Robinet, Robinet, Robin, Robinet, Robinet, Robinet, Robin, Robin, Robinet, Robinet, Robinet. Bansal, Christopher Potts, Adina Williams . NAACL 2021. [PDF] [Sitio web]
- Glue adversario: un punto de referencia de varias tareas para la evaluación de robustez de los modelos de idiomas. Boxin Wang, Chejian Xu, Shuohang Wang, Zhe Gan, Yu Cheng, Jianfeng Gao, Ahmed Hassan Awadallah, Bo Li . Neurips 2021 (conjuntos de datos y puntos de referencia). [PDF] [Sitio web]
- Buscando un defensor efectivo: defensa de la evaluación comparativa contra la sustitución de palabras adversas. Zongyi Li, Jianhan Xu, Jiehang Zeng, Linyang Li, Xiaoqing Zheng, Qi Zhang, Kai-Wei Chang y Cho-Jui Hsieh . EMNLP 2021. [PDF]
- Doble perturbación: sobre la robustez de la robustez y la evaluación de sesgo contrafactual . Chong Zhang, Jieyu Zhao, Huan Zhang, Kai-Wei Chang y Cho-Jui Hsieh Naacl 2021. [PDF] [Código]
- Reevaluando ejemplos adversos en lenguaje natural . John Morris, Eli Lifland, Jack Lanchantin, Yangfeng Ji, Yanjun Qi . Hallazgos de ACL: EMNLP 2020. [PDF] [Código y datos]
- De Hero a Zéroe: un punto de referencia de ataques condenos de bajo nivel . Steffen Eger, Yannik Benz . AACL-IJCNLP 2020. [PDF] [Código y datos]
- NLI adversario: un nuevo punto de referencia para la comprensión del lenguaje natural . Yixin Nie, Adina Williams, Emily Dinan, Mohit Bansal, Jason Weston, Douwe Kiela . ACL 2020. [PDF] [demo] [conjunto de datos y tabla de clasificación]
- Evaluación de modelos PNL a través de conjuntos de contraste . Matt Gardner, Yoav Artzi, Victoria Basmova, Jonathan Berant, Ben Bogin, Sihao Chen, Pradeep Dasigi, Dheeru Dua, Yanai Elazar, Ananth Gottumukkala, Nitish Gupta, Hanna Hajishirzi, Gabriel Ilharco, Daniel Khashabi, Kevin Lin, Jiangming Liu, Nelson F. Liu, Phoebe Mulcaire, Qiang Ning, Sameer Singh, Noah A. Smith, Sanjay Subramanian, Reut Tsarfaty, Eric Wallace, Ally Zhang, Ben Zhou . Hallazgos de ACL: EMNLP 2020. [PDF] [Sitio web]
- En evaluación de perturbaciones adversas para modelos de secuencia a secuencia . Paul Michel, Xian Li, Graham Neubig, Juan Miguel Pino . NAACL-HLT 2019. [PDF] [Código]
6. Otros documentos
- Identificación de estrategias humanas para generar ejemplos adversos a nivel de palabras . Maximilian Mozes, Bennett Kleinberg, Lewis D. Griffin . Hallazgos de ACL: EMNLP 2022. [PDF]
- Léxico: capacitación de refuerzo adversario basado en léxico para una clasificación de sentimiento robusto . Jingjing Xu, Liang Zhao, Hanqi Yan, Qi Zeng, Yun Liang, Xu Sun. EMNLP-IJCNLP 2019. [PDF] [Código]
- Incrustos unificados visuales-semánticos: puente de visión y lenguaje con representaciones estructuradas de significado . Hao Wu, Jiayuan Mao, Yufeng Zhang, Yuning Jiang, Lei Li, Weiwei Sun, Wei-Ying Ma . CVPR 2019. [PDF]
- Aventura: entrenamiento adversario para la implicación textual con ejemplos guiados por el conocimiento . Dongyeop Kang, Tushar Khot, Ashish Sabharwal, Eduard Hovy . ACL 2018. [PDF] [Código]
- Aprendiendo semántica visualmente fundada de muestras adversas contrastadas . Haoyue Shi, Jiayuan Mao, Tete Xiao, Yuning Jiang, Jian Sun. Coling 2018. [PDF] [Código]
Colaboradores
Agradecemos a todos los contribuyentes a esta lista. Y más contribuciones son muy bienvenidas.