Papéis de leitura obrigatória sobre ataque adversário e defesa textuais (Taad)
Atualmente, esta lista é mantida por Chenghao Yang em Uchicago.
Outros principais colaboradores anteriores, incluindo Fanchao Qi, e Yuan Zang quando estavam no Thunlp.
Agradecemos muito a todos os grandes colaboradores.
Conteúdo
- 0. kits de ferramentas
- 1. Documentos de pesquisa
- 2. Documentos de ataque (classificados de acordo com o nível de perturbação)
- 2.1 Ataque no nível da frase
- 2.2 Ataque no nível da palavra
- 2.3 Ataque no nível do char
- 2.4 Ataque de vários níveis
- 3. Documentos de defesa
- 4. Robustez certificada
- 5. Referência e avaliação
- 6. Outros papéis
- Colaboradores
0. kits de ferramentas
- Robustqa: Uma estrutura para análise de geração de texto adversário sobre sistemas de resposta a perguntas . Yasaman Boreshban, Seyed Morteza Mirbostani, Seyedeh Fatemeh Ahmadi, Gita Shojaee, Fatemeh Kamani, Gholamreza Ghassem-Sani, Seyed Abolghasem Mirhoshandel . Demonstração do EMNLP 2022. [CodeBase] [PDF]
- Seqattack: Sobre ataques adversários para reconhecimento de entidade nomeado . Walter Simoncini, Gerasimos Spalakis . Demonstração do EMNLP 2021. [Site] [PDF]
- Openattack: um kit de ferramentas de ataque adversário textual de código aberto . Guoyang Zeng, Fanchao Qi, Qianrui Zhou, Tingji Zhang, Bairu Hou, Yuan Zang, Zhiyuan Liu, Maosong Sun. Demoção ACL-IJCNLP 2021. [Site] [Doc] [PDF]
- Textattack: uma estrutura para ataques adversários, aumento de dados e treinamento adversário na PNL . John Morris, Eli Lifland, Jin Yong Yoo, Jake Grigsby, Di Jin, Yanjun Qi . Demonstração do EMNLP 2020. [Site] [Doc] [PDF]
1. Documentos de pesquisa
- Meça e melhore a robustez nos modelos de PNL: uma pesquisa . Xuezhi Wang, Haohan Wang, Diyi Yang . NAACL 2022. [PDF]
- Para uma rede neural profunda robusta em textos: uma pesquisa . Wenqi Wang, Lina Wang, Benxiao Tang, Run Wang, Aoshuang Ye . TKDE 2021. [PDF]
- Ataques adversários a modelos de aprendizado profundo no processamento de linguagem natural: uma pesquisa . Wei Emma Zhang, Quan Z. Sheng, Ahoud Alazmi, Chenliang Li . ACM TIST 2020. [PDF]
- Ataques e defesas adversárias em imagens, gráficos e texto: uma revisão . Han Xu, Yao MA, Hao-Chen Liu, Debayan Deb, Hui Liu, Ji-Liang Tang, Anil K. Jain . Jornal Internacional de Automação e Computação 2020. [PDF]
- Métodos de análise no processamento da linguagem neural: uma pesquisa . Yonatan Belinkov, James Glass . TACL 2019. [PDF]
2. Documentos de ataque
Cada artigo é anexado a um ou mais rótulos seguintes, indicando quanta informação o modelo de ataque conhece sobre o modelo da vítima : gradient (= white , todas as informações), score (decisão de saída e pontuações), decision (apenas decisão de saída) e blind (nada)
2.1 Ataque no nível da frase
- Usando ataques adversários para revelar o viés estatístico nos modelos de compreensão de leitura de máquina . Jieyu Lin, Jiajie Zou, Nai Ding . ACL-IJCNLP 2021.
blind [PDF] - Ataque adversário e defesa da caixa de gray para classificação de sentimentos . Ying Xu, Xu Zhong, Antonio Jimeno Yepes, Jey Han Lau . NAACL-HLT 2021.
gradient [PDF] [Código] - Gerando paráfrases controladas sintaticamente sem usar pares paralelos anotados . Kuan-Hao Huang e Kai-Wei Chang . EACL 2021. [PDF] [Código]
- Gato-general: melhorando a robustez nos modelos de PNL via geração controlada de texto adversário . Tianlu Wang, Xuezhi Wang, Yao Qin, Ben Packer, Kang Lee, Jilin Chen, Alex Beutel, Ed Chi . EMNLP 2020.
score [PDF] - T3: Geração de texto adversário restrito a um ataque adversário para ataques direcionados . Boxin Wang, Hengzhi Pei, Boyuan Pan, Qian Chen, Shuohang Wang, Bo Li . EMNLP 2020.
gradient [PDF] [Código] - Ataque adversário e defesa de modelos de previsão estruturados . Wenjuan Han, Liwen Zhang, Yong Jiang, Kewei tu . EMNLP 2020.
blind [PDF] [Código] - Malcom: gerando comentários maliciosos para atacar modelos de detecção de notícias falsas neurais . Thai Le, Suhang Wang, Dongwon Lee . ICDM 2020.
gradient [PDF] [Código] - Melhorando a robustez dos sistemas de resposta a perguntas para questionar parafraseando . Wee Chung Gan, Hwee Tou Ng . ACL 2019.
blind [PDF] [Dados] - Envie-me se puder: geração humana no loop de exemplos adversários para resposta a perguntas . Eric Wallace, Pedro Rodriguez, Shi Feng, Ikuya Yamada, Jordan Boyd-Graber . TACL 2019.
score [PDF] - PAWS: Paráfrase adversários de Word Scrambling . Yuan Zhang, Jason Baldridge, Luheng He . NAACL-HLT 2019.
blind [PDF] [DataSet] - Avaliando e aprimorando a robustez dos sistemas de diálogo: um estudo de caso sobre um agente de negociação . Mabe Cheng, Wei Wei, Cho-Jui Hsieh . NAACL-HLT 2019.
score gradient [PDF] [Código] - Regras adversárias semanticamente equivalentes para depurar modelos de PNL . Marco Tulio Ribeiro, Sameer Singh, Carlos Guestrin . ACL 2018.
decision [PDF] [Código] - Modelos neurais da NLI regularizando adversários para integrar o conhecimento lógico . Pasquale Minervini, Sebastian Riedel . Conll 2018.
score [PDF] [Código e dados] - Modelos robustos de compreensão de máquinas por meio de treinamento adversário . Yicheng Wang, Mohit Bansal . NAACL-HLT 2018.
decision [PDF] [conjunto de dados] - Exemplo adversário geração com redes de paráfras controladas sintaticamente . Mohit Iyyer, John Wieting, Kevin Gimpel, Luke Zettlemoyer . NAACL-HLT 2018.
blind [PDF] [Código e Dados] - Gerando exemplos adversários naturais . Zhengli Zhao, Dheeru Dua, Sameer Singh . ICLR 2018.
decision [PDF] [Código] - Exemplos adversários para avaliar sistemas de compreensão de leitura . Robin Jia, Percy Liang . EMNLP 2017.
decision score blind [PDF] [Código] - Conjuntos adversários para regularizar preditores de ligação neural . Pasquale Minervini, Thomas Demeester, Tim Rocktäschel, Sebastian Riedel . UAI 2017.
score [PDF] [Código]
2.2 Ataque no nível da palavra
- Escopo em expansão: Adaptação de ataques adversários em inglês aos chineses . Hanyu Liu, Chengyuan Cai, Yanjun Qi . Resultados da ACL 2023.
decision [PDF] [Código] - Geração de texto adversário por pesquisa e aprendizagem . Guoyi Li, Bingkang Shi, Zongzhen Liu, Dehan Kong, Yulei Wu, Xiaodan Zhang, Longtao Huang, Honglei Lyu . Resultados da ACL 2023.
score [PDF] [Código] - Ponte a lacuna entre CV e NLP! Uma estrutura de ataque adversário textual baseado em gradiente . Lifan Yuan, Yichi Zhang, Yangyi Chen, Wei Wei . Resultados da ACL 2023.
decision [PDF] [Código] - Texthacker: Algoritmo de pesquisa local híbrido baseado em aprendizado para ataque adversário de texto rótulo . Zhen Yu, Xiaosen Wang, Wanxiang Che, Kun He . Resultados do EMNLP 2022.
decision [PDF] [Código] - Texthoaxer: Ataques adversários de etiqueta rígida orçados ao texto . MUMAO YE, CHENGLIN MIAO, TING WANG, FENGONG MA . AAAI 2022.
decision [PDF] [Código] - Ataques adversários de caixa preta eficientes e escaláveis de consulta a dados seqüenciais discretos via otimização bayesiana . Deokjae Lee, Seungyong Moon, Junhyeok Lee, Hyun Oh Song . ICML 2022.
score [PDF] [Código] - Sem -ataque: ataques textuais naturais em diferentes espaços semânticos . Boxin Wang, Chejian Xu, Xiangyu Liu, Yu Cheng, Bo Li . Achados do NAACL 2022.
gradient [PDF] [Código] - Ataques adversários baseados em gradiente contra transformadores de texto . Chuan Guo, Alexandre Sablayrolles, Hervé Jégou, Douwe Kiela . EMNLP 2021.
gradient [PDF] [Código] - Uma forte linha de base para ataques eficientes em uma configuração de caixa preta . Rishabh Maheswary, Saket Maheshwary, Vikram Pudi . EMNLP 2021.
score [PDF] [Código] - Sobre a transferibilidade de ataques adversários contra o classificador de texto neural . Liping Yuan, Xiaoqing Zheng, Yi Zhou, Cho-Jui Hsieh, Kai-Wei Chang . EMNLP 2021. [PDF]
- CRAFTING EXEMPLOS Adversários para tradução para a máquina neural . Xinze Zhang, Junzhe Zhang, Zhenhua Chen, Kun He . ACL-IJCNLP 2021.
score [PDF] [Código] - Um estudo empírico sobre ataque adversário à NMT: idiomas e posições importantes . Zhiyuan Zeng, Deyi Xiong . ACL-IJCNLP 2021.
score [PDF] - Um olhar mais atento à robustez dos analisadores de dependência neural usando melhores exemplos adversários . Yuxuan Wang, Wanxiang CHE, Ivan Titov, Shay B. Cohen, Zhilin Lei, Ting Liu . Resultados da ACL: ACL-IJCNLP 2021.
score [PDF] [Código] - Perturbação contextualizada para ataque adversário textual . Dianqi Li, Yizhe Zhang, Hao Peng, Liqun Chen, Chris Brockett, Ming-Ting Sun, Bill Dolan . NAACL-HLT 2021.
score [PDF] [Código] - Adv-olm: gerando adversários textuais via OLM . Vijit Malik, Ashwani Bhat, Ashutosh Modi . EACL 2021.
score [PDF] [Código] - Estilometria adversária na natureza: ataques de substituição lexical transferíveis ao perfil do autor . Chris Emmery, Ákos Kádár, Grzegorz Chrupała . EACL 2021.
blind [PDF] [Código] - Gerando ataques de linguagem natural em uma configuração de caixa preta de etiqueta rígida . Rishabh Maheshwary, Saket Maheshwary, Vikram Pudi . AAAI 2021.
decision [PDF] [Código] - Um ataque inspirado em geometria por gerar exemplos adversários de linguagem natural . Zhao Meng, Roger Wattenhofer . Coling 2020.
gradient [PDF] [Código] - Bert-Ataque: ataque adversário contra Bert usando Bert . Linyang Li, Ruotian MA, Qipeng Guo, Xiangyang Xue, XIPENG QIU . EMNLP 2020.
score [PDF] [Código] - BAE: Exemplos adversários baseados em Bert para classificação de texto . Siddhant Garg, Goutham Ramakrishnan . EMNLP 2020.
score [PDF] [Código] - Detectar os vieses de desambiguação do senso de palavras na tradução da máquina para ataques adversários do modelo agnóstico . Denis Emelin, Ivan Titov, Rico Sennrich . EMNLP 2020.
blind [PDF] [Código] - Ataques e defesas de imitação para sistemas de tradução de máquina de caixa preta . Eric Wallace, Mitchell Stern, música de Dawn . EMNLP 2020.
decision [PDF] [Código] - Robustez à modificação com palavras compartilhadas na identificação de paráfrase . Zhouxing Shi, Minlie Huang . Achados do ACL: EMNLP 2020.
score [PDF] - Atacamento adversário textual no nível da palavra como otimização combinatória . Yuan Zang, Fanchao Qi, Chenghao Yang, Zhiyuan Liu, Meng Zhang, Qun Liu, Maosong Sun. ACL 2020.
score [PDF] [Código] - É hora de morfin! Combatendo a discriminação linguística com perturbações flexíveis . Samson Tan, Shafiq Joty, Min-Yen Kan, Richard Socher . ACL 2020.
score [PDF] [Código] - Sobre a robustez dos codificadores de linguagem contra erros gramaticais . Fan Yin, Quanyu Long, Tao Meng, Kai-Wei Chang . ACL 2020.
score [PDF] [Código] - Avaliando e aprimorando a robustez dos modelos de análise de dependência baseados em rede neural com exemplos adversários . Xiaoqing Zheng, Jiehang Zeng, Yi Zhou, Cho-Jui Hsieh, Menhao Cheng, Xuanjing Huang . ACL 2020.
score gradient [PDF] [Código] - Uma geração reforçada de exemplos contraditórios para a tradução da máquina neural . Wei Zou, Shujian Huang, Jun Xie, Xinyu Dai, Jiajun Chen . ACL 2020.
decision [PDF] - Bert é realmente robusto? Uma forte linha de base para o ataque de linguagem natural à classificação e implicação de texto . Di Jin, Zhijing Jin, Joey Tianyi Zhou, Peter Szolovits . AAAI 2020.
score [PDF] [Código] - SEQ2SICK: Avaliando a robustez dos modelos de sequência a sequência com exemplos adversários . Mabe Cheng, Jinfeng Yi, Pin-Yu Chen, Huan Zhang, Cho-Jui Hsieh . AAAI 2020.
score [PDF] [Código] - Ataque ganancioso e Ataque Gumbel: Gerando exemplos adversários para dados discretos . Puyudi Yang, Jianbo Chen, Cho-Jui Hsieh, Jane-Lingwang, Michael I. Jordan . JMLR 2020.
score [PDF] [Código] - Sobre a robustez dos modelos auto-atentos . Yu-Lun Hsieh, Menhao Cheng, Da-Cheng Juan, Wei Wei, Wen-Lian Hsu, Cho-Jui Hsieh . ACL 2019.
score [PDF] - Gerando exemplos adversários da linguagem natural através da saliência da palavra com probabilidade . Shuhuai Ren, Yihe Deng, Kun He, Wanxiang Che . ACL 2019.
score [PDF] [Código] - Gerando exemplos adversários fluentes para idiomas naturais . Huangzhao Zhang, Hao Zhou, Ning Miao, Lei Li . ACL 2019.
score gradient [PDF] [Código] - Tradução robusta da máquina neural com entradas duplamente adversárias . Yong Cheng, Lu Jiang, Wolfgang Macherey . ACL 2019.
gradient [PDF] - Ataques adversários universais a classificadores de texto . Melika Behjati, Seyed-Mohsen Moosavi-dezfooli, Mahdieh Soleymani Baghshah, Pascal Frossard . ICASSP 2019.
gradient [PDF] - Gerando exemplos adversários de linguagem natural . Moustafa Alzantot, Yash Sharma, Ahmed Elgohary, Bo-Jhang Ho, Mani Srivastava, Kai-Wei Chang . EMNLP 2018.
score [PDF] [Código] - Quebrar sistemas NLI com frases que requerem inferências lexicais simples . Max Glockner, Vered Shwartz, Yoav Goldberg . ACL 2018.
blind [PDF] [DataSet] - A classificação de texto profundo pode ser enganado . Bin Liang, Hongcheng Li, Miaoqiang SU, Pan Bian, Xirong Li, Wenchang Shi . IJCAI 2018.
score gradient [PDF] - Perturbação adversária interpretável no espaço de incorporação de entrada para texto . Sato, Motoki, Jun Suzuki, Hiroyuki Shindo, Yuji Matsumoto . IJCAI 2018.
gradient [PDF] [Código] - Para criar amostras adversárias de texto . Suranjana Samanta, Sameep Mehta . ECIR 2018.
gradient [PDF] - Criação de sequências de entrada adversárias para redes neurais recorrentes . Nicolas Papernot, Patrick McDaniel, Ananthram Swami, Richard Harang . MILCOM 2016.
gradient [PDF]
2.3 Ataque no nível do char
- Revisitando ataques adversários no nível do personagem para modelos de idiomas . Elias Abad Rocamora , Yongtao Wu, Fanghui Liu, Grigorios G. Chrysos, Volkan Cevher, ICML 2024.
gradient blind score [PDF] [código] - Vertattack: Aproveitando a visão horizontal dos classificadores de texto . Jonathan Ruset , NAACL 2024.
blind score PDF] - Ataque no nível da pontuação: a pontuação única e única pode enganar os modelos de texto . Wenqiang Wang, Chongyang DU, Tao Wang, Kaihao Zhang, Wenhan Luo, Lin MA, Wei Liu, Xiaochun Cao . Neurips 2023.
score blind [PDF] - Usando a pontuação como um ataque adversário a sistemas de PNL baseados em aprendizado profundo: um estudo empírico . Brian forento, Chuan Sheng Foo, Luu Anh Tuan, ver Kiong ng . EACL (descobertas) 2023.
score blind [PDF] [Código] - Extração de modelos e transferibilidade adversária, seu Bert é vulnerável! . Xuanli He, Lingjuan Lyu, Lichao Sun, Qiongkai Xu . NAACL-HLT 2021.
blind [PDF] [Código] - Processamento de texto como os humanos: atacando e protegendo visualmente os sistemas de PNL . Steffen Eger, Gözde Gül ¸sahin, Andreas Rücklé, Ji-vid Lee, Claudia Schulz, Mohsen Mesgar, Krishnkant Swarnkar, Edwin Simpson, Iryna Gurevy . NAACL-HLT 2019.
blind [PDF] [Código e Dados] - Branco a preto: destilação eficiente de ataques adversários de caixa preta . Syotam Gil, Yoav Chai, ou Gorodissky, Jonathan Berant . NAACL-HLT 2019.
blind [PDF] [Código] - Geração de caixa preta de sequências de texto adversárias para evitar classificadores de aprendizado profundo . Ji Gao, Jack Lanchantin, Mary Lou Soffa, Yanjun Qi . IEEE SPW 2018.
score [PDF] [Código] - Em exemplos adversários para tradução para a máquina neural no nível do caractere . Javid Ebrahimi, Daniel Lowd, Dejing Dou . Coling 2018.
gradient [PDF] [Código] - O ruído sintético e natural quebra a tradução da máquina neural . Yonatan Belinkov, Yonatan Bisk . ICLR 2018.
blind [PDF] [Código e dados]
2.4 Ataque de vários níveis
- Um LLM pode se enganar: um ataque adversário imediato . Xilie Xu, Keyi Kong, Ning Liu, Lizhen Cui, Di Wang, Jingfeng Zhang, Mohan Kankanhalli . ICLR 2024.
blind [PDF] - Ataque adversário textual multi-granularidade com clonagem de comportamento . Yangyi Chen, Jin Su, Wei Wei . EMNLP 2021.
blind [PDF] [Código] - Sintetizando respostas negativas adversárias para classificação e avaliação robustas de resposta . Prakhar Gupta, Yulia Tsvetkov, Jeffrey Bigham . Achados da ACL: ACL-IJCNLP 2021.
blind [PDF] [Código] - Mixagem de código na Sesame Street: Dawn of the Adversarial Polyglots . Samson Tan, Shafiq Joty . NAACL-HLT 2021.
score [PDF] [Código] - Ataques adversários universais com gatilhos naturais para classificação de texto . Song Liwei, Xinwei Yu, Hsuan-Tung Peng, Karthik Narasimhan . NAACL-HLT 2021.
gradient [PDF] [Código] - BBAEG: Rumo à geração de exemplo adversário biomédico baseado em Bert para classificação de texto . Ishani Mondal . NAACL-HLT 2021.
score [PDF] [Código] - Não pegue "NSWVTNVAKGXPM" para uma resposta - a surpreendente vulnerabilidade dos sistemas automáticos de pontuação de conteúdo para entrada adversária . Yuning Ding, Brian Riordan, Andrea Horbach, Aoife Cahill, Torsten Zesch . Coling 2020.
blind [PDF] [Código] - Gatilhos adversários universais para atacar e analisar a PNL . Eric Wallace, Shi Feng, Nikhil Kandpal, Matt Gardner, Sameer Singh . EMNLP-IJCNLP 2019.
gradient [PDF] [Código] [Site] - TextBugger: gerando texto adversário contra aplicativos do mundo real . Jinfeng Li, Shouling JI, Tianyu DU, Bo Li, Ting Wang . NDSS 2019.
score gradient [PDF] - Gerando exemplos adversários de caixa preta para classificadores de texto usando um modelo reforçado profundo . Prashenth Vijayaraghavan, Deb Roy . ECMLPKDD 2019.
score [PDF] - Hotflip: Exemplos adversários de caixa branca para classificação de texto . Javid Ebrahimi, Anyi Rao, Daniel Lowd, Dejing Dou . ACL 2018.
gradient [PDF] [Código] - Estratégias adversárias de excesso de sensibilidade e excesso de estabilidade para modelos de diálogo . Tong Niu, Mohit Bansal . Conll 2018.
blind [PDF] [Código e dados] - Comparando redes neurais convolucionais e recorrentes baseadas em atenção: sucesso e limitações na compreensão da leitura de máquinas . Matthias Blohm, Glorianna Jagfeld, Ekta Sood, Xiang Yu, Ngoc Thang Vu . Conll 2018.
gradient [PDF] [Código]
3. Documentos de defesa
- Os detectores de texto gerados pela IA são robustos a perturbações adversárias? Guanhua Huang, Yuchen Zhang, Zhe Li, Yongjian você, Mingze Wang e Zhouwang Yang. ACL 2024. [PDF] [Código]
- SEMRODE: Treinamento adversário macro para aprender representações robustas aos ataques no nível das palavras . Brian forento, Wenjie Feng, Chuan-Sheng Foo, Anh Tuan Luu, See-Kiong ng . NAACL 2024. [PDF] [Código]
- DSRM: Aumente o treinamento adversário textual com a minimização de riscos de mudança de distribuição . Songyang Gao, Shihan Dou, Yan Liu, Xiao Wang, Qi Zhang, Zhongyu Wei, Jin Ma, Ying Shan . ACL 2023. [PDF] [Código]
- Treinamento adversário generativo com detecção de token perturbada para robustez do modelo . Jiahao Zhao, Wenji Mao . EMNLP 2023. [PDF] [Código]
- Defesa de múltiplos coletores textuais contra exemplos adversários de linguagem natural . Dang Minh Nguyen, Luu Anh Tuan . EMNLP 2022. [PDF] [Código]
- Detectar o texto adversário no nível da palavra ataca através de explicações aditivas de Shapley . Lukas Huber, Marc Alexander Kühn, Edoardo Mosca, Georg Groh . Repl4nlp@ACL 2022. [PDF] [Código]
- Detecção de exemplos adversários na classificação de texto: referência e linha de base através de estimativa robusta de densidade . Kiyoon Yoo, Jangho Kim, Jiho Jang, Nojun Kwawk . ACL 2022 (descobertas). [PDF] [Código]
- “Essa é uma reação suspeita!”: Interpretar as logits Variação para detectar ataques adversários da PNL . Edoardo Mosca, Shreyash Agarwal, Javier Rando Ramírez, Georg Groh . ACL 2022. [PDF] [Código]
- Escudo: defesa de redes neurais textuais contra vários ataques adversários de caixa preta com patcher estocástico multi-expert . Tailandês, Nararong Park, Dongwon Lee . ACL 2022. [PDF]
- Perturbações na natureza: alavancando perturbações de texto escritos por humanos para ataque e defesa realistas adversários . Thai Le, Jooyoung Lee, Kevin Yen, Yifan Hu, Dongwon Lee . ACL 2022 (descobertas). [PDF]
- Alcançar a robustez do modelo através de treinamento adversário discreto . Maor Ivgi, Jonathan Berant . EMNLP 2021. [PDF] [Código]
- Defesa contra ataques adversários baseados em substituição sinônimo via Dirichlet Neighborhood Ensemble . Yi Zhou, Xiaoqing Zheng, Cho-jui Hsieh, Kai-Wei Chang, Xuanjing Huang . ACL-IJCNLP 2021. [PDF]
- Uma doce toca de coelho de Darcy: usando honeypots para detectar ataques adversários do Universal Trigger . Tailandês, Nararong Park, Dongwon Lee . ACL-IJCNLP 2021. [PDF] [Código]
- Melhor robustez por mais cobertura: aumento de dados adversários e de mistura para o Finetuning robusto . Chenglei Si, Zhengyan Zhang, Fanchao Qi, Zhiyuan Liu, Yasheng Wang, Qun Liu, Maosong Sun. Achados da ACL: ACL-IJCNLP 2021. [PDF] [Código]
- Bert Defense: Um modelo probabilístico baseado em Bert para combater ataques ortográficos adversários de inspiração cognitiva . Yannik Keller, Jan Mackensen, Steffen Eger . Achados da ACL: ACL-IJCNLP 2021. [PDF] [Código]
- Defendendo modelos de linguagem pré-treinados da substituição de palavras adversárias sem sacrifício de desempenho . Rongzhou Bao, Jiayi Wang, Hai Zhao . Achados da ACL: ACL-IJCNLP 2021. [PDF] [Código]
- Aumento adversário do coletor para tradução da máquina neural . Guandan Chen, fã de Kai, Kaibo Zhang, Boxing Chen, Zhongqiang Huang . Achados da ACL: ACL-IJCNLP 2021. [PDF]
- Defesa adversária da linguagem natural através da codificação de sinônimos . Xiaosen Wang, Hao Jin, Kun He . UAI 2021. [PDF] [Código]
- Treinamento adversário com método de projeção de gradiente rápido contra ataques de texto baseados em substituição sinônimo . Xiaosen Wang, Yichen Yang, Yihe Deng, Kun He . AAAI 2021. [PDF] [Código]
- Substituições de palavras guiadas por frequência para detectar exemplos adversários textuais . Mozes Maximilian, Pontus Stenenetorp, Bennett Kleinberg, Lewis D. Griffin . EACL 2021. [PDF] [Código]
- Robustez contra substituições de palavras da linguagem natural. Xinshuai Dong, Anh Tuan Luu, Rongrong Ji, Hong Liu. ICLR 2021. [PDF] [Código]
- InfoBert: Melhorando a robustez dos modelos de linguagem de uma perspectiva teórica da informação . Boxin Wang, Shuohang Wang, Yu Cheng, Zhe Gan, Ruoxi Jia, Bo Li, Jingjing Liu . ICLR 2021. [PDF] [Código]
- Melhorando modelos neurais com vulnerabilidade via ataque adversário . Rong Zhang, Qifei Zhou, Bo An, Weiping Li, Tong Mo, Bo Wu . Coling 2020. [PDF] [Código]
- Aprendizagem de tiro zero contrastivo para preenchimento de slot entre domínios com ataques adversariais . Keqing ele, Jinchao Zhang, Yuanmeng Yan, Weiran Xu, Cheng Niu, Jie Zhou . Coling 2020. [PDF]
- Mantenha -se suas inflexões! Melhorando a PNL para inglês fora do padrão com a codificação de inflexão de base . Samson Tan, Shafiq Joty, Lav R. Varshney, Min-Yen Kan . EMNLP 2020. [PDF] [Código]
- Codificações robustas: uma estrutura para combater erros de digitação adversária . Erik Jones, Robin Jia, Aditi Raghunathan, Percy Liang . ACL 2020. [PDF] [Código]
- Treinamento de incorporação e estabilidade adversária no nível do caractere e defender o texto adversário . Hui Liu, Yongzheng Zhang, Yipeng Wang, Zheng Lin, Yige Chen . AAAI 2020. [PDF]
- Uma abordagem robusta de treinamento adversário para a compreensão da leitura de máquinas . Kai Liu, Xin Liu, um Yang, Jing Liu, Jinsong Su, Sujian Li, Qiaoqiao She . AAAI 2020. [PDF]
- Freelb: Treinamento adversário aprimorado para entendimento da linguagem . Chen Zhu, Yu Cheng, Zhe Gan, Siqi Sun, Tom Goldstein, Jingjing Liu . CORR 2019. [PDF] [Código]
- Aprendendo a discriminar perturbações para bloquear ataques adversários na classificação de texto . Yichao Zhou, Jyun-Yu Jiang, Kai-Wei Chang, Wei Wang . EMNLP-IJCNLP 2019. [PDF] [Código]
- Construa quebrá -lo, conserte -o para segurança de diálogo: robustez do ataque humano adversário . Emily Dinan, Samuel Humau, Bharath Chintagunta, Jason Weston . EMNLP-IJCNLP 2019. [PDF] [DATA]
- Combatendo erros de ortografia adversários com reconhecimento robusto de palavras . Puthi dinamarquês, Bhuwan Dhingra, Zachary C. Lipton . ACL 2019. [PDF] [Código]
- Modelos robustos para ruído em tarefas de processamento de linguagem natural . Valentin Malykh . ACL 2019. [PDF] [Código]
4. Robustez certificada
- Robustez certificada ao ataque de substituição de palavras com privacidade diferencial . Wenjie Wang, Pengfei Tang, Jian Lou, Li Xiong . NAACL-HLT 2021. [PDF]
- Análise de perturbação automática para robustez certificada escalável e além . Kaidi Xu, Zhouxing Shi, Huan Zhang, Yihan Wang, Kai-Wei Chang, Minlie Huang, Bhavya Kailkhura, Xue Lin, Cho-Jui Hsieh . Neurips 2020. [PDF] [Código]
- Mais seguro: uma abordagem sem estrutura para robustez certificada a substituições de palavras adversárias . Mao Ye, Chengyue Gong, Qiang Liu . ACL 2020. [PDF] [Código]
- Verificação de robustez para transformadores . Zhouxing Shi, Huan Zhang, Kai-Wei Chang, Minlie Huang, Cho-Jui Hsieh . ICLR 2020. [PDF] [Código]
- Alcançar a robustez verificada às substituições de símbolos por meio de propagação ligada ao intervalo . Po-sen Huang, Robert Stanforth, Johannes Welbl, Chris Dyer, Dani Yogatama, Sven Gowal, Krishnamurthy Dvijotham, Pushmeet Kohli . EMNLP-IJCNLP 2019. [PDF]
- Robustez certificada para substituições de palavras adversárias . Robin Jia, Aditi Raghunathan, Kerem Göksel, Percy Liang . EMNLP-IJCNLP 2019. [PDF] [Código]
- Popqorn: Quantificando robustez de redes neurais recorrentes . Ching-Yun Ko, Zhaoyang Lyu, Lily Weng, Luca Daniel, Ngai Wong, Dahua Lin . ICML 2019. [PDF] [Código]
5. Referência e avaliação
- DecodingTrust: Uma avaliação abrangente da confiabilidade nos modelos GPT . Boxin Wang, Weixin Chen, Hengzhi Pei, Chulin Xie, Mintong Kang, Chenhui Zhang, Chejian Xu, Zidi Xiong, Ritik Dutta, Rylan Schaeffer, Sang T. Truong, Simran Arora, Mantas Mazeika, Dan Hendrycks, Zinan Lin, Yu Cheng, Sanmi Koyejo, Dawn Música, Bo Li . Neurips 2023 (conjuntos de dados e benchmarks). [PDF] [Site]
- Preservando a semântica em ataques adversários textuais . David Herel, Hugo Cisneros, Tomas Mikolov . ECAI 2023. [PDF] [Código]
- Solicitando o GPT-3 a ser confiável . Chenglei Si, Zhe Gan, Zhengyuan Yang, Shuohang Wang, Jianfeng Wang, Jordan Boyd-Graber, Lijuan Wang . ICLR 2023. [PDF] [Código]
- Por que as perturbações adversárias devem ser imperceptíveis? Repense o paradigma de pesquisa na PND adversária . Yangyi Chen, Hongcheng Gao, Ganqu Cui, Fanchao Qi, Longtao Huang, Zhiyuan Liu, Maosong Sun. EMNLP 2022. [PDF] [Código e dados]
- Interpretando a robustez dos modelos neurais de PNL para perturbações textuais. Yunxiang Zhang, Liangming Pan, Samson Tan, Min-Yen Kan . Achados da ACL, 2022. [PDF]
- Exemplos adversários em nível de palavra gerados pelo homem e na máquina para a classificação de texto . Mozes Maximilian, Max Bartolo, Pontus Stenenetorp, Bennett Kleinberg, Lewis D. Griffin . EMNLP 2021. [PDF] [Código]
- Dynabench: repensando o benchmarking em PN. Douwe Kiela, Max Bartolo, Yixin Nie, Divyansh Kaushik, Atticus Geiger, Zhengxuan Wu, Bertie Vidgen, Grusha Prasad, Amanpreet Singh, Pratik Ringshia, Zhiyi Ma, Tristan Thrush, Sebastian Riedel, Zeerak Waseem, Pontus Stenetorp, Robin Jia, Mohit Bansal, Christopher Potts, Adina Williams . NAACL 2021. [PDF] [Site]
- Cola adversária: uma referência de várias tarefas para avaliação de robustez dos modelos de idiomas. Boxin Wang, Chejian Xu, Shuohang Wang, Zhe Gan, Yu Cheng, Jianfeng Gao, Ahmed Hassan Awadallah, Bo Li . Neurips 2021 (conjuntos de dados e parâmetros de referência). [PDF] [Site]
- Procurando um zagueiro efiário: Defesa de benchmarking contra substituição de palavras adversárias. Zongyi Li, Jianhan Xu, Jiehang Zeng, Linyang Li, Xiaoqing Zheng, Qi Zhang, Kai-Wei Chang e Cho-Jui Hsieh . EMNLP 2021. [PDF]
- Dupla perturbação: Sobre a robustez da robustez e avaliação do viés contrafactual . Chong Zhang, Jieyu Zhao, Huan Zhang, Kai-Wei Chang e Cho-Jui Hsieh Naacl 2021. [PDF] [Código]
- Reavaliando exemplos contraditórios em linguagem natural . John Morris, Eli Lifland, Jack Lanchantin, Yangfeng Ji, Yanjun Qi . Resultados do ACL: EMNLP 2020. [PDF] [Código e dados]
- De Hero a Zéroe: uma referência de ataques adversários de baixo nível . Steffen Eger, Yannik Benz . AACL-IJCNLP 2020. [PDF] [Código e dados]
- NLI adversário: uma nova referência para a compreensão da linguagem natural . Yixin Nie, Adina Williams, Emily Dinan, Mohit Bansal, Jason Weston, Douwe Kiela . ACL 2020. [PDF] [Demo] [DataSet & Lizerboard]
- Avaliando os modelos de PNL por meio de conjuntos de contraste . Matt Gardner, Yoav Artzi, Victoria Basmova, Jonathan Berant, Ben Bogin, Sihao Chen, Pradeep Dasigi, Dheeru Dua, Yanai Elazar, Ananth Gottumukkala, Nitish Gupta, Hanna Hajishirzi, Gabriel Ilharco, Daniel Khashabi, Kevin Lin, Jiangming Liu, Nelson F. Liu, Phoebe Mulcaire, Qiang Ning, Sameer Singh, Noah A. Smith, Sanjay Subramanian, Reut Tsarfaty, Eric Wallace, Ally Zhang, Ben Zhou . Resultados do ACL: EMNLP 2020. [PDF] [Site]
- Na avaliação de perturbações adversárias para modelos de sequência a sequência . Paul Michel, Xian Li, Graham Neubig, Juan Miguel Pino . NAACL-HLT 2019. [PDF] [Código]
6. Outros papéis
- Identificando estratégias humanas para gerar exemplos adversários no nível da palavra . Maximilian Mozes, Bennett Kleinberg, Lewis D. Griffin . Achados do ACL: EMNLP 2022. [PDF]
- Lexicalat: Treinamento de reforço adversário baseado em lexical para classificação robusta de sentimentos . Jingjing Xu, Liang Zhao, Hanqi Yan, Qi Zeng, Yun Liang, Xu Sun. EMNLP-IJCNLP 2019. [PDF] [Código]
- INCEDIMENTOS VISUALIÍDICOS UNIFICADOS: Visão e linguagem em ponte com representações de significado estruturado . Hao Wu, Jiayuan Mao, Yufeng Zhang, Yuning Jiang, Lei Li, Weiwei Sun, Wei-sey MA . CVPR 2019. [PDF]
- Aventura: Treinamento adversário por falta de texto com exemplos guiados por conhecimento . Dongyeop Kang, Tushar Khot, Ashish Sabharwal, Eduard Hovy . ACL 2018. [PDF] [Código]
- Aprendendo semântica visualmente fundamentada a partir de amostras adversárias contrastivas . Haoyue Shi, Jiayuan Mao, Tete Xiao, Yuning Jiang, Jian Sun. Coling 2018. [PDF] [Código]
Colaboradores
Agradecemos a todos os colaboradores desta lista. E mais contribuições são muito bem -vindas.