Download do OpenAttack - Download do código fonte OpenAttack

OpenAttack

Outro código-fonte

version for datasets

Baixar

Status de cobertura do Runner Github

Documentação • Recursos e usos • Exemplos de uso • Modelos de ataque • Design do kit de ferramentas

O OpenAttack é um kit de ferramentas de ataque adversário textual baseado em Python, que lida com todo o processo de ataque adversário textual, incluindo o pré-processamento de texto, acessando o modelo de vítima, gerando exemplos adversários e avaliação.

Recursos e usos

O Openattack tem os seguintes recursos:

️ Suporte para todos os tipos de ataque . O OpenAttack suporta todos os tipos de ataques, incluindo perturbações no nível de sentença/palavra/caractere e modelos de ataque de gradiente/pontuação/decisões/cegos;

️ Multilinguidade multilíngue . O Openattack suporta inglês e chinês agora. Seu design extensível permite suporte rápido para mais idiomas;

️ Processamento paralelo . O OpenAttack fornece suporte para a execução de vários processos de modelos de ataque para melhorar a eficiência do ataque;

️ Compatibilidade com? Abraçando o rosto . O Openattack está totalmente integrado? Bibliotecas de transformadores e conjuntos de dados;

️ Grande extensibilidade . Você pode atacar facilmente um modelo de vítima personalizado em qualquer conjunto de dados personalizado ou desenvolver e avaliar um modelo de ataque personalizado.

O Openattack tem uma ampla gama de usos, incluindo:

✅ Fornecendo várias linhas de base úteis para modelos de ataque;

✅ Avaliação de modelos de ataque de forma abrangente usando suas métricas de avaliação completa;

✅ Auxiliar no desenvolvimento rápido de novos modelos de ataque com a ajuda de seus componentes de ataque comum;

✅ Avaliando a robustez de um modelo de aprendizado de máquina contra vários ataques adversários;

✅ Condução do treinamento adversário para melhorar a robustez de um modelo de aprendizado de máquina, enriquecendo os dados de treinamento com exemplos adversários gerados.

Instalação

1. Usando `pip` (recomendado)

pip install OpenAttack

2. Clonando este repo

git clone https://github.com/thunlp/OpenAttack.git
cd OpenAttack
python setup.py install

Após a instalação, você pode tentar executar demo.py para verificar se o OpenAttack funciona bem:

 python demo.py

demonstração

Exemplos de uso

Ataque modelos de vítimas embutidos

O OpenAttack constrói alguns modelos de PNL comumente usados como Bert (Devlin et al. 2018) e Roberta (Liu et al. 2019) que foram ajustados em alguns conjuntos de dados comumente usados (como o SST-2). Você pode realizar ataques adversários sem esforço contra esses modelos de vítimas embutidos.

O snippet de código a seguir mostra como usar o PWWS, um modelo de ataque ganancioso baseado em algoritmo (Ren et al., 2019), para atacar Bert no conjunto de dados SST-2 (o código executável completo está aqui).

 import OpenAttack as oa
import datasets # use the Hugging Face's datasets library
# change the SST dataset into 2-class
def dataset_mapping ( x ):
    return {
        "x" : x [ "sentence" ],
        "y" : 1 if x [ "label" ] > 0.5 else 0 ,
    }
# choose a trained victim classification model
victim = oa . DataManager . loadVictim ( "BERT.SST" )
# choose 20 examples from SST-2 as the evaluation data 
dataset = datasets . load_dataset ( "sst" , split = "train[:20]" ). map ( function = dataset_mapping )
# choose PWWS as the attacker and initialize it with default parameters
attacker = oa . attackers . PWWSAttacker ()
# prepare for attacking
attack_eval = OpenAttack . AttackEval ( attacker , victim )
# launch attacks and print attack results 
attack_eval . eval ( dataset , visualize = True )

Modelo de vítima personalizada

O snippet de código a seguir mostra como usar o PWWS para atacar um modelo de análise de sentimentos personalizado (um modelo estatístico construído no NLTK) no SST-2 (o código executável completo está aqui).

 import OpenAttack as oa
import numpy as np
import datasets
import nltk
from nltk . sentiment . vader import SentimentIntensityAnalyzer


# configure access interface of the customized victim model by extending OpenAttack.Classifier.
class MyClassifier ( oa . Classifier ):
    def __init__ ( self ):
        # nltk.sentiment.vader.SentimentIntensityAnalyzer is a traditional sentiment classification model.
        nltk . download ( 'vader_lexicon' )
        self . model = SentimentIntensityAnalyzer ()
    
    def get_pred ( self , input_ ):
        return self . get_prob ( input_ ). argmax ( axis = 1 )

    # access to the classification probability scores with respect input sentences
    def get_prob ( self , input_ ):
        ret = []
        for sent in input_ :
            # SentimentIntensityAnalyzer calculates scores of “neg” and “pos” for each instance
            res = self . model . polarity_scores ( sent )

            # we use ?????_??? / (?????_??? + ?????_???) to represent the probability of positive sentiment
            # Adding 10^−6 is a trick to avoid dividing by zero.
            prob = ( res [ "pos" ] + 1e-6 ) / ( res [ "neg" ] + res [ "pos" ] + 2e-6 )

            ret . append ( np . array ([ 1 - prob , prob ]))
        
        # The get_prob method finally returns a np.ndarray of shape (len(input_), 2). See Classifier for detail.
        return np . array ( ret )

def dataset_mapping ( x ):
    return {
        "x" : x [ "sentence" ],
        "y" : 1 if x [ "label" ] > 0.5 else 0 ,
    }
    
# load some examples of SST-2 for evaluation
dataset = datasets . load_dataset ( "sst" , split = "train[:20]" ). map ( function = dataset_mapping )
# choose the costomized classifier as the victim model
victim = MyClassifier ()
# choose PWWS as the attacker and initialize it with default parameters
attacker = oa . attackers . PWWSAttacker ()
# prepare for attacking
attack_eval = oa . AttackEval ( attacker , victim )
# launch attacks and print attack results 
attack_eval . eval ( dataset , visualize = True )

Conjunto de dados personalizado

O snippet de código a seguir mostra como usar o PWWS para atacar um modelo de análise de sentimentos ajustado existente em um conjunto de dados personalizado (o código executável completo está aqui).

 import OpenAttack as oa
import transformers
import datasets

# load a fine-tuned sentiment analysis model from Transformers (you can also use our fine-tuned Victim.BERT.SST)
tokenizer = transformers . AutoTokenizer . from_pretrained ( "echarlaix/bert-base-uncased-sst2-acc91.1-d37-hybrid" )
model = transformers . AutoModelForSequenceClassification . from_pretrained ( "echarlaix/bert-base-uncased-sst2-acc91.1-d37-hybrid" , num_labels = 2 , output_hidden_states = False )
victim = oa . classifiers . TransformersClassifier ( model , tokenizer , model . bert . embeddings . word_embeddings )

# choose PWWS as the attacker and initialize it with default parameters
attacker = oa . attackers . PWWSAttacker ()

# create your customized dataset
dataset = datasets . Dataset . from_dict ({
    "x" : [
        "I hate this movie." ,
        "I like this apple."
    ],
    "y" : [
        0 , # 0 for negative
        1 , # 1 for positive
    ]
})

# prepare for attacking
attack_eval = oa . AttackEval ( attacker , victim , metrics = [ oa . metric . EditDistance (), oa . metric . ModificationRate ()])
# launch attacks and print attack results
attack_eval . eval ( dataset , visualize = True )

Multiprocessamento

O OpenAttack suporta multiprocessamento conveniente para acelerar o processo de ataques adversários. O snippet de código a seguir mostra como usar o multiprocessamento em ataques adversários com genético (Alzantot et al. 2018), um modelo de ataque baseado em algoritmo genético (o código executável completo está aqui).

 import OpenAttack as oa
import datasets

def dataset_mapping ( x ):
    return {
        "x" : x [ "sentence" ],
        "y" : 1 if x [ "label" ] > 0.5 else 0 ,
    }

victim = oa . loadVictim ( "BERT.SST" )
dataset = datasets . load_dataset ( "sst" , split = "train[:20]" ). map ( function = dataset_mapping )
attacker = oa . attackers . GeneticAttacker ()
attack_eval = oa . AttackEval ( attacker , victim )
# Using multiprocessing simply by specify num_workers
attack_eval . eval ( dataset , visualize = True , num_workers = 4 )

Ataque chinês

O OpenAttack agora suporta ataques adversários contra modelos de vítimas inglesas e chinesas. Aqui está um exemplo de código de condução de ataques adversários contra um modelo de classificação de revisão chinês usando PWWS.

Modelo de ataque personalizado

O OpenAttack incorpora muitos componentes úteis que podem ser facilmente montados em novos modelos de ataque. Aqui dá um exemplo de como projetar um modelo de ataque simples que embaralha os tokens na frase original.

Treinamento adversário

O OpenAttack pode gerar facilmente exemplos adversários atacando instâncias no conjunto de treinamento, que podem ser adicionadas ao conjunto de dados de treinamento original para treinar um modelo de vítima mais robusto, ou seja, treinamento adversário. Aqui dá um exemplo de como realizar treinamento adversário com o OpenAttack.

Mais exemplos

Modelos de classificação de pares de frases de ataque. Além dos modelos de classificação de frases únicas, o OpenAttack suporta ataques contra modelos de classificação de pares de sentenças. Aqui está um exemplo de código de condução de ataques adversários contra um modelo NLI com o OpenAttack.
Métrica de avaliação personalizada. O OpenAttack suporta o design de uma métrica de avaliação de ataque adversário personalizada. Aqui fornece um exemplo de como adicionar uma métrica de avaliação personalizada e usá -la para avaliar ataques adversários.

Modelos de ataque

De acordo com o nível de perturbações impostas à entrada original, os modelos de ataque adversários textuais podem ser categorizados em modelos de ataque no nível da frase e no nível da palavra.

De acordo com a acessibilidade ao modelo da vítima, os modelos de ataque adversários textuais podem ser categorizados em modelos de ataque baseados em gradient , baseados em score , baseados em decision e ataques blind .

Taadpapers é uma lista de papel que resume quase todos os papéis relativos ao ataque e defesa textuais adversários. Você pode dar uma olhada nesta lista para encontrar mais modelos de ataque.

Atualmente, o OpenAttack inclui 15 modelos de ataque típicos contra modelos de classificação de texto que cobrem todos os tipos de ataque.

Aqui está a lista de modelos de ataque atualmente envolvidos.

Nível da frase
- (Mar) Regras adversárias semanticamente equivalentes para depurar modelos de PNL . Marco Tulio Ribeiro, Sameer Singh, Carlos Guestrin . ACL 2018. decision [PDF] [Código]
- (SCPN) Geração de exemplo adversário com redes de paráfras controladas sintaticamente . Mohit Iyyer, John Wieting, Kevin Gimpel, Luke Zettlemoyer . NAACL-HLT 2018. blind [PDF] [Código e Dados]
- (GaN) gerando exemplos adversários naturais . Zhengli Zhao, Dheeru Dua, Sameer Singh . ICLR 2018. decision [PDF] [Código]
Nível da palavra
- (TextFooler) Bert é realmente robusto? Uma forte linha de base para o ataque de linguagem natural à classificação e implicação de texto . Di Jin, Zhijing Jin, Joey Tianyi Zhou, Peter Szolovits . AAAI-20. score [pdf] [código]
- (PWWS) Gerando exemplos adversários de linguagem natural através da saliência da palavra com probabilidade . Shuhuai Ren, Yihe Deng, Kun He, Wanxiang Che . ACL 2019. score [PDF] [Código]
- (Genética) gerando exemplos adversários da linguagem natural . Moustafa Alzantot, Yash Sharma, Ahmed Elgohary, Bo-Jhang Ho, Mani Srivastava, Kai-Wei Chang . EMNLP 2018. score [PDF] [Código]
- (Sememepso) Atacamento adversário textual no nível da palavra como otimização combinatória . Yuan Zang, Fanchao Qi, Chenghao Yang, Zhiyuan Liu, Meng Zhang, Qun Liu e Maosong Sun. ACL 2020. score [PDF] [Código]
- (Bert-Ataque) Bert-Ataque: ataque adversário contra Bert usando Bert . Linyang Li, Ruotian MA, Qipeng Guo, Xiangyang Xue, XIPENG QIU . EMNLP 2020. score [PDF] [Código]
- (BAE) BAE: Exemplos adversários baseados em Bert para classificação de texto . Siddhant Garg, Goutham Ramakrishnan. EMNLP 2020 . score [pdf] [código]
- (FD) CRAFTING SEQUÊNCIAS DE ENTRADA ADVERSÁRIA PARA REDES RECURRENTES NEURS . Nicolas Papernot, Patrick McDaniel, Ananthram Swami, Richard Harang . MILCOM 2016. gradient [PDF]
Palavra/Char-Level
- (TextBugger) Textbugger: gerando texto adversário contra aplicativos do mundo real . Jinfeng Li, Shouling JI, Tianyu DU, Bo Li, Ting Wang . NDSS 2019. score gradient [PDF]
- (UAT) gatilhos adversários universais para atacar e analisar a PNL. Eric Wallace, Shi Feng, Nikhil Kandpal, Matt Gardner, Sameer Singh . EMNLP-IJCNLP 2019. gradient [PDF] [Código] [Site]
- (Hotflip) Hotflip: Exemplos adversários de caixa branca para classificação de texto . Javid Ebrahimi, Anyi Rao, Daniel Lowd, Dejing Dou . ACL 2018. gradient [PDF] [Código]
Nível de char
- (Viper) Processamento de texto como os humanos: atacando e protegendo visualmente os sistemas de PNL . Steffen Eger, Gözde Gül ¸sahin, Andreas Rücklé, Ji-vid Lee, Claudia Schulz, Mohsen Mesgar, Krishnkant Swarnkar, Edwin Simpson, Iryna Gurevy . NAACL-HLT 2019. score [PDF] [Código e dados]
- (DeepWordbug) Geração de caixa de Black de sequências de texto adversárias para evitar classificadores de aprendizado profundo . Ji Gao, Jack Lanchantin, Mary Lou Soffa, Yanjun Qi . IEEE SPW 2018. score [PDF] [Código]

A tabela a seguir ilustra a comparação dos modelos de ataque.

Modelo	Acessibilidade	Perturbação	Idéia principal
MAR	Decisão	Frase	Parafraseamento baseado em regras
Scpn	Cego	Frase	Parafraseando
Gan	Decisão	Frase	Geração de texto por codificador decodificador
TextFooler	Pontuação	Palavra	Substituição de palavra gananciosa
PWWS	Pontuação	Palavra	Substituição de palavra gananciosa
Genético	Pontuação	Palavra	Substituição de palavra baseada em algoritmo genético
Sememepso	Pontuação	Palavra	Substituição de palavras baseada em otimização de partículas
Bert-Ataque	Pontuação	Palavra	Substituição de palavra contextualizada gananciosa
QUERIDO	Pontuação	Palavra	Substituição e inserção de palavras contextualizadas gananciosas
Fd	Gradiente	Palavra	Substituição de palavras baseada em gradiente
Textbugger	Gradiente, pontuação	Palavra+char	Substituição de palavra gananciosa e manipulação de caráter
Uat	Gradiente	Palavra, char	Manipulação de palavras ou caráter baseada em gradiente
Hotflip	Gradiente	Palavra, char	Substituição de palavra ou personagem baseada em gradiente
VÍBORA	Cego	Char	Substituição visualmente semelhante de caráter
DeepWordBug	Pontuação	Char	Manipulação de caráter ganancioso

Design do kit de ferramentas

Considerando as distinções significativas entre diferentes modelos de ataque, deixamos uma liberdade considerável para o design do esqueleto dos modelos de ataque e focamos mais em simplificar o processamento geral do ataque adversário e os componentes comuns usados nos modelos de ataque.

O OpenAttack possui 7 módulos principais:

Toolkit_framework

TextProcessor : Processando a sequência de texto original para ajudar os modelos de ataque na geração de exemplos adversários;
Vítima : embrulhar modelos de vítimas;
Atacante : compreendendo vários modelos de ataque;
Ataquesista : embalando diferentes métodos de substituição de palavras/caracteres que são usados em modelos de ataque de nível de palavra/personagem e alguns outros componentes usados em modelos de ataque no nível da frase, como o modelo de parafrasagem;
Métrica : fornecendo várias métricas de qualidade de exemplo adversárias que podem servir como restrições aos exemplos adversários durante as métricas de ataque ou avaliação para avaliar ataques adversários;
Attackeval : avaliação de ataques adversários textuais da eficácia do ataque, da qualidade do exemplo adversário e da eficiência do ataque;
Datamanager : Gerenciando todos os dados e modelos salvos que são usados em outros módulos.

Citação

Cite nosso papel se você usar este kit de ferramentas:

 @inproceedings{zeng2020openattack,
  title={{Openattack: An open-source textual adversarial attack toolkit}},
  author={Zeng, Guoyang and Qi, Fanchao and Zhou, Qianrui and Zhang, Tingji and Hou, Bairu and Zang, Yuan and Liu, Zhiyuan and Sun, Maosong},
  booktitle={Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations},
  pages={363--371},
  year={2021},
  url={https://aclanthology.org/2021.acl-demo.43},
  doi={10.18653/v1/2021.acl-demo.43}
}