OpenAttack下载 - OpenAttack源代码下载

OpenAttack

其他源码

version for datasets

下载

GitHub Runner Covergae状态

文档•功能和用途•用法示例•攻击模型•工具包设计

OpenAttack是一个基于开源Python的文本对抗攻击工具包，它处理了整个文本对抗攻击的过程，包括预处理文本，访问受害者模型，生成对抗性示例和评估。

功能和用途

OpenAttack具有以下功能：

配进所有攻击类型的支持。 OpenATTACK支持所有类型的攻击，包括句子/word-/cartar-level扰动和梯度 - /得分/基于决策/盲攻击模型；

多语言。 OpenAttack现在支持英语和中文。它的可扩展设计可快速支持更多语言。

并行处理。 OpenAttack为攻击模型的多进程运行提供了支持，以提高攻击效率；

配立？拥抱脸。 OpenAttack完全集成了？变压器和数据集库；

️巨大的可扩展性。您可以在任何自定义数据集上轻松攻击定制的受害者模型，或开发和评估定制的攻击模型。

OpenAttack具有广泛的用途，包括：

✅为攻击模型提供各种方便的基线；

✅使用其彻底评估指标全面评估攻击模型；

✅在其共同攻击组件的帮助下，协助快速开发新的攻击模型；

✅评估机器学习模型对各种对抗性攻击的鲁棒性；

✅通过用产生的对抗性示例丰富训练数据，进行对抗训练以提高机器学习模型的鲁棒性。

安装

1。使用`pip` （推荐）

pip install OpenAttack

2。克隆此仓库

git clone https://github.com/thunlp/OpenAttack.git
cd OpenAttack
python setup.py install

安装后，您可以尝试运行demo.py以检查OpenAttack是否效果很好：

 python demo.py

用法示例

攻击内置受害者模型

OpenAttack在一些常用的NLP模型中构建，例如Bert（Devlin等人，2018年）和Roberta（Liu等人，2019年），它们在一些常用的数据集（例如SST-2）上进行了微调。您可以轻松地针对这些内置受害者模型进行对抗性攻击。

以下代码片段显示了如何使用PWWS，这是一种基于贪婪算法的攻击模型（Ren等，2019），以攻击SST-2数据集中的BERT（完整的可执行代码在此处）。

 import OpenAttack as oa
import datasets # use the Hugging Face's datasets library
# change the SST dataset into 2-class
def dataset_mapping ( x ):
    return {
        "x" : x [ "sentence" ],
        "y" : 1 if x [ "label" ] > 0.5 else 0 ,
    }
# choose a trained victim classification model
victim = oa . DataManager . loadVictim ( "BERT.SST" )
# choose 20 examples from SST-2 as the evaluation data 
dataset = datasets . load_dataset ( "sst" , split = "train[:20]" ). map ( function = dataset_mapping )
# choose PWWS as the attacker and initialize it with default parameters
attacker = oa . attackers . PWWSAttacker ()
# prepare for attacking
attack_eval = OpenAttack . AttackEval ( attacker , victim )
# launch attacks and print attack results 
attack_eval . eval ( dataset , visualize = True )

定制的受害者模型

以下代码片段显示了如何使用PWW在SST-2上攻击自定义的情感分析模型（NLTK内置的统计模型）（完整的可执行代码在此处）。

 import OpenAttack as oa
import numpy as np
import datasets
import nltk
from nltk . sentiment . vader import SentimentIntensityAnalyzer


# configure access interface of the customized victim model by extending OpenAttack.Classifier.
class MyClassifier ( oa . Classifier ):
    def __init__ ( self ):
        # nltk.sentiment.vader.SentimentIntensityAnalyzer is a traditional sentiment classification model.
        nltk . download ( 'vader_lexicon' )
        self . model = SentimentIntensityAnalyzer ()
    
    def get_pred ( self , input_ ):
        return self . get_prob ( input_ ). argmax ( axis = 1 )

    # access to the classification probability scores with respect input sentences
    def get_prob ( self , input_ ):
        ret = []
        for sent in input_ :
            # SentimentIntensityAnalyzer calculates scores of “neg” and “pos” for each instance
            res = self . model . polarity_scores ( sent )

            # we use ?????_??? / (?????_??? + ?????_???) to represent the probability of positive sentiment
            # Adding 10^−6 is a trick to avoid dividing by zero.
            prob = ( res [ "pos" ] + 1e-6 ) / ( res [ "neg" ] + res [ "pos" ] + 2e-6 )

            ret . append ( np . array ([ 1 - prob , prob ]))
        
        # The get_prob method finally returns a np.ndarray of shape (len(input_), 2). See Classifier for detail.
        return np . array ( ret )

def dataset_mapping ( x ):
    return {
        "x" : x [ "sentence" ],
        "y" : 1 if x [ "label" ] > 0.5 else 0 ,
    }
    
# load some examples of SST-2 for evaluation
dataset = datasets . load_dataset ( "sst" , split = "train[:20]" ). map ( function = dataset_mapping )
# choose the costomized classifier as the victim model
victim = MyClassifier ()
# choose PWWS as the attacker and initialize it with default parameters
attacker = oa . attackers . PWWSAttacker ()
# prepare for attacking
attack_eval = oa . AttackEval ( attacker , victim )
# launch attacks and print attack results 
attack_eval . eval ( dataset , visualize = True )

自定义数据集

以下代码段显示了如何使用PWW在自定义数据集上攻击现有的微调情感分析模型（完整的可执行代码在此处）。

 import OpenAttack as oa
import transformers
import datasets

# load a fine-tuned sentiment analysis model from Transformers (you can also use our fine-tuned Victim.BERT.SST)
tokenizer = transformers . AutoTokenizer . from_pretrained ( "echarlaix/bert-base-uncased-sst2-acc91.1-d37-hybrid" )
model = transformers . AutoModelForSequenceClassification . from_pretrained ( "echarlaix/bert-base-uncased-sst2-acc91.1-d37-hybrid" , num_labels = 2 , output_hidden_states = False )
victim = oa . classifiers . TransformersClassifier ( model , tokenizer , model . bert . embeddings . word_embeddings )

# choose PWWS as the attacker and initialize it with default parameters
attacker = oa . attackers . PWWSAttacker ()

# create your customized dataset
dataset = datasets . Dataset . from_dict ({
    "x" : [
        "I hate this movie." ,
        "I like this apple."
    ],
    "y" : [
        0 , # 0 for negative
        1 , # 1 for positive
    ]
})

# prepare for attacking
attack_eval = oa . AttackEval ( attacker , victim , metrics = [ oa . metric . EditDistance (), oa . metric . ModificationRate ()])
# launch attacks and print attack results
attack_eval . eval ( dataset , visualize = True )

多处理

OpenAttack支持方便的多处理，以加速对抗攻击的过程。以下代码段显示了如何在具有遗传的对抗攻击中使用多处理（Alzantot等人，2018），这是一种基于遗传算法的攻击模型（完整的可执行代码在这里）。

 import OpenAttack as oa
import datasets

def dataset_mapping ( x ):
    return {
        "x" : x [ "sentence" ],
        "y" : 1 if x [ "label" ] > 0.5 else 0 ,
    }

victim = oa . loadVictim ( "BERT.SST" )
dataset = datasets . load_dataset ( "sst" , split = "train[:20]" ). map ( function = dataset_mapping )
attacker = oa . attackers . GeneticAttacker ()
attack_eval = oa . AttackEval ( attacker , victim )
# Using multiprocessing simply by specify num_workers
attack_eval . eval ( dataset , visualize = True , num_workers = 4 )

中国攻击

OpenAttack现在支持对英国和中国受害者模型的对抗性攻击。这是使用PWWS对中国评论分类模型进行对抗性攻击的示例守则。

定制攻击模型

OpenAttack结合了许多方便的组件，这些组件可以轻松组装到新的攻击模型中。这里给出了一个示例，说明如何设计一个简单的攻击模型，该模型在原始句子中调整了令牌。

对抗训练

OpenATTACK可以通过攻击训练集中的实例轻松地产生对抗性示例，该实例可以添加到原始培训数据集中，以重新训练更强大的受害者模型，即对对抗性培训。这里举例说明了如何使用OpenAttack进行对抗训练。

更多例子

攻击句子对分类模型。除了单句分类模型外，OpenAttack还支持针对句子对分类模型的攻击。这是对使用OpenAttack进行NLI模型进行对抗性攻击的示例代码。
定制评估指标。 OpenAttack支持设计定制的对抗攻击评估度量。这里举了一个示例，说明如何添加自定义评估度量标准并使用它来评估对抗性攻击。

攻击模型

根据对原始输入施加的扰动水平，文本对抗攻击模型可以归类为句子级别，单词级，字符级攻击模型。

根据对受害者模型的可访问性，文本对抗攻击模型可以分为基于gradient的，基于score ，基于decision和blind攻击模型。

Taadpapers是一个纸质清单，总结了几乎所有有关文本对抗攻击和防御的论文。您可以查看此列表以查找更多攻击模型。

当前，OpenAttack包括15个针对涵盖所有攻击类型的文本分类模型的典型攻击模型。

这是当前涉及的攻击模型的列表。

句子级
- （SEA）对NLP模型进行调试的语义上等效的对抗规则。 Marco Tulio Ribeiro，Sameer Singh，Carlos Guestrin 。 ACL 2018。 decision [PDF] [代码]
- （SCPN）具有语法控制的释义网络的对抗示例生成。 Mohit Iyer，John Wieting，Kevin Gimpel，Luke Zettlemoyer 。 NAACL-HLT 2018。 blind [PDF] [代码和数据]
- （gan）产生自然的对抗例子。 Zhengli Zhao，Dheeru Dua，Sameer Singh 。 ICLR 2018。 decision [PDF] [代码]
单词级
- （TextFooler） Bert真的很健壮吗？自然语言攻击文本分类和元素的强大基准。 Di Jin，Zhijing Jin，Joey Tianyi Zhou，Peter Szolovits 。 AAAI-20。 score [PDF] [代码]
- （PWWS）通过概率加权单词显着性生成自然语言对抗性示例。 Shuhuai Ren，Yihe Deng，Kun He，Wanxiang Che 。 ACL 2019。 score [PDF] [代码]
- （遗传）产生自然语言对抗性例子。 Moustafa Alzantot，Yash Sharma，Ahmed Elgohary，Bo-Jhang Ho，Mani Srivastava，Kai-Wei Chang 。 EMNLP 2018。 score [PDF] [代码]
- （Sememepso）单词级文本对抗性攻击作为组合优化。 Yuan Zang，Fanchao Qi，Chenghao Yang，Zhiyuan Liu，Meng Zhang，Qun Liu和Maosong Sun。 ACL 2020。 score [PDF] [代码]
- （伯特攻击）伯特攻击：使用伯特对伯特的对抗性攻击。 Linyang Li，Ruotian MA，Qipeng Guo，Xiangyang Xue，Xipeng Qiu 。 EMNLP 2020。 score [PDF] [代码]
- （BAE） BAE：基于BERT的对抗性示例，用于文本分类。 Siddhant Garg，Goutham Ramakrishnan。 EMNLP 2020 。 score [PDF] [代码]
- （FD）为反复神经网络制作对抗性输入序列。 Nicolas Papernot，Patrick McDaniel，Ananthram Swami，Richard Harang 。 MILCOM 2016。 gradient [PDF]
单词/char级
- （TextBugger） TextBugger：针对现实世界应用程序生成对抗文本。 Jinfeng Li，Shouling JI，Tianyu Du，Bo Li，Ting Wang 。 NDSS 2019。 gradient score [PDF]
- （UAT）用于攻击和分析NLP的通用对抗触发器。 Eric Wallace，Shi Feng，Nikhil Kandpal，Matt Gardner，Sameer Singh 。 EMNLP-IJCNLP 2019。 gradient [PDF] [代码] [网站]
- （Hotflip） Hotflip：用于文本分类的白色框对面示例。 Javid Ebrahimi，Anyi Rao，Daniel Lowd，Dejing Dou 。 ACL 2018。 gradient [PDF] [代码]
char级
- （Viper）像人类一样的文本处理：视觉攻击和屏蔽NLP系统。史蒂芬·埃格（Steffen Eger），戈兹德·古尔（GözdeGül马），安德烈亚斯·鲁克（AndreasRücklé），吉恩·李（Ji-ung Lee），克劳迪亚·舒尔茨（Claudia Schulz），莫赫森·梅斯加（Mohsen Mesgar），克里希恩·斯沃恩卡（Krishnkant Swarnkar），埃德温·辛普森（Edwin Simpson），艾里纳·吉维奇（Iryna Gurevych）。 NAACL-HLT 2019。 score [PDF] [代码和数据]
- （DeepWordBug）黑盒生成对抗文本序列，以逃避深度学习分类器。 Ji Gao，Jack Lanchantin，Mary Lou Soffa，Yanjun Qi 。 IEEE SPW 2018。 score [PDF] [代码]

下表说明了攻击模型的比较。

模型	可访问性	扰动	大意
海	决定	句子	基于规则的释义
SCPN	瞎的	句子	释义
甘	决定	句子	通过编码器编码器的文本生成
TextFooler	分数	单词	贪婪的词替代
pwws	分数	单词	贪婪的词替代
遗传	分数	单词	基于遗传算法的单词替代
半疾病	分数	单词	基于粒子群优化的单词替代
伯特攻击	分数	单词	贪婪的情境化词替代
贝	分数	单词	贪婪的上下文化词替代和插入
fd	坡度	单词	基于梯度的单词替代
Textbugger	渐变，得分	word+char	贪婪的单词替代和性格操纵
UAT	坡度	字，char	基于梯度的单词或角色操纵
热弹	坡度	字，char	基于梯度的单词或角色替代
毒蛇	瞎的	char	视觉上相似的角色替代
DeepWordbug	分数	char	贪婪的角色操纵

工具包设计

考虑到不同攻击模型之间的显着区别，我们为攻击模型的骨架设计留下了相当大的自由，并专注于简化对抗性攻击的一般处理以及攻击模型中使用的常见组件。

OpenAttack有7个主要模块：

Toolkit_framework

TextProsessor ：处理原始文本序列以协助攻击模型生成对抗示例；
受害者：包裹受害者模型；
攻击者：包括各种攻击模型；
攻击者：包装在单词/字符级攻击模型中使用的不同单词/角色替代方法以及句子级攻击模型中使用的其他组件（例如释义模型）；
指标：提供几个对抗性示例质量指标，可以作为攻击过程中对抗性例子的约束或评估对抗性攻击的限制；
attackeval ：评估攻击效率，对抗性示例质量和攻击效率的文本对抗攻击；
DataManager ：管理其他模块中使用的所有数据和保存模型。

引用

如果您使用此工具包，请引用我们的论文：

 @inproceedings{zeng2020openattack,
  title={{Openattack: An open-source textual adversarial attack toolkit}},
  author={Zeng, Guoyang and Qi, Fanchao and Zhou, Qianrui and Zhang, Tingji and Hou, Bairu and Zang, Yuan and Liu, Zhiyuan and Sun, Maosong},
  booktitle={Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations},
  pages={363--371},
  year={2021},
  url={https://aclanthology.org/2021.acl-demo.43},
  doi={10.18653/v1/2021.acl-demo.43}
}

贡献者

我们感谢该项目的所有贡献者。非常欢迎更多的贡献。

展开

附加信息

版本 version for datasets
类型其他源码
更新时间 2025-04-17
大小 3.02MB
来自于 Github

OpenAttack

功能和用途

OpenAttack具有以下功能：

OpenAttack具有广泛的用途，包括：

安装

1。使用`pip` （推荐）

2。克隆此仓库

用法示例

攻击内置受害者模型

攻击模型

工具包设计

引用

贡献者

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express

OpenAttack

功能和用途

OpenAttack具有以下功能：

OpenAttack具有广泛的用途，包括：

安装

1。使用pip （推荐）

2。克隆此仓库

用法示例

攻击内置受害者模型

攻击模型

工具包设计

引用

贡献者

1。使用`pip` （推荐）