Unduh OpenAttack - Unduh Kode Sumber OpenAttack

OpenAttack

Kode sumber lainnya

version for datasets

Unduh

Status Covergae Runner GitHub

Dokumentasi • Fitur & Penggunaan • Contoh Penggunaan • Model Serangan • Desain Toolkit

OpenAttack adalah toolkit serangan permusuhan tekstual berbasis Python open-source, yang menangani seluruh proses serangan permusuhan tekstual, termasuk teks preprocessing, mengakses model korban, menghasilkan contoh dan evaluasi permusuhan.

Fitur & penggunaan

OpenAttack memiliki fitur berikut:

️ Dukungan untuk semua jenis serangan . OpenAttack mendukung semua jenis serangan termasuk perturbasi level kalimat-/kata/karakter dan gradien-/skor-/model serangan berbasis keputusan/buta;

️ Multilingalitas . OpenAttack mendukung bahasa Inggris dan Cina sekarang. Desainnya yang dapat diperluas memungkinkan dukungan cepat untuk lebih banyak bahasa;

️ pemrosesan paralel . OpenAttack memberikan dukungan untuk multi-proses menjalankan model serangan untuk meningkatkan efisiensi serangan;

️ Kompatibilitas dengan? Wajah memeluk . OpenAttack sepenuhnya terintegrasi dengan? Perpustakaan Transformers dan Dataset;

️ ekstensibilitas yang hebat . Anda dapat dengan mudah menyerang model korban yang disesuaikan pada dataset yang disesuaikan atau mengembangkan dan mengevaluasi model serangan yang disesuaikan.

OpenAttack memiliki berbagai macam kegunaan, termasuk:

✅ Menyediakan berbagai baseline praktis untuk model serangan;

✅ Mengevaluasi model serangan secara komprehensif menggunakan metrik evaluasi menyeluruhnya;

✅ Membantu dalam pengembangan cepat model serangan baru dengan bantuan komponen serangan umum;

✅ Mengevaluasi ketahanan model pembelajaran mesin terhadap berbagai serangan permusuhan;

✅ Melakukan pelatihan permusuhan untuk meningkatkan ketahanan model pembelajaran mesin dengan memperkaya data pelatihan dengan contoh -contoh permusuhan yang dihasilkan.

Instalasi

1. Menggunakan `pip` (Direkomendasikan)

pip install OpenAttack

2. mengkloning repo ini

git clone https://github.com/thunlp/OpenAttack.git
cd OpenAttack
python setup.py install

Setelah instalasi, Anda dapat mencoba menjalankan demo.py untuk memeriksa apakah OpenAttack berfungsi dengan baik:

 python demo.py

demo

Contoh penggunaan

Menyerang model korban bawaan

OpenAttack dibangun dalam beberapa model NLP yang umum digunakan seperti Bert (Devlin et al. 2018) dan Roberta (Liu et al. 2019) yang telah disesuaikan dengan beberapa set data yang umum digunakan (seperti SST-2). Anda dapat dengan mudah melakukan serangan permusuhan terhadap model-model korban bawaan ini.

Cuplikan kode berikut menunjukkan cara menggunakan PWWS, model serangan berbasis algoritma serakah (Ren et al., 2019), untuk menyerang Bert pada dataset SST-2 (kode yang dapat dieksekusi lengkap ada di sini).

 import OpenAttack as oa
import datasets # use the Hugging Face's datasets library
# change the SST dataset into 2-class
def dataset_mapping ( x ):
    return {
        "x" : x [ "sentence" ],
        "y" : 1 if x [ "label" ] > 0.5 else 0 ,
    }
# choose a trained victim classification model
victim = oa . DataManager . loadVictim ( "BERT.SST" )
# choose 20 examples from SST-2 as the evaluation data 
dataset = datasets . load_dataset ( "sst" , split = "train[:20]" ). map ( function = dataset_mapping )
# choose PWWS as the attacker and initialize it with default parameters
attacker = oa . attackers . PWWSAttacker ()
# prepare for attacking
attack_eval = OpenAttack . AttackEval ( attacker , victim )
# launch attacks and print attack results 
attack_eval . eval ( dataset , visualize = True )

Model korban yang disesuaikan

Cuplikan kode berikut menunjukkan cara menggunakan PWWS untuk menyerang model analisis sentimen yang disesuaikan (model statistik yang dibangun di NLTK) pada SST-2 (kode yang dapat dieksekusi lengkap ada di sini).

 import OpenAttack as oa
import numpy as np
import datasets
import nltk
from nltk . sentiment . vader import SentimentIntensityAnalyzer


# configure access interface of the customized victim model by extending OpenAttack.Classifier.
class MyClassifier ( oa . Classifier ):
    def __init__ ( self ):
        # nltk.sentiment.vader.SentimentIntensityAnalyzer is a traditional sentiment classification model.
        nltk . download ( 'vader_lexicon' )
        self . model = SentimentIntensityAnalyzer ()
    
    def get_pred ( self , input_ ):
        return self . get_prob ( input_ ). argmax ( axis = 1 )

    # access to the classification probability scores with respect input sentences
    def get_prob ( self , input_ ):
        ret = []
        for sent in input_ :
            # SentimentIntensityAnalyzer calculates scores of “neg” and “pos” for each instance
            res = self . model . polarity_scores ( sent )

            # we use ?????_??? / (?????_??? + ?????_???) to represent the probability of positive sentiment
            # Adding 10^−6 is a trick to avoid dividing by zero.
            prob = ( res [ "pos" ] + 1e-6 ) / ( res [ "neg" ] + res [ "pos" ] + 2e-6 )

            ret . append ( np . array ([ 1 - prob , prob ]))
        
        # The get_prob method finally returns a np.ndarray of shape (len(input_), 2). See Classifier for detail.
        return np . array ( ret )

def dataset_mapping ( x ):
    return {
        "x" : x [ "sentence" ],
        "y" : 1 if x [ "label" ] > 0.5 else 0 ,
    }
    
# load some examples of SST-2 for evaluation
dataset = datasets . load_dataset ( "sst" , split = "train[:20]" ). map ( function = dataset_mapping )
# choose the costomized classifier as the victim model
victim = MyClassifier ()
# choose PWWS as the attacker and initialize it with default parameters
attacker = oa . attackers . PWWSAttacker ()
# prepare for attacking
attack_eval = oa . AttackEval ( attacker , victim )
# launch attacks and print attack results 
attack_eval . eval ( dataset , visualize = True )

Dataset yang disesuaikan

Cuplikan kode berikut menunjukkan cara menggunakan PWWS untuk menyerang model analisis sentimen yang disesuaikan yang ada pada dataset yang disesuaikan (kode yang dapat dieksekusi lengkap ada di sini).

 import OpenAttack as oa
import transformers
import datasets

# load a fine-tuned sentiment analysis model from Transformers (you can also use our fine-tuned Victim.BERT.SST)
tokenizer = transformers . AutoTokenizer . from_pretrained ( "echarlaix/bert-base-uncased-sst2-acc91.1-d37-hybrid" )
model = transformers . AutoModelForSequenceClassification . from_pretrained ( "echarlaix/bert-base-uncased-sst2-acc91.1-d37-hybrid" , num_labels = 2 , output_hidden_states = False )
victim = oa . classifiers . TransformersClassifier ( model , tokenizer , model . bert . embeddings . word_embeddings )

# choose PWWS as the attacker and initialize it with default parameters
attacker = oa . attackers . PWWSAttacker ()

# create your customized dataset
dataset = datasets . Dataset . from_dict ({
    "x" : [
        "I hate this movie." ,
        "I like this apple."
    ],
    "y" : [
        0 , # 0 for negative
        1 , # 1 for positive
    ]
})

# prepare for attacking
attack_eval = oa . AttackEval ( attacker , victim , metrics = [ oa . metric . EditDistance (), oa . metric . ModificationRate ()])
# launch attacks and print attack results
attack_eval . eval ( dataset , visualize = True )

Multiprosesing

OpenAttack mendukung multiproses yang nyaman untuk mempercepat proses serangan permusuhan. Cuplikan kode berikut menunjukkan cara menggunakan multiprosesing dalam serangan permusuhan dengan genetik (Alzantot et al. 2018), model serangan berbasis algoritma genetika (kode yang dapat dieksekusi lengkap ada di sini).

 import OpenAttack as oa
import datasets

def dataset_mapping ( x ):
    return {
        "x" : x [ "sentence" ],
        "y" : 1 if x [ "label" ] > 0.5 else 0 ,
    }

victim = oa . loadVictim ( "BERT.SST" )
dataset = datasets . load_dataset ( "sst" , split = "train[:20]" ). map ( function = dataset_mapping )
attacker = oa . attackers . GeneticAttacker ()
attack_eval = oa . AttackEval ( attacker , victim )
# Using multiprocessing simply by specify num_workers
attack_eval . eval ( dataset , visualize = True , num_workers = 4 )

Serangan Cina

OpenAttack sekarang mendukung serangan permusuhan terhadap model korban Inggris dan Cina. Berikut adalah contoh kode melakukan serangan permusuhan terhadap model klasifikasi tinjauan Cina menggunakan PWWS.

Model serangan khusus

OpenAttack menggabungkan banyak komponen praktis yang dapat dengan mudah dirakit menjadi model serangan baru. Di sini memberikan contoh cara merancang model serangan sederhana yang mengocok token dalam kalimat asli.

Pelatihan permusuhan

OpenAttack dapat dengan mudah menghasilkan contoh -contoh permusuhan dengan menyerang contoh dalam set pelatihan, yang dapat ditambahkan ke set data pelatihan asli untuk melatih kembali model korban yang lebih kuat, yaitu pelatihan permusuhan. Di sini memberikan contoh bagaimana melakukan pelatihan permusuhan dengan OpenAttack.

Lebih banyak contoh

Model klasifikasi pasangan kalimat serangan. Selain model klasifikasi kalimat tunggal, serangan dukungan OpenAttack terhadap model klasifikasi pasangan kalimat. Berikut adalah contoh kode melakukan serangan permusuhan terhadap model NLI dengan OpenAttack.
Metrik evaluasi khusus. OpenAttack mendukung merancang metrik evaluasi serangan permusuhan yang disesuaikan. Di sini memberikan contoh cara menambahkan metrik evaluasi khusus dan menggunakannya untuk mengevaluasi serangan permusuhan.

Model Serangan

Menurut tingkat gangguan yang dikenakan pada input asli, model serangan permusuhan tekstual dapat dikategorikan ke dalam model serangan tingkat-tingkat, tingkat kata, tingkat karakter.

Menurut aksesibilitas ke model korban, model serangan permusuhan tekstual dapat dikategorikan menjadi model serangan berbasis gradient , berbasis score , berbasis decision dan blind .

Taadpapers adalah daftar kertas yang merangkum hampir semua makalah tentang serangan dan pertahanan bertambah tekstual. Anda dapat melihat daftar ini untuk menemukan lebih banyak model serangan.

Saat ini OpenAttack mencakup 15 model serangan khas terhadap model klasifikasi teks yang mencakup semua jenis serangan.

Berikut adalah daftar model serangan yang terlibat saat ini.

Level Kalimat
- (SEA) aturan permusuhan yang setara secara semantik untuk debugging model NLP . Marco Tulio Ribeiro, Sameer Singh, Carlos Guestrin . ACL 2018. decision [PDF] [Kode]
- (SCPN) Generasi contoh permusuhan dengan jaringan parafrase yang dikendalikan secara sintaksis . Mohit Iyyer, John Wieting, Kevin Gimpel, Luke Zettlemoyer . NAACL-HLT 2018. blind [PDF] [Kode & Data]
- (GAN) Menghasilkan contoh permusuhan alami . Zhengli Zhao, Dheeru Dua, Sameer Singh . ICLR 2018. decision [PDF] [Kode]
Level kata
- (TextFooler) Apakah Bert benar -benar kuat? Baseline yang kuat untuk serangan bahasa alami pada klasifikasi teks dan diperlukan . Di Jin, Zhijing Jin, Joey Tianyi Zhou, Peter Szolovits . Aaai-20. score [pdf] [kode]
- (PWWS) Menghasilkan Contoh Perselisihan Bahasa Alami Melalui Probabilitas Kata Berat Kata . Shuhuai Ren, Yihe Deng, Kun He, Wanxiang Che . ACL 2019. score [PDF] [Kode]
- (Genetik) Menghasilkan contoh bahasa alami . Moustafa Alzantot, Yash Sharma, Ahmed Elgohary, Bo-Jhang Ho, Mani Srivastava, Kai-Wei Chang . EMNLP 2018. score [PDF] [Kode]
- (Sememepso) penyerang permusuhan tekstual tingkat kata sebagai optimasi kombinatorial . Yuan Zang, Fanchao Qi, Chenghao Yang, Zhiyuan Liu, Meng Zhang, Qun Liu dan Maosong Sun. ACL 2020. score [PDF] [Kode]
- (Bert-serangan) Bert-serangan: serangan permusuhan terhadap Bert menggunakan Bert . Linyang Li, Ruotian MA, Qipeng Guo, Xiangyang Xue, Xipeng Qiu . EMNLP 2020. score [PDF] [Kode]
- (BAE) BAE: Contoh permusuhan berbasis Bert untuk klasifikasi teks . Siddhant Garg, Goutham Ramakrishnan. EMNLP 2020 . score [pdf] [kode]
- (FD) Membuat urutan input permusuhan untuk jaringan saraf berulang . Nicolas Papernot, Patrick McDaniel, Ananthram Swami, Richard Harang . MILCOM 2016. gradient [PDF]
Kata/level char
- (TextBugger) TextBugger: Menghasilkan teks permusuhan terhadap aplikasi dunia nyata . Jinfeng Li, Shouling JI, Tianyu Du, Bo Li, Ting Wang . NDSS 2019. score gradient [PDF]
- (UAT) Pemicu permusuhan universal untuk menyerang dan menganalisis NLP. Eric Wallace, Shi Feng, Nikhil Kandpal, Matt Gardner, Sameer Singh . EMNLP-IJCNLP 2019. gradient [PDF] [Kode] [Situs Web]
- (Hotflip) Hotflip: Contoh permusuhan kotak putih untuk klasifikasi teks . Javid Ebrahimi, Anyi Rao, Daniel Lowd, Dejing Dou . ACL 2018. gradient [PDF] [Kode]
Level char
- (Viper) Pemrosesan teks seperti manusia: menyerang dan melindungi sistem NLP secara visual . Steffen Eger, Gözde Gül ¸sahin, Andreas Rücklé, Ji-un Lee, Claudia Schulz, Mohsen Mesgar, Krishnkant Swarnkar, Edwin Simpson, Iryna Gurevych . NAACL-HLT 2019. score [PDF] [Kode & Data]
- (Deepwordbug) Generasi Black-Box dari urutan teks permusuhan untuk menghindari pengklasifikasi pembelajaran yang mendalam . Ji Gao, Jack Lanchantin, Mary Lou Soffa, Yanjun Qi . IEEE SPW 2018. score [PDF] [Kode]

Tabel berikut menggambarkan perbandingan model serangan.

Model	Aksesibilitas	Gangguan	Ide utama
LAUT	Keputusan	Kalimat	Parafrase berbasis aturan
Scpn	Buta	Kalimat	Parafrase
Gan	Keputusan	Kalimat	Pembuatan teks oleh encoder-decoder
TextFooler	Skor	Kata	Substitusi kata yang serakah
PWWS	Skor	Kata	Substitusi kata yang serakah
Genetik	Skor	Kata	Substitusi kata berbasis algoritma genetika
Sememepso	Skor	Kata	Substitusi kata berbasis optimasi partikel berkerumun
Bert-serangan	Skor	Kata	Substitusi kata yang rakus
Bae	Skor	Kata	Substitusi dan penyisipan kata yang rakus
Fd	Gradien	Kata	Substitusi kata berbasis gradien
TextBugger	Gradien, skor	Kata+char	Substitusi kata yang serakah dan manipulasi karakter
Uat	Gradien	Word, char	Kata atau manipulasi karakter berbasis gradien
Hotflip	Gradien	Word, char	Kata atau substitusi karakter berbasis gradien
ULAR BERBISA	Buta	Arang	Substitusi karakter yang sama secara visual
Deepwordbug	Skor	Arang	Manipulasi karakter serakah

Desain toolkit

Mempertimbangkan perbedaan yang signifikan di antara model serangan yang berbeda, kami meninggalkan kebebasan yang cukup besar untuk desain kerangka model serangan, dan lebih fokus pada merampingkan pemrosesan umum penyerang permusuhan dan komponen umum yang digunakan dalam model serangan.

OpenAttack memiliki 7 modul utama:

toolkit_framework

TextProcessor : Memproses urutan teks asli untuk membantu model serangan dalam menghasilkan contoh permusuhan;
Korban : Membungkus Model Korban;
Penyerang : terdiri dari berbagai model serangan;
Serangan : Mengemas metode substitusi kata/karakter yang berbeda yang digunakan dalam model serangan tingkat kata/karakter dan beberapa komponen lain yang digunakan dalam model serangan tingkat kalimat seperti model parafrase;
Metrik : Menyediakan beberapa contoh kualitas metrik yang dapat berfungsi sebagai kendala pada contoh permusuhan selama metrik penyerang atau evaluasi untuk mengevaluasi serangan permusuhan;
Serangan : Mengevaluasi serangan permusuhan tekstual dari efektivitas serangan, contoh kualitas dan efisiensi serangan permusuhan;
Datamanager : Mengelola semua data dan model yang disimpan yang digunakan dalam modul lain.

Kutipan

Harap kutip kertas kami jika Anda menggunakan toolkit ini:

 @inproceedings{zeng2020openattack,
  title={{Openattack: An open-source textual adversarial attack toolkit}},
  author={Zeng, Guoyang and Qi, Fanchao and Zhou, Qianrui and Zhang, Tingji and Hou, Bairu and Zang, Yuan and Liu, Zhiyuan and Sun, Maosong},
  booktitle={Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations},
  pages={363--371},
  year={2021},
  url={https://aclanthology.org/2021.acl-demo.43},
  doi={10.18653/v1/2021.acl-demo.43}
}