Необходимые документы о текстовой состязательной атаке и защите (Таад)
Этот список в настоящее время поддерживается Chenghao Yang в Uchicago.
Другие предыдущие основные участники, в том числе Фанчао Ци и Юань Занг, когда они были в Thunlp.
Мы очень благодарим всех великих участников.
Содержимое
- 0. Инструментальные наборы
- 1. Обследование документов
- 2. Атакующие документы (классифицируются в соответствии с уровнем возмущения)
- 2.1 Атака на уровне предложения
- 2.2 Атака на уровне слов
- 2.3 Атака на уровне шара
- 2.4 многоуровневая атака
- 3. Защитные документы
- 4. Сертифицированная надежность
- 5. Конфликт и оценка
- 6. Другие документы
- Участники
0. Инструментальные наборы
- Robustqa: структура для анализа генерации состязательного текста в системах ответа вопросов . Yasaman Boreshban, Seyed Morteza Mirbostani, Seyedeh Fatemeh Ahmadi, Gita Shojaee, Fatemeh Kamani, Gholamreza Ghassem-Sani, Seyed Abolghasem Mirroshandel . EMNLP 2022 ДЕМО. [Codebase] [PDF]
- Seqattack: на состязательные атаки для признания именных организаций . Уолтер Саймончини, Герасимос Спанакис . EMNLP 2021 ДЕМО. [Веб -сайт] [PDF]
- OpenAttack: инструментарий с открытым исходным кодом . Гуян Зенг, Фанчао Ци, Цяньруи Чжоу, Тингджи Чжан, Байру Хоу, Юань Занг, Чжиюань Лю, Маосонг Солнце . ACL-IJCNLP 2021 ДЕМО. [Веб -сайт] [Док] [PDF]
- TextAttack: структура для состязательных атак, увеличения данных и тренировки состязания в НЛП . Джон Моррис, Эли Лифленд, Джин Юн Ю, Джейк Григсби, Ди Джин, Янджун Ци . EMNLP 2020 ДЕМО. [Веб -сайт] [Док] [PDF]
1. Обследование документов
- Измерить и повысить надежность в моделях НЛП: опрос . Сюэжхи Ван, Хаохан Ван, Дийи Ян . NAACL 2022. [PDF]
- На пути к надежной глубокой нейронной сети в текстах: опрос . Венки Ван, Лина Ван, Бенксио Тан, Ран Ван, Аошуанг Йе . TKDE 2021. [PDF]
- Адверские атаки на модели глубокого обучения в обработке естественного языка: опрос . Вэй Эмма Чжан, Куан З. Шенг, Ахоуд Алхазми, Ченлиан Ли . ACM TIST 2020. [PDF]
- Атаки и защита состязания на изображениях, графиках и тексте: обзор . Хан Сюй, Яо М.А., Ха-Чен Лю, Дебаян Деб, Хуэй Лю, Джи-Лиан Тан, Анил К. Джайн . Международный журнал автоматизации и вычислений 2020 года. [PDF]
- Методы анализа в обработке нейронного языка: опрос . Йонатан Белинков, Джеймс Гласс . TACL 2019. [PDF]
2. Атакующие документы
Каждая статья прикреплена к одной или нескольким следующим мечениям, указывающим, сколько информации модель атаки знает о модели жертвы : gradient (= white , вся информация), score (решение вывода и оценки), decision (только решение о выходе) и blind (ничего).
2.1 Атака на уровне предложения
- Использование состязательных атак для выявления статистического смещения в моделях понимания прочитанного машины . Цзею Лин, Цзяджи Зу, Най Дин . ACL-IJCNLP 2021.
blind [PDF] - Серый ящик состязательный атака и защита для классификации настроений . Ying Xu, Xu Zhong, Antonio Jimeno Yepes, Jey Han Lau . NAACL-HLT 2021.
gradient [PDF] [CODE] - Генерируя синтаксически контролируемые перефразы без использования аннотированных параллельных пар . Куан-Хао Хуан и Кай-Вей Чанг . EACL 2021. [PDF] [Код]
- Cat-Gen: повышение надежности в моделях NLP посредством управляемого генерации состязательного текста . Tianlu Wang, Xuezhi Wang, Yao Qin, Ben Packer, Kang Lee, Jilin Chen, Alex Beutel, Ed Chi . EMNLP 2020.
score [PDF] - T3: Дерево-автообород с ограниченным состязательным текстом с ограниченным состязательным текстом для целевой атаки . Boxin Wang, Hengzhi Pei, Boyuan Pan, Qian Chen, Shuohang Wang, Bo Li . EMNLP 2020.
gradient [PDF] [Код] - Совместная атака и защита структурированных моделей прогнозирования . Венджуан Хан, Ливен Чжан, Юн Цзян, Кевей Ту . EMNLP 2020.
blind [PDF] [Код] - MALCOM: создание вредоносных комментариев, чтобы атаковать модели обнаружения фальшивых новостей нервных новостей . Тайский ле, Сухан Ван, Донгвон Ли . ICDM 2020.
gradient [PDF] [Код] - Улучшение надежности систем ответов вопросов для сомнения, перефразируя . Wee Chung Gan, Hwee Tou ng . ACL 2019.
blind [PDF] [Данные] - Пойтете меня, если вы можете: генерация состязательных примеров человека для ответа на вопрос . Эрик Уоллес, Педро Родригес, Ши Фэн, Икуя Ямада, Джордан Бойд-Грейбер . TACL 2019.
score [PDF] - Лапы: перефразируют противников из слов скремблирования . Юань Чжан, Джейсон Балдридж, Лухенг Хе . NAACL-HLT 2019.
blind [PDF] [Набор данных] - Оценка и повышение надежности систем диалога: тематическое исследование агента переговоров . Минхао Ченг, Вэй Вэй, Чо-Юй Сих . NAACL-HLT 2019.
gradient score [PDF] [Код] - Семантически эквивалентные состязательные правила отладки моделей НЛП . Марко Тулио Рибейро, Самир Сингх, Карлос Гесстрин . ACL 2018.
decision [PDF] [Код] - Современная регуляризация нейронных моделей NLI для интеграции логических фоновых знаний . Паскуале Минервини, Себастьян Ридель . Conll 2018.
score [PDF] [Code & Data] - Надежные модели понимания машины с помощью состязательного обучения . Йихенг Ван, Мохит Бансал . NAACL-HLT 2018.
decision [PDF] [Набор данных] - Совместный пример генерации с синтаксически контролируемыми перефразирующими сетями . Мохит Ийер, Джон Уайтинг, Кевин Гимптель, Люк Зеттлемуер . NAACL-HLT 2018.
blind [PDF] [CODE & DATA] - Генерируя естественные состязательные примеры . Чжэнли Чжао, Деру Дуа, Самир Сингх . ICLR 2018.
decision [PDF] [Код] - Адверские примеры для оценки систем понимания прочитанного . Робин Цзя, Перси Лян . EMNLP 2017.
score decision blind [PDF] [Код] - Адверские наборы для регуляризации предикторов нейронной связи . Паскуал Минервини, Томас Деместер, Тим Рокташель, Себастьян Ридель . UAI 2017.
score [PDF] [Код]
2.2 Атака на уровне слов
- Расширение объема: адаптация английских состязательных атак к китайцам . Hanyu Liu, Chengyuan Cai, Yanjun Qi . Выводы ACL 2023.
decision [PDF] [Код] - Совместное генерация текста по поиску и обучению . Guoyi Li, Bingkang Shi, Zongzhen Liu, Dehan Kong, Yulei Wu, Xiaodan Zhang, Longtao Huang, Honglei Lyu . Выводы ACL 2023.
score [PDF] [Код] - Сдвите разрыв между CV и NLP! Основанная на градиентной структуре текстовой состязательной атаки . Lifan Yuan, Yichi Zhang, Yangyi Chen, Wei Wei . Выводы ACL 2023.
decision [PDF] [Код] - Texthacker: обучающий гибридный локальный алгоритм поиска для текстовой жесткой атаки состязания . Чжэнь Ю, Сяусен Ван, Вэнсиан Че, Кун Хе . Результаты EMNLP 2022.
decision [PDF] [Код] - Texthoaxer: бюджетные жесткие атаки состязания на текст . МАЙДАО ЙЕ, Ченглин Мяо, Тин Ван, Фенглонг М.А. AAAI 2022.
decision [PDF] [Код] - Эффективные и масштабируемые атаки черного ящика на дискретные последовательные данные посредством байесовской оптимизации . Deokjae Lee, Seungyong Moon, Junhyeok Lee, Hyun Oh Song . ICML 2022.
score [PDF] [Код] - Semattack: естественные текстовые атаки на разные семантические пространства . Boxin Wang, Chejian Xu, Xiangyu Liu, Yu Cheng, Bo Li . Результаты NAACL 2022.
gradient [PDF] [CODE] - Основанный на градиентном состязательном возрасте против текстовых трансформаторов . Чуан Го, Александр Саблеяроллс, Херве Жегу, Дуве Киела . EMNLP 2021.
gradient [PDF] [Код] - Сильная базовая линия для эффективных атак запросов в черном ящике . Ришабх Махесари, Сакет Махешвари, Викрам Пуди . EMNLP 2021.
score [PDF] [Код] - О передаче состязательных атак против классификатора нейронного текста . Липинг Юань, Сяокин Чжэн, И Чжоу, Чо-Юи Сьи, Кай-Вей Чанг . EMNLP 2021. [PDF]
- Создание состязательных примеров для перевода нейронной машины . Синзе Чжан, Джунцхе Чжан, Чженхуа Чен, Кун Хе . ACL-IJCNLP 2021.
score [PDF] [CODE] - Эмпирическое исследование о состязательной атаке на NMT: языки и позиции имеют значение . Чжиюань Зенг, Дейи Сионг . ACL-IJCNLP 2021.
score [PDF] - Более пристальный взгляд на надежность синтаксических синтаксических синтаксистов нейронных зависимостей с использованием лучших состязательных примеров . Юксуань Ван, Вэнсиан Че, Иван Титов, Шей Б. Коэн, Чжилин Лей, Тинг Лю . Результаты ACL: ACL-IJCNLP 2021.
score [PDF] [CODE] - Контекстуализированное возмущение для текстовой состязательной атаки . Dianqi Li, Yizhe Zhang, Hao Peng, Liqun Chen, Chris Brockett, Ming-Ting Sun, Билл Долан . NAACL-HLT 2021.
score [PDF] [Код] - Adv-olm: генерирование текстовых противников через OLM . Виджит Малик, Ашвани Бхат, Ашутош Моди . EACL 2021.
score [PDF] [Код] - Странственная стилометрия в дикой природе: переносимые атаки лексической замещения на профилирование автора . Крис Эммери, Акос Кадар, Грегорз Хрупала . EACL 2021.
blind [PDF] [Код] - Создание атак естественного языка в жесткой настройке черного ящика . Ришабх Махешвари, Сакет Махешвари, Викрам Пуди . AAAI 2021.
decision [PDF] [Код] - Атака, вдохновленная геометрией, за генерацию примеров состязания естественного языка . Чжао Мэн, Роджер Уоттенхофер . Coling 2020.
gradient [PDF] [Код] - Берт-Атака: состязательная атака против Берта с использованием Берта . Линьян Ли, Руотиан М.А., Ципенг Го, Сяньгьян Сюэ, Сюзенг Цю . EMNLP 2020.
score [PDF] [Код] - BAE: Берт на основе состязательных примеров для классификации текста . Сиддхант Гарг, Гутам Рамакришнан . EMNLP 2020.
score [PDF] [Код] - Обнаружение чувства слова устранения неоднозначности в машинном переводе для модели-агентских состязательных атак . Денис Эмелин, Иван Титов, Рико Сеннрих . EMNLP 2020.
blind [PDF] [Код] - Имитационные атаки и защита для систем машинного перевода черного ящика . Эрик Уоллес, Митчелл Стерн, Dawn Song . EMNLP 2020.
decision [PDF] [Код] - Надежность модификации с общими словами в идентификации перефразирования . Чжоусинг Ши, Минли Хуанг . Результаты ACL: EMNLP 2020.
score [PDF] - Установка слов текстовая состязательная атака как комбинаторная оптимизация . Юань Занг, Фанчао Ци, Ченгао Ян, Чжиюань Лю, Мэн Чжан, Кун Лю, Маосонг Солнце . ACL 2020.
score [PDF] [Код] - Пришло время морфина! Борьба с лингвистической дискриминацией с помощью инфлекционных возмущений . Самсон Тан, Шафик Йоти, Мин-Йен Кан, Ричард Сочер . ACL 2020.
score [PDF] [Код] - О надежности языковых кодеров против грамматических ошибок . Фань Инь, Quanyu Long, Tao Meng, Kai-Wei Chang . ACL 2020.
score [PDF] [Код] - Оценка и повышение надежности моделей анализа зависимостей на основе нейронной сети с состязательными примерами . Сяоцинг Чжэн, Цзеханг Зенг, Йи Чжоу, Чо-Юи Сьи, Минхао Ченг, Сюандзин Хуанг . ACL 2020.
gradient score [PDF] [Код] - Усиленная генерация состязательных примеров для перевода нейронной машины . Вэй Зу, Шуцзян Хуан, Джун Си, Синью Дай, Цзяджун Чен . ACL 2020.
decision [PDF] - Берт действительно устойчив? Сильная базовая линия для атаки естественного языка на классификацию текста и въяснение . Ди Джин, Чжиджин Джин, Джои Тиани Чжоу, Питер Шоловит . AAAI 2020.
score [PDF] [Код] - SEQ2SICK: Оценка надежности моделей последовательности к последовательности с состязательными примерами . Минхао Ченг, Джинфенг Йи, Пин-Ю Чен, Хуан Чжан, Чо-Юи Сьи . AAAI 2020.
score [PDF] [Код] - Жадная атака и атака пухла: генерирование состязательных примеров для дискретных данных . Пуюди Ян, Цзянбо Чен, Чо-Юи Сьи, Джейн-Лянгванг, Майкл И. Джордан . JMLR 2020.
score [PDF] [Код] - О надежности самоотративных моделей . Ю-Лун Ши, Минхао Ченг, Да-Ченг Хуан, Вэй Вэй, Вэнь-Лайан Сю, Чо-Юи Сьи . ACL 2019.
score [PDF] - Генерирование примеров состязания естественного языка с помощью вероятности взвешенной слов . Shuhuai Ren, Yihe Deng, Kun He, Wanxiang che . ACL 2019.
score [PDF] [Код] - Генерирование свободных состязательных примеров для естественных языков . Хуанджао Чжан, Хао Чжоу, Нин Миао, Лей Ли . ACL 2019.
gradient score [PDF] [Код] - Надежный перевод нейронной машины с двойным состязательным входом . Юн Ченг, Лу Цзян, Вольфганг Мачери . ACL 2019.
gradient [PDF] - Универсальные состязательные атаки на классификаторы текста . Мелика Бехджати, Сейед-Мохсен Мусави-де-дезфули, Махди Солеймани Багшах, Паскаль Фроссард . ICASSP 2019.
gradient [PDF] - Генерирование примеров состязания естественного языка . Мустафа Альцантот, Яш Шарма, Ахмед Элгохари, Бо-Джан Хо, Мани Шривастава, Кай-Вей Чанг . EMNLP 2018.
score [PDF] [Код] - Разрушение систем NLI с предложениями, которые требуют простых лексических выводов . Макс Глокнер, Веред Шварц, Йоав Голдберг . ACL 2018.
blind [PDF] [Набор данных] - Глубокая текстовая классификация может быть одурачена . Бин Лян, Хонгчен Ли, Миаоцян Су, Пан Биан, Ксиронг Ли, Венчанг Ши . IJCAI 2018.
gradient score [PDF] - Интерпретируемое состязательное возмущение при входном пространстве для текста . Сато, Мотоки, Джун Сузуки, Хироюки Шиндо, Юджи Мацумото . IJCAI 2018.
gradient [PDF] [Код] - К созданию текстовых состязательных образцов . Суранджана Саманта, Сайп Мехта . ECIR 2018.
gradient [PDF] - Создание состязательных входных последовательностей для повторяющихся нейронных сетей . Николас Паперно, Патрик Макдэниел, Анантрам Свами, Ричард Харанг . Milcom 2016.
gradient [PDF]
2.3 Атака на уровне шара
- Пересмотр состязательных атак на уровне персонажа для языковых моделей . Элиас Абад Рокамора , Юнтао Ву, Фангуи Лю, Григориос Г. Крисос, Волкан Секер, ICML 2024.
score blind gradient [PDF] [Код] - VERTATTACK: Использование горизонтального видения Text Classifiers . Джонатан Русерт , NAACL 2024.
score blind [PDF] - Атака на уровне пунктуации: одноразовая и единственная пунктуация может обмануть текстовые модели . Венцян Ванг, Чонгьян Дю, Тао Ванг, Кайхао Чжан, Венхан Луо, Лин Ма, Вэй Лю, Сяохун Цао . Neurips 2023.
score blind [PDF] - Использование пунктуации в качестве состязательной атаки на глубокие системы НЛП на основе глубокого обучения: эмпирическое исследование . Брайан Форменто, Чуан Шэн Фу, Луу Ан Ан Туан, см. Кионг Нг . EACL (выводы) 2023.
score blind [PDF] [Код] - Извлечение модели и передача состязания, ваш берт уязвим! Полем Сюанли Хе, Линджуан Лю, Личао Сан, Ционкай Сюй . NAACL-HLT 2021.
blind [PDF] [CODE] - Текстовая обработка, как и люди: визуально атакует и защищает системы НЛП . Штеффен Эгер, Гесде Гюль ¸sahin, Андреас Рюкл, Джи-Ин Ли, Клаудия Шульц, Мохсен Месгар, Кришнкант Сваркар, Эдвин Симпсон, Ирина Гуревич . NAACL-HLT 2019.
blind [PDF] [CODE & DATA] - Белый в блэк: эффективная дистилляция болотных атак черного ящика . SOYOTAM GIL, YOAV Chai или Gorodiskky, Jonathan Berant . NAACL-HLT 2019.
blind [PDF] [CODE] - Генерация черных ящиков состязательных текстовых последовательностей, чтобы уклониться от классификаторов глубокого обучения . Джи Гао, Джек Ланчантин, Мэри Лу Соффа, Янджун Ци . IEEE SPW 2018.
score [PDF] [Код] - На состязательных примерах для перевода нейронной машины на уровне символов . Джавид Эбрахими, Даниэль Лоуд, Дежинг Доу . Coling 2018.
gradient [PDF] [Код] - Синтетический и естественный шум оба нарушают перевод нейронной машины . Йонатан Белинков, Йонатан Биск . ICLR 2018.
blind [PDF] [Code & Data]
2.4 многоуровневая атака
- LLM может обмануть себя: быстрое состязательное атаку . Xilie Xu, Keyi Kong, Ning Liu, Lizhen Cui, Di Wang, Jingfeng Zhang, Mohan Kankanhalli . ICLR 2024.
blind [PDF] - Текстовая состязательная атака с мульти-гранулярностью с клонированием поведения . Янги Чен, Джин Су, Вэй Вэй . EMNLP 2021.
blind [PDF] [CODE] - Синтезирование состязательных отрицательных ответов для надежного рейтинга и оценки ответа . Прахар Гупта, Юлия Цветков, Джеффри Бигам . Результаты ACL: ACL-IJCNLP 2021.
blind [PDF] [CODE] - Кодовое смешение на улице Сезам: рассвет состязательных полиглотов . Самсон Тан, Шафик Йоти . NAACL-HLT 2021.
score [PDF] [Код] - Универсальные состязательные атаки с естественными триггерами для классификации текста . Ливей Сонг, Синвей Ю, Хсуан-Тунг Пэн, Картик Нарасимхан . NAACL-HLT 2021.
gradient [PDF] [CODE] - BBAEG: На основе Берта биомедицинский состязательный пример генерации для классификации текста . Ишани Мондал . NAACL-HLT 2021.
score [PDF] [Код] - Не принимайте «nswvtnvakgxpm» для ответа - удивительную уязвимость автоматических систем оценки контента для состязательного ввода . Юнинг Дин, Брайан Риордан, Андреа Хорбах, Аоиф Кэхилл, Торстен Зесч . Coling 2020.
blind [PDF] [Код] - Универсальные состязательные триггеры для атаки и анализа NLP . Эрик Уоллес, Ши Фэн, Нихил Кандпал, Мэтт Гарднер, Самир Сингх . EMNLP-IJCNLP 2019.
gradient [PDF] [CODE] [Веб-сайт] - TextBugger: генерирование состязательного текста против реальных приложений . Джинфенг Ли, Шулинг Джи, Тианю Дю, Бо Ли, Тинг Ван . NDSS 2019.
gradient score [PDF] - Создание черных ящиков состязательных примеров для классификаторов текста с использованием глубокой усиленной модели . Прашант Виджаярагхаван, Деб Рой . ECMLPKDD 2019.
score [PDF] - Прят: примеры состязания белой коробки для классификации текста . Javid Ebrahimi, Anyi Rao, Daniel Lowd, Dejing Dou . ACL 2018.
gradient [PDF] [Код] - Стратегии чрезмерной чрезмерной чувствительности и стратегии чрезмерной стабильности для моделей диалога . Тонг Ниу, Мохит Бансал . Conll 2018.
blind [PDF] [Code & Data] - Сравнение основанных на внимании сверточных и повторяющихся нейронных сетей: успех и ограничения в понимании машинного прочитанного . Матиас Блум, Глорянна Ягфельд, Экта Соуд, Сян Ю, Нгок Тханг Ву . Conll 2018.
gradient [PDF] [Код]
3. Защитные документы
- Являются ли сгенерированные AI-детекторами текста до состязательных возмущений? Гуанхуа Хуанг, Ючен Чжан, Чжэ Ли, Юнцзян ты, Мингзе Ван и Чжуванг Ян. ACL 2024. [PDF] [Код]
- SEMRODE: макросочечная подготовка для изучения представлений, которые устойчивы к атакам уровня слов . Брайан Форменто, Вэньцжи Фэн, Чуан-Шенг Фу, Ан-Туан Луу, Си-Кионг Нг . NAACL 2024. [PDF] [Код]
- DSRM: Увеличение текстового состязательного обучения с минимизацией риска смены распределения . Соньян Гао, Шихан Доу, Ян Лю, Сяо Ван, Ци Чжан, Чжунгу Вэй, Джин Ма, Ин Шан . ACL 2023. [PDF] [Код]
- Генеративное состязательное обучение с возмущенным обнаружением токенов для модельной надежности . Jiahao Zhao, Wenji Mao . EMNLP 2023. [PDF] [Код]
- Текстовое многообразие обороны от примеров состязания естественного языка . Данг Мин Нгуен, Луу Ан -Туан . EMNLP 2022. [PDF] [Код]
- Обнаружение состязательных текстовых атак на уровне слов с помощью аддитивных объяснений Shapley . Лукас Хубер, Марк Александр Кюн, Эдоардо Моска, Георг Гро . Repl4nlp@acl 2022. [PDF] [Код]
- Обнаружение состязательных примеров в классификации текста: эталонный и базовый уровень с помощью надежной оценки плотности . Kiyoon Yoo, Jangho Kim, Jiho Jang, Nojun Kwawk . ACL 2022 (выводы). [PDF] [Код]
- «Это подозрительная реакция!»: Интерпретация вариации Logits для обнаружения состязательных атак NLP . Эдоардо Моска, Шреяш Агарвал, Хавьер Рэндо Рамирес, Георг Гро . ACL 2022. [PDF] [Код]
- Щит: Защита текстовых нейронных сетей от множества состязательных атак черных ящиков со стохастическим мультиэкспонированием . Тайский Лей, парк носа, Донгвон Ли . ACL 2022. [PDF]
- Возмущения в дикой природе: использование написанных человеком возмущениями текста для реалистичной состязательной атаки и защиты . Тай Лей, Джуойоунг Ли, Кевин Йен, Йифан Ху, Донгвон Ли . ACL 2022 (выводы). [PDF]
- Достижение модели устойчивости посредством дискретного состязательного обучения . Маор IVGI, Джонатан Берант . EMNLP 2021. [PDF] [Код]
- Защита от синонимы, основанных на замене, состязательные атаки через ансамбль соседства Дирихле . Йи Чжоу, Сяокин Чжэн, Чо-Юи Си, Кай-Вей Чанг, Сюандзин Хуанг . ACL-IJCNLP 2021. [PDF]
- Сладкая кроличья дыра от Дарси: Использование Honeypots для обнаружения состязательных атак Universal Trigger . Тайский Лей, парк носа, Донгвон Ли . ACL-IJCNLP 2021. [PDF] [CODE]
- Лучшая надежность по большему количеству охвата: состязательное увеличение данных и данных микширования для надежного создания . Ченглей С.И., Чженген Чжан, Фанчао Ци, Чжиюань Лю, Яшенг Ван, Кун Лю, Маосонг Солнце . Результаты ACL: ACL-IJCNLP 2021. [PDF] [CODE]
- БЕРТ-ОБЕСПЕЧЕНИЕ: вероятностная модель, основанная на Берте, чтобы бороться с когнитивно вдохновленными орфографическими состязательными атаками . Янник Келлер, Ян Макенсен, Штеффен Эгер . Результаты ACL: ACL-IJCNLP 2021. [PDF] [CODE]
- Защита предварительно обученных языковых моделей от состязательной замены слова без жертвы производительности . Ронгчжоу Бао, Цзяйи Ван, Хай Чжао . Результаты ACL: ACL-IJCNLP 2021. [PDF] [CODE]
- Многообразие состязательное увеличение для перевода нейронной машины . Гуандан Чен, Кай Фан, Кайбо Чжан, бокс Чен, Чжунцен Хуанг . Результаты ACL: ACL-IJCNLP 2021. [PDF]
- Натуральный язык состязательной защиты через синоним кодирования . Xiaosen Wang, Hao Jin, Kun He . UAI 2021. [PDF] [Код]
- Обучение состязания с методом быстрого градиента против текстовых атак на основе синонима . Xiaosen Wang, Yichen Yang, Yihe Deng, Kun He . AAAI 2021. [PDF] [Код]
- Замена слов с частотой для обнаружения текстовых состязательных примеров . Максимилиан Мозс, Pontus Stenetorp, Беннетт Кляйнберг, Льюис Д. Гриффин . EACL 2021. [PDF] [Код]
- На пути к замене слов естественного языка. Синшуй Донг, Ан -Туан Луу, Ронгронг Джи, Хонг Лю. ICLR 2021. [PDF] [Код]
- Infobert: повышение надежности языковых моделей с теоретической точки зрения информации . Boxin Wang, Shuohang Wang, Yu Cheng, Zhe Gan, Ruoxi Jia, Bo Li, Jingjing Liu . ICLR 2021. [PDF] [Код]
- Улучшение нейронных моделей с уязвимостью посредством состязательной атаки . Ронг Чжан, Qifei Zhou, Bo An, Weiping Li, Tong Mo, Bo Wu . Coling 2020. [PDF] [Код]
- Контрастное обучение с нулевым выстрелом для междоменного слота наполняет атаку . Кецин Х. Х., Джинчао Чжан, Юаньменг Ян, Вейран Сюй, Ченг Ниу, Цзе Чжоу . Coling 2020. [PDF]
- Имейте в виду свои перегибы! Улучшение NLP для нестандартных английских с кодированием базы . Самсон Тан, Шафик Джоти, Лав Р. Варшни, Мин-Йен Кан . EMNLP 2020. [PDF] [Код]
- Надежные кодировки: структура для борьбы с опечатками состязания . Эрик Джонс, Робин Цзя, Адити Рагхунатан, Перси Лян . ACL 2020. [PDF] [Код]
- Совместное внедрение слов на уровне символов и тренировка состязательной стабильности для защиты состязательного текста . Hui Liu, Yongzheng Zhang, Yipeng Wang, Zheng Lin, Yige Chen . AAAI 2020. [PDF]
- Надежный подход к тренировке состязания к пониманию прочитанного машины . Кай Лю, Синь Лю, Ан Ян, Цзин Лю, Цзинон С.У., Суцзян Ли, Циаоциао она . AAAI 2020. [PDF]
- Freelb: Усовершенствованное состязательное обучение для понимания языка . Чен Чжу, Ю Ченг, Чжэ Ган, Сики Сан, Том Гольдштейн, Цзиндзин Лю . Corr 2019. [PDF] [Код]
- Обучение дискриминации возмущений для блокирования состязательных атак в классификации текста . Yichao Zhou, Jyun-Yu Jiang, Kai-Wei Chang, Wei Wang . EMNLP-IJCNLP 2019. [PDF] [CODE]
- Построить его, исправьте его для безопасности диалога: надежность от состязательной атаки человека . Эмили Динан, Самуэль Хюмо, Бхарат Чинтагунта, Джейсон Уэстон . EMNLP-IJCNLP 2019. [PDF] [DATA]
- Борьба с состязательными ошибками с надежным распознаванием слов . Датский Прути, Бхуван Динга, Захари С. Липтон . ACL 2019. [PDF] [Код]
- Модели устойчивых к шуму в задачах обработки естественного языка . Валентин Малих . ACL 2019. [PDF] [Код]
4. Сертифицированная надежность
- Сертифицированная надежность атаки замены слов с дифференциальной конфиденциальностью . Вэнджи Ван, Пенгфей Тан, Цзянь Лу, Ли Сионг . NAACL-HLT 2021. [PDF]
- Анализ автоматического возмущения для масштабируемой сертифицированной надежности и за ее пределами . Кайди Сюй, Чжоусинг Ши, Хуан Чжан, Ихан Ван, Кай-Вей Чанг, Минли Хуан, Бхавья Кейлхура, Сюэ Лин, Чо-Юи Си . Neurips 2020. [PDF] [Код]
- Более безопаснее: без структурного подхода для сертифицированной устойчивости к состязательным заменам слов . Мао Йе, Ченгью Гонг, Цянь Лю . ACL 2020. [PDF] [Код]
- Проверка надежности для трансформаторов . Zhouxing Shi, Huan Zhang, Kai-Wei Chang, Minlie Huang, Cho-Jui Sieh . ICLR 2020. [PDF] [Код]
- Достижение проверенной надежности к замене символов посредством распространения интервального границы . По-сен Хуанг, Роберт Стэнфорт, Йоханнес Уэлбл, Крис Дайер, Дани Йогатама, Свен Говал, Кришнамурти Двиджотэм, Пушмет Кохли . EMNLP-IJCNLP 2019. [PDF]
- Сертифицированная устойчивость к состязательным словам слов . Робин Цзя, Адити Рагхунатан, Керем Гёксель, Перси Лян . EMNLP-IJCNLP 2019. [PDF] [CODE]
- Popqorn: количественная оценка надежности повторяющихся нейронных сетей . Чинг-Юн Ко, Чжаоян Лю, Лили Вэн, Лука Даниэль, Нгай Вонг, Дахуа Лин . ICML 2019. [PDF] [Код]
5. Конфликт и оценка
- Decodingtrust: комплексная оценка достоверности в моделях GPT . Boxin Wang, Weixin Chen, Hengzhi Pei, Chulin Xie, Mintong Kang, Chenhui Zhang, Chejian Xu, Zidi Xiong, Ritik Dutta, Rylan Schaeffer, Sang T. Truong, Simran Aroror Песня, Бо Ли . Neurips 2023 (отслеживание наборов данных и тестов). [PDF] [Веб -сайт]
- Сохранение семантики в текстовых состязательных атакх . Дэвид Эрл, Хьюго Сиснерос, Томас Миколов . Ecai 2023. [PDF] [Код]
- Побуждение GPT-3 быть надежным . Ченглей С.И., Чжэ Ган, Чжэнгуан Ян, Шуоханг Ван, Цзянфенг Ванг, Джордан Бойд-Грейбер, Лиджуан Ван . ICLR 2023. [PDF] [Код]
- Почему состязательные возмущения должны быть незаметными? Переосмыслить парадигму исследования в состязательном НЛП . Янги Чен, Хонгченг Гао, Ганка Куй, Фанчао Ци, Лонгтао Хуанг, Чжиюань Лю, Маосонг Солнце . EMNLP 2022. [PDF] [CODE & DATA]
- Интерпретация надежности нейронных моделей НЛП к текстовым возмущениям. Юнсиан Чжан, Лянгинг Пан, Самсон Тан, Мин-Йен Кан . Результаты ACL, 2022. [PDF]
- Контрастные примеры для классификации текста для классификации текста . Максимилиан Мозс, Макс Бартоло, Понтус Стентерп, Беннетт Кляйнберг, Льюис Д. Гриффин . EMNLP 2021. [PDF] [Код]
- Dynabench: переосмысление сравнительного анализа в NLP. Douwe Kiela, Max Bartolo, Yixin Nie, Divyansh Kaushik, Atticus Geiger, Zhengxuan Wu, Bertie Vidgen, Grusha Prasad, Amanpreet Singh, Pratik Ringshia, Zhiyi Ma, Tristan Thrus Бансал, Кристофер Поттс, Адина Уильямс . NAACL 2021. [PDF] [Веб -сайт]
- Адверсенный клей: многозадачный эталон для оценки устойчивости языковых моделей. Boxin Wang, Chejian Xu, Shuohang Wang, Zhe Gan, Yu Cheng, Jianfeng Gao, Ahmed Hassan Awadallah, Bo Li . Neurips 2021 (отслеживание наборов данных и тестов). [PDF] [Веб -сайт]
- В поисках эффективного защитника: сравнительная защита от состязательной замены слов. Zongyi Li, Jianhan Xu, Jiehang Zeng, Linyang Li, Xiaoqing Zheng, Qi Zhang, Kai-Wei Chang и Cho-Jui Sieh . EMNLP 2021. [PDF]
- Двойное возмущение: о надежности устойчивости и оценки контрфактивного смещения . Чонг Чжан, Цзею Чжао, Хуан Чжан, Кай-Вей Чанг и Чо-Юи Си Наакл 2021. [PDF] [Код]
- Переоценка состязательных примеров на естественном языке . Джон Моррис, Эли Лифленд, Джек Ланчантин, Янфенг Джи, Янджун Ци . Результаты ACL: EMNLP 2020. [PDF] [CODE & DATA]
- От героя до Зеро: эталон низкоуровневых состязательных атак . Штеффен Эгер, Янник Бенц . AACL-IJCNLP 2020. [PDF] [CODE & DATA]
- Адверслярный NLI: новый эталон для понимания естественного языка . Йисин Ни, Адина Уильямс, Эмили Динан, Мохит Бансал, Джейсон Уэстон, Дуве Киела . ACL 2020.
- Оценка моделей NLP с помощью контрастных наборов . Matt Gardner, Yoav Artzi, Victoria Basmova, Jonathan Berant, Ben Bogin, Sihao Chen, Pradeep Dasigi, Dheeru Dua, Yanai Elazar, Ananth Gottumukkala, Nitish Gupta, Hanna Hajishirzi, Gabriel Ilharco, Daniel Khashabi, Kevin Lin, Jiangming Liu, Nelson F. Лю, Фиби Малкайр, Цянь Нин, Самир Сингх, Ноа А. Смит, Санджай Субраманян, Рейт Царфати, Эрик Уоллес, Элли Чжан, Бен Чжоу . Выводы ACL: EMNLP 2020. [PDF] [Веб -сайт]
- При оценке состязательных возмущений для моделей последовательности к последовательности . Пол Мишель, Сянь Ли, Грэм Нойбиг, Хуан Мигель Пино . NAACL-HLT 2019. [PDF] [Код]
6. Другие документы
- Выявление человеческих стратегий для создания состязательных примеров уровня слов . Максимилиан Мозс, Беннетт Кляйнберг, Льюис Д. Гриффин . Результаты ACL: EMNLP 2022. [PDF]
- Lexicalat: лексическое обучение на основе лексики состязания для подготовки к надежной классификации настроений . Цзинжинг Сюй, Лян Чжао, Ханки Ян, Ци Зенг, Юн Лян, Сюй Сан . EMNLP-IJCNLP 2019. [PDF] [CODE]
- Унифицированные визуальные встраивания: соединение видения и языка со структурированным значением представлений . Хао Ву, Цзяюан Мао, Юфенг Чжан, Юнинг Цзян, Лей Ли, Вейвей Сан, Вей-Иин Ма . CVPR 2019. [PDF]
- Приключение: состязательное обучение для текстового влечения с примерами под руководством знаний . Dongyeop Kang, Tushar Khot, Ashish Sabharwal, Eduard Hovy . ACL 2018. [PDF] [Код]
- Обучение визуально ослабленной семантике из контрастных состязательных образцов . Haoyue Shi, Jiayuan Mao, Tete Siao, Yuning Jiang, Jian Sun. Coling 2018. [PDF] [Код]
Участники
Мы благодарим всех участников этого списка. И больше вкладов очень приветствуются.