
DGMS 4 NLP. Глубокие генеративные модели для обработки естественного языка. Дорожная карта.
Яо Фу, Эдинбургский университет, [email protected]
** Обновление **: Как GPT получает свою способность? Отслеживание возникающих способностей языковых моделей в их источниках
** Обновление **: более пристальный взгляд на возникающие способности языковой модели
** Обновление **: Модели больших языков
** Обновление **: долгосрочная зависимость; Почему S4 хорош в длинной последовательности: запоминание последовательности с аппроксимацией онлайн -функции
** todo 1 **: калибровка; Подсказка; Долгосрочные трансформаторы; Государственные пространства модели
** todo 2 **: факторизация матрицы и встраивание слов; Ядра; Гауссовый процесс
** todo 3 **: отношения между выводом и RL;
(Написано в начале 2019 года, созданного с семинара DGM в Колумбии)
Почему мы хотим глубоких генеративных моделей? Потому что мы хотим изучать основные факторы, которые генерируют язык. Человеческий язык содержит богатые скрытые факторы, непрерывными могут быть эмоции, намерение и другие, дискретные/ структурные факторы могут быть POS/ NER -метки или синтаксисные деревья. Многие из них скрыты, как и в большинстве случаев, мы просто наблюдаем предложение. Они также являются генеративными: человек должен производить язык на основе общей идеи, текущей эмоции, синтаксиса и всех других вещей, которые мы можем или не можем назвать.
Как смоделировать генеративный процесс языка статистически принципиально? Можем ли мы иметь гибкую структуру, которая позволяет нам включать явные сигналы надзора, когда у нас есть этикетки, или добавлять отдаленный надзор или логические/ статистические ограничения, когда у нас нет ярлыков, но имеем другие предварительные знания или просто выводя о том, что имеет смысл, когда у нас нет ярлыков или априори? Возможно ли, что мы эксплуатируем модельную силу передовых нейронных архитектур, оставаясь математическим и вероятностным? DGM позволяют нам достичь этих целей.
Давайте начнем путешествие.

Цитата:
@article{yao2019DGM4NLP,
title = "Deep Generative Models for Natual Language Processing",
author = "Yao Fu",
year = "2019",
url = "https://github.com/FranxYao/Deep-Generative-Models-for-Natural-Language-Processing"
}
Как написать вариационный вывод и генеративные модели для NLP: рецепт. Это настоятельно предложено для начинающих, пишущих статьи о VAE для NLP.
Учебник по глубоким скрытым переменным моделям естественного языка (ссылка), EMNLP 18
Модели скрытой структуры для NLP. ACL 2019 Ссылка на учебное пособие
Columbia Stat 8201 - глубокие генеративные модели Джона Каннингема
Стэнфорд CS 236 - глубокие генеративные модели, Стефано Эрмон
U Toronto CS 2541 - дифференцируемые выводы и генеративные модели, CS 2547 Обучение дискретным скрытым структурам, CSC 2547 осень 2019: обучение для поиска. Дэвид Дувено
U Toronto STA 4273 Зима 2021 года - Минимизация ожиданий. Крис Мэддисон
Беркли CS294-158 - глубокое обучение без присмотра. Питер Аббейл
Columbia STCS 8101 - Обучение представления: вероятностная перспектива. Дэвид Блей
Стэнфорд CS324 - Большие языковые модели. Перси Лян, Татсунори Хашимото и Кристофер Р.Е.
U Toronto CSC2541 - Динамика обучения нейронной сети. Роджер Гросс.
Фонд DGMS основан на вероятностных графических моделях. Итак, мы рассмотрим следующие ресурсы
Курс Blei's Foundation of Graphical Models, Stat 6701 в Колумбии (Link)
Вероятностные графические модели Син, 10-708 на CMU (Link)
Обработка естественного языка Коллинза, COMS 4995 в Колумбии (ссылка)
Распознавание и машинное обучение. Кристофер М. Бишоп. 2006
Машинное обучение: вероятностная перспектива. Кевин П. Мерфи. 2012
Графические модели, экспоненциальные семейства и вариационный вывод. 2008
Прогноз лингвистической структуры. 2011 год
Синтаксический процесс. 2000
Создание предложений из непрерывного пространства, Conll 15
Нейронный вариационный вывод для обработки текста, ICML 16
Обучение нервных шаблонов для генерации текста. EMNLP 2018
Остаточная энергия модели для генерации текста. ICLR 20
Перефразирование генерации с скрытым пакетом слов. Neurips 2019.
Библиотека декодирования Fairseq. [GitHub]
Controlbel Neural Text Generation [lil'log]
Лучший первый поиск луча. TACL 2020
Любопытный случай дегенерации нервного текста. ICLR 2020
Сравнение различных методов декодирования из моделей условного языка. ACL 2019
Стохастические лучи и где их найти: трюк с пухлывой топ-k для последовательностей отбора проб без замены. ICML 19
Условный поиск стохастического луча Пуассона. EMNLP 2021
Массовое декодирование для генерации текста с использованием решетки. 2021
Лексически ограниченное декодирование для генерации последовательностей с использованием поиска луча сетки. ACL 2017
Быстрое лексически ограниченное декодирование с динамическим распределением луча для перевода нейронной машины. NAACL 2018
Улучшение лексически ограниченного декодирования для перевода и одноязычного переписывания. NAACL 2019
К декодированию как непрерывной оптимизации в переводе нервной машины. EMNLP 2017
Градиент, управляемый неконтролируемым лексически ограниченным генерацией текста. EMNLP 2020
Контролируемое генерация текста как непрерывная оптимизация с несколькими ограничениями. 2021
Неврологическое декодирование: (ООН). Контролируемое генерацию нейронного текста с предикатами логические ограничения. NAACL 2021
Неврологическое декодирование: генерация с ограниченным текстом с эвристикой Lookahead. 2021
Холодное декодирование: энергосберегающая генерация текста с динамикой Langevin. 2022
Примечание: я не полностью прошел эту главу, пожалуйста, дайте мне предложения!
Неавторегрессивный перевод нейронной машины. ICLR 2018
Полностью неавторегрессивный перевод нейронной машины: уловки торговли.
Быстрое декодирование в моделях последовательностей с использованием дискретных скрытых переменных. ICML 2021
Каскадный текст генерации с трансформаторами Маркова. Arxiv 20
Смотрите трансформатор для неавторегрессивного перевода нейронной машины. ACL 2021
Тодо: Подробнее об этом
Обратные документы, Thunlp (ссылка)
CTRL: модель языка условного трансформатора для управляемой генерации. Arxiv 2019
Подключить и воспроизводить языковые модели: простой подход к генерации контролируемого текста
Структ факела: глубокая структурированная библиотека прогнозирования. Github, Paper, документация
Введение в условные случайные поля. 2012
Алгоритмы изнутри и вперед и вперед-это просто Backprop. 2016
Обучение с потерями Fenchel-Young. JMLR 2019
Структурные сети внимания. ICLR 2017
Дифференцируемое динамическое программирование для структурированного прогноза и внимания. ICML 2018
Рецидивирующая грамматика нейронной сети. NAACL 16
Неконтролируемая рецидивирующая грамматика нейронной сети, NAACL 19
Дифференцируемое возмущение и перенос: полупроверенный анализ со структурированным вариационным автоэкодором, ICLR 19
Синтаксический процесс. 2020
Лингвистически информированное самоуничтожение для семантической ролевой маркировки. EMNLP 2018 Best Paper Award
Семантическое анализ с полупрозрачным последовательным автоэкодором. 2016
Композиционное обобщение в NLP. Бумажный список
Обобщение без систематичности: о композиционных навыках рецидивирующих сетей последовательности к последовательности. ICML 2019
Улучшение методологии оценки текста до SQL. ACL 2018
Вероятностный вывод с использованием методов Маркова Монте -Карло. 1993
Элементы последовательного Монте -Карло (ссылка)
Концептуальное введение в Гамильтониан Монте -Карло (ссылка)
Выборка кандидата (ссылка)
Шумовая оценка: новый принцип оценки для ненормализованных статистических моделей. Aistata 2010
* Выборка. NIPS 2014 Best Paper Award
Кембриджский вариационный вывод Группа (ссылка)
Вариационный вывод: обзор для статистиков.
Стохастический вариационный вывод
Вариационный байесовский вывод со стохастическим поиском. ICML 12
Вариационные байеса, ICLR 14
Beta-Vae: изучение основных визуальных концепций с ограниченной вариационной структурой. ICLR 2017
Важность взвешенных автоэнкодеров. ICLR 2015
Стохастическое обратное распространение и приблизительный вывод в глубоких генеративных моделях. ICML 14
Полуамортизированные вариационные автоподошеры, ICML 18
Акверсиально регуляризованные автоэнкодории, ICML 18
Подробнее о репараметеризации: репараметрировать гауссовую смесь, матрицу перестановки и пробоотборщики отказа (гамма и дирихлет).
Стохастическое обратное распространение через распределения плотности смеси, Arxiv 16
Градиенты репараметризации через алгоритмы отбора проб принятия. Aistats 2017
Неявные градиенты репараметрирования. Neurips 2018.
Категориальная репараметрирование с помощью Gumbel-Softmax. ICLR 2017
Бетонное распределение: непрерывная релаксация дискретных случайных переменных. ICLR 2017
Перевертируемая гауссовая репараметризация: пересмотр gumbel-softmax. 2020
Репротариметрируемая выборка подмножества посредством непрерывного расслабления. IJCAI 2019
Генеративные состязательные сети, NIPS 14
На пути к принципиальным методам обучения генеративных состязательных сетей ICLR 2017
Вассерштейн Ган
Infogan: Интерпретируемое обучение представлений с помощью информации максимизируют генеративные состязательные сети. NIPS 2016
Состязанный вывод. ICLR 2017
Глубокие генеративные модели на основе потока, из журнала Lil's Log
Вариационный вывод с нормализующими потоками, ICML 15
Изучение языка с нормализацией потоков
Улучшенный вариационный вывод с обратным авторегрессионным потоком
Оценка плотности с использованием реального NVP. ICLR 17
Неконтролируемое изучение синтаксической структуры с инвертируемыми нейронными проекциями. EMNLP 2018
Скрытые нормализующие потоки для дискретных последовательностей. ICML 2019.
Дискретные потоки: перспективные генеративные модели дискретных данных. 2019
Flowseq: неавторегрессивная условная генерация последовательности с генеративным потоком. EMNLP 2019
Вариационный перевод нейронной машины с нормализующими потоками. ACL 2020
В предложении встроены из предварительно обученных языковых моделей. EMNLP 2020
FY: Нужно увидеть, как можно использовать генеративные модели и диффузионные модели, основанные на оценке, для дискретных последовательностей
Генеративное моделирование путем оценки градиентов распределения данных. Блог 2021
Основанные на баллах документы моделирования
Генеративное моделирование путем оценки градиентов распределения данных. Neurips 2019
Что такое диффузионные модели? 2021
Awesome-Diffusion-Models
Глубокое неконтролируемое обучение с использованием неравновесной термодинамики. 2015
Обезделить диффузионные вероятностные модели. Neurips 2020
Потоки Argmax и многономиальная диффузия: категориальные распределения обучения. Neurips 2021
Структурированные денозиционные диффузионные модели в дискретных пространствах состояния. Neurips 2021
Авторегрессивные диффузионные модели. ICLR 2022
Диффузия-LM улучшает генерацию управляемого текста. 2022
Фотореалистические модели диффузии текста до изображения с глубоким языком пониманием. 2022
Заказанные нейроны: интеграция структурированных деревьев в рецидивирующие нейронные сети
RNN могут генерировать ограниченные иерархические языки с оптимальной памятью
Анализируя мульти-головное самоутверждение: специализированные головы делают тяжелую работу, остальные можно обрезать. ACL 2019
Теоретические ограничения самопринятия в моделях нейронных последовательностей. TACL 2019
Переосмысление внимания с исполнителями. 2020
Thunlp: предварительно обученный список бумажных бумажных бумаг (ссылка)
Документы Tomohide Shibata, связанные с Берт
Бегемот: повторяющаяся память с оптимальными полиномиальными проекциями. Neurips 2020
Объединение повторяющихся, сверточных и непрерывных моделей с линейным пространством состояния. Neurips 2021
Эффективно моделирование длинных последовательностей со структурированными пространствами состояния. ICLR 2022
Почему S4 хорош в длинной последовательности: запоминание последовательности с приближением онлайн -функции. 2022
GPT3 (175b). Языковые модели-это несколько выстрелов. Май 2020 года
Megatron-tuging nlg (530b). Используя DeepSpeed и Megatron для обучения Megatron-Tuging NLG 530B, крупномасштабной генеративной языковой модели. Январь 2022 года
Ламда (137b). LAMDA: языковые модели для диалоговых приложений. Январь 2022 года
Суслика (280b). Масштабирование языковых моделей: методы, анализ и понимание от обучения Gopher. Декабрь 2021 года
Чиншилла (70b). Обучение вычислительно-оптимально больших языковых моделей. Март 2022 г.
Пальма (540b). PALM: Моделирование языка масштабирования с помощью путей. Апрер 2022
Опт (175b). Опт: открытые предварительно обученные модели языка трансформатора. Май 2022 г.
Bloom (176b): Большая многоязычная многоязычная языковая модель с открытой наукой. Май 2022 г.
Blenderbot 3 (175b): развернутый разговорной агент, который постоянно учится ответственному вовлечению. Август 2022 года
Масштабирование законов для моделей нейронного языка. 2020
Возникающие способности крупных языковых моделей. 2022
Минимизация ожиданий. Крис Мэддисон
Оценка градиента Монте -Карло в машинном обучении
Вариационный вывод для целей Монте -Карло. ICML 16
Репортация: низкокваренные, беспристрастные оценки градиента для дискретных моделей скрытых переменных. Щерожь 17
Перепропасть через void: оптимизация изменений управления для оценки градиента черного ящика. ICLR 18
Обратно через структурированный argmax с использованием укладки. ACL 2018 Лучший документ почетный упоминание.
Понимание механики SPIGOT: суррогатные градиенты для обучения скрытой структуре. EMNLP 2020
Обучение с дифференцируемыми возмущенными оптимизаторами. Neurips 2020
Градиентная оценка со стохастическими трюками Softmax. Neurips 2020
Дифференцируемое динамическое программирование для структурированного прогноза и внимания. ICML 18
Стохастическая оптимизация сортировки сетей через непрерывные релаксации
Дифференцируемые ранги и сортировка с использованием оптимального транспорта
Репрораметерирование политопа Биркхоффа для вариационного вывода перестановки. Aistats 2018
Уравновешенная структура для разреженного и структурированного нервного внимания. Neurips 2017
SPARSEMAP: дифференцируемый редкий структурированный вывод. ICML 2018
Вложенное название признания организации с частично задержанным TreeCrfs. AAAI 2021
RA-Blackwellized Stochastic Gradients для дискретных распределений. ICML 2019.
Эффективная маргинализация дискретных и структурированных скрытых переменных с помощью разреженности. Neurips 2020
Задняя регуляризация для структурированных моделей скрытых переменных. JMLR 2010
Задний контроль генерации Blackbox. 2019
Индукция грамматики зависимости с нейронным вариационным анализатором на основе перехода. AAAI 2019
(На китайском) 微分几何与拓扑学简明教程
Только байеса должна изучать многообразие (по оценке дифференциальной геометрической структуры из данных). ARXIV 2018
Риеманская геометрия глубоких генеративных моделей. CVPRW 2018
Геометрия глубоких генеративных моделей изображений и их применений. ICLR 2021
Метрики для глубоких генеративных моделей. Aistats 2017
Алгоритмы первого порядка для оптимизации MIN-MAX в геодезических метрических пространствах. 2022
Случайные функции для крупномасштабных машин ядра. Neurips 2007
Поиск структуры со случайностью: вероятностные алгоритмы для построения приблизительных матричных разложений. SIAM 2011
Эффективная оптимизация петлей и ограничений с рандомизированными телескопическими суммами. ICML 2019
Оценка телескопической плотности. Neurips 2020
Без смещения масштабируемые гауссовые процессы посредством рандомизированных усечений. ICML 2021
Рандомизированная автоматическая дифференциация. ICLR 2021
Масштабирование структурированного вывода с рандомизацией. 2021
Элементы теории информации. Обложка и Томас. 1991
По вариационным границам взаимной информации. ICML 2019
Изучение глубоких представлений по оценке взаимной информации и максимизации. ICLR 2019
Шахта: нейронная оценка взаимной информации
Глубокая вариационная информация узкое место. ICLR 2017
Определение байесовских моделей смеси
Разрушение распутывания в вариационных автоэнкододерах. ICML 2019
Оспаривание общих допущений в неконтролируемом изучении распущенных представлений. ICML 2019
Появление инвариантности и распутывания в глубоких представлениях
Инвариантный минимизация риска
Исправление сломанного эльбо. ICML 2018.
Более жесткие вариационные границы не обязательно лучше. ICML 2018
Непрерывная Бернулли: исправление повсеместной ошибки в вариационных автоэкодорах. Neurips 2019
Знают ли глубокие генеративные модели, чего они не знают? ICLR 2019
Эффективная оценка глубоких генеративных языковых моделей. ACL 2020
Насколько хороша задняя байеса в глубоких нейронных сетях на самом деле? ICML 2020
Статистическая теория холодных постеристов в глубоких нейронных сетях. ICLR 2021
Ограничения ауторегрессивных моделей и их альтернативы. NAACL 2021