Преамбула
Этот репозиторий содержит слайды лекций и описание курса для курса по обработке глубокого языка, предлагаемого в термине Hilary 2017 в Оксфордском университете.
Это продвинутый курс по обработке естественного языка. Автоматическая обработка входов естественного языка и производство языковых выходов является ключевым компонентом искусственного общего интеллекта. Неопределения и шум, присущие человеческому общению, делают традиционные символические методы ИИ неэффективными для представления и анализа языковых данных. Недавно статистические методы, основанные на нейронных сетях, достигли ряда замечательных успехов в обработке естественного языка, что привело к большому коммерческому и академическому интересу в этой области
Это прикладный курс, ориентированный на последние достижения в анализе и генерации речи и текста с использованием повторяющихся нейронных сетей. Мы вводим математические определения соответствующих моделей машинного обучения и выводим связанные с ними алгоритмы оптимизации. Курс охватывает целый ряд приложений нейронных сетей в НЛП, включая анализ скрытых аспектов в тексте, транскрибирующих речи к тексту, перевода между языками и ответа на вопросы. Эти темы организованы в три темы высокого уровня, образуя прогрессирование от понимания использования нейронных сетей для последовательного моделирования языка, до понимания их использования в качестве моделей условного языка для задач трансдукции, и, наконец, к подходам с использованием этих методов в сочетании с другими механизмами для передовых приложений. На протяжении всего курса также обсуждается практическая реализация таких моделей на оборудовании ЦП и графического процессора.
Этот курс организован Филом Блунсом и проведен в партнерстве с исследовательской группой DeepMind Natural Language.
Лекторы
- Фил Блунсом (Оксфордский университет и DeepMind)
- Крис Дайер (Университет Карнеги -Меллона и DeepMind)
- Эдвард Грефенстетт (DeepMind)
- Карл Мориц Германн (DeepMind)
- Эндрю Старший (DeepMind)
- Ван Лин (DeepMind)
- Джереми Апклиард (NVIDIA)
Тас
- Яннис Ассаль
- Ишу Мяо
- Брендан Шиллингфорд
- Ян покупает
Расписание
Практики
- Группа 1-понедельник, 9: 00-11: 00 (неделя 2-8), 60,05 Том здание
- Группа 2-пятница, 16: 00-18: 00 (неделя 2-8), комната 379
- Практический 1: Word2VEC
- Практическая 2: текстовая классификация
- Практическая 3: повторяющиеся нейронные сети для классификации текста и языкового моделирования
- Практический 4: открытый практический
Лекции
Общественные лекции проводятся в лекционном театре 1 Института математики, по вторникам и четвергам (кроме недели 8), 16: 00-18: 00 (Hilary Term Weeks 1,3-8).
Лекционные материалы
1. Лекция 1а - Введение [Фил Блунсом]
Эта лекция представляет курс и мотивирует, почему интересно изучать языковую обработку с использованием методов глубокого обучения.
[слайды] [видео]
2. Лекция 1B - глубокие нейронные сети - наши друзья [Ван Лин]
Эта лекция пересматривает основные концепции машинного обучения, которые студенты должны знать, прежде чем приступить к этому курсу.
[слайды] [видео]
3. Лекция 2A-слов Семантика [Эд Грефенштет]
Слова являются основным значением подразделений с языком. Представление и изучение значений слов является фундаментальной задачей в НЛП, и в этой лекции концепция встраивания слова внедряется как практическое и масштабируемое решение.
[слайды] [видео]
Чтение
Основы встраивания
- Ферт, Джон Р. «Синопсис лингвистической теории, 1930-1955». (1957): 1-32.
- Курран, Джеймс Ричард. «От распространения до семантического сходства». (2004).
- Collobert, Ronan, et al. «Обработка естественного языка (почти) с нуля». Журнал исследований машинного обучения 12. Авг (2011): 2493-2537.
- Mikolov, Tomas, et al. «Распределенные представления слов и фраз и их композиции». Достижения в системах обработки нейронной информации. 2013.
Наборы данных и визуализация
- Finkelstein, Lev, et al. «Размещение поиска в контексте: пересмотренная концепция». Материалы 10 -й Международной конференции по всемирной паутине. ACM, 2001.
- Хилл, Феликс, Рой Рейхарт и Анна Корхонен. «Simlex-999: оценка семантических моделей с (подлинной) оценкой сходства». Вычислительная лингвистика (2016).
- Maaten, Laurens Van Der и Джеффри Хинтон. «Визуализация данных с использованием t-sne». Журнал исследований машинного обучения 9.NOV (2008): 2579-2605.
Сообщения в блоге
- Глубокое обучение, НЛП и представления, Кристофер Ола.
- Визуализация лучших твипов с T-Sne, в JavaScript, Андрей Карпати.
Дальнейшее чтение
- Герман, Карл Мориц и Фил Блунсом. «Многоязычные модели для распределенной семантики композиции». Arxiv Preprint arxiv: 1404.4641 (2014).
- Леви, Омер и Йоав Голдберг. «Нейронное слово, встраиваемое как неявная матричная факторизация». Достижения в системах обработки нейронной информации. 2014.
- Леви, Омер, Йоав Голдберг и Идо Даган. «Улучшение сходства распределения с уроками, извлеченными из встроенных слов». Транзакции Ассоциации по вычислительной лингвистике 3 (2015): 211-225.
- Ling, Wang, et al. «Две/слишком простая адаптация Word2VEC для синтаксических задач». HLT-NAACL. 2015.
4. Лекция 2B - Обзор практики [Крис Дайер]
Эта лекция мотивирует практический сегмент курса.
[слайды] [видео]
5. Лекция 3 - Языковое моделирование и RNNS Часть 1 [Фил Блунсом]
Языковое моделирование является важной задачей большого практического использования во многих приложениях НЛП. Эта лекция вводит языковое моделирование, в том числе традиционные подходы на основе N-грамма и более современные нейронные подходы. В частности, введена популярная рецидивирующая языковая модель нейронной сети (RNN) и описаны ее основные алгоритмы обучения и оценки.
[слайды] [видео]
Чтение
Учебник
- Глубокое обучение, глава 10.
Блоги
- Необоснованная эффективность повторяющихся нейронных сетей, Андрей Карпати.
- Необоснованная эффективность языковых моделей на уровне персонажа, Йоав Голдберг.
- Объяснение и иллюстрация ортогональной инициализации для повторяющихся нейронных сетей, Стивена благородства.
6. Лекция 4 - Языковое моделирование и RNNS Часть 2 [Фил Блунсом]
Эта лекция продолжается с предыдущей и рассматривает некоторые проблемы, связанные с созданием эффективной реализации модели языка RNN. Проблема исчезновения и взрыва градиента описана и вводятся архитектурные решения, такие как длинная краткосрочная память (LSTM).
[слайды] [видео]
Чтение
Учебник
- Глубокое обучение, глава 10.
Исчезающие градиенты, LSTM и т. Д.
- О сложности тренировок повторяющихся нейронных сетей. Pascanu et al., ICML 2013.
- Длинная кратковременная память. Hochreiter and Schmidhuber, Нейронные вычисления 1997.
- Учебные фразы с использованием rnn encoderdecoder для статистического машинного перевода. Чо и др., EMNLP 2014.
- Блог: Понимание сети LSTM, Кристофер Ола.
Работа с большими словами
- Масштабируемая иерархическая модель распределенного языка. MNIH и Хинтон, NIPS 2009.
- Быстрый и простой алгоритм для обучения нейронных вероятностных языковых моделей. MNIH и TEH, ICML 2012.
- При использовании очень большого целевого словаря для перевода нейронной машины. Жан и др., ACL 2015.
- Изучение пределов языкового моделирования. Jozefowicz et al., Arxiv 2016.
- Эффективное приближение Softmax для графических процессоров. Grave et al., Arxiv 2016.
- Примечания о контрастной оценке шума и отрицательной выборке. Дайер, Arxiv 2014.
- Прагматическое моделирование нейронного языка в машинном переводе. Baltescu and Blunsom, NAACL 2015
Регуляризация и отсечение
- Теоретически обоснованное применение отсева в повторяющихся нейронных сетях. Гал и Гахрамани, NIPS 2016.
- Блог: Неопределенность в глубоком обучении, Ярин Гал.
Другие вещи
- Повторяющиеся сети шоссе. Zilly et al., Arxiv 2016.
- Емкость и обучение в повторяющихся нейронных сетях. Коллинз и др., Arxiv 2016.
7. Лекция 5 - Текстовая классификация [Карл Мориц Германн]
В этой лекции обсуждается классификация текста, начиная с основных классификаторов, таких как наивные байеса, и прогрессируя в RNN и сети сверток.
[слайды] [видео]
Чтение
- Повторяющиеся сверточные нейронные сети для классификации текста. Lai et al. AAAI 2015.
- Свожденная нейронная сеть для моделирования предложений, Kalchbrenner et al. ACL 2014.
- Семантическая композиция через рекурсивный матричный вектор, Socher et al. EMNLP 2012.
- Блог: Понимание нейронных сетей свертки для НЛП, Денни Бритц.
- Тезис: Распределение представлений о композиционной семантике, Германн (2014).
8. Лекция 6 - Глубокий NLP на графических процессорах NVIDIA [Джереми Апклиард]
Эта лекция представляет графические обработки (графические процессоры) в качестве альтернативы процессорам для выполнения алгоритмов глубокого обучения. Обсуждаются сильные и слабые стороны графических процессоров, а также важность понимания того, как пропускная способность и пропускная способность вычислений на вычисления для RNN.
[слайды] [видео]
Чтение
- Оптимизация производительности повторяющихся нейронных сетей на графических процессорах. Appleyard et al., Arxiv 2016.
- Постоянные RNNS: хранение рецидивирующих веса на чипе, Diamos et al., ICML 2016
- Эффективное приближение Softmax для графических процессоров. Grave et al., Arxiv 2016.
9. Лекция 7 - модели условного языка [Крис Дайер]
В этой лекции мы расширяем концепцию языкового моделирования, чтобы включить предварительную информацию. Конструкция модели языка RNN на входном представлении, мы можем генерировать контекстуально релевантный язык. Эта очень общая идея может быть применена для преобразования последовательностей в новые последовательности для таких задач, как перевод и суммирование, или изображения в подписи, описывающие их содержание.
[слайды] [видео]
Чтение
- Повторяющиеся непрерывные модели перевода. Kalchbrenner and Blunsom, EMNLP 2013
- Последовательность для последовательности обучения с нейронными сетями. Sutskever et al., Nips 2014
- Модели мультимодального нейронного языка. Kiros et al., ICML 2014
- Покажите и расскажите: генератор заголовка нейронного изображения. Vinyanals et al., CVPR 2015
10. Лекция 8 - генерирование языка с вниманием [Крис Дайер]
Эта лекция вводит один из самых важных и влиятельных механизмов, используемых в глубоких нейронных сетях: внимание. Внимание дополняет рецидивирующие сети с возможностью обусловленности на определенных частях ввода и является ключом к достижению высокой производительности в таких задачах, как машинный перевод и подписание изображений.
[слайды] [видео]
Чтение
- Нейронная машина перевод путем совместного обучения для выравнивания и перевода. Bahdanau et al., ICLR 2015
- Показать, посещать и скажите: генерация подготовительной подголки на нейронном образе с визуальным вниманием. Xu et al., ICML 2015
- Включение структурных смещений выравнивания в модель нейронного перевода внимания. Cohn et al., NAACL 2016
- Bleu: метод автоматической оценки машинного перевода. Papineni et al, ACL 2002
11. Лекция 9 - распознавание речи (ASR) [Эндрю Старший]
Автоматическое распознавание речи (ASR) является задачей преобразования необработанных аудиосигналов разговорного языка в текстовые транскрипции. Этот разговор охватывает историю моделей ASR, от гауссовых смесей до внимания, дополненных RNN, основной лингвистики речи и различных входных и выходных представлений, часто используемых.
[слайды] [видео]
12. Лекция 10 - Текст на речь (TTS) [Эндрю Старший]
Эта лекция вводит алгоритмы для преобразования письменного языка в разговорной язык (текст в речь). TTS - это обратный процесс для ASR, но есть некоторые важные различия в применяемых моделях. Здесь мы рассмотрим традиционные модели TTS, а затем освещаем более поздние нейронные подходы, такие как модель DeepMind Wavenet.
[слайды] [видео]
13. Лекция 11 - Ответ на вопрос [Карл Мориц Германн]
[слайды] [видео]
Чтение
- Учебные машины для чтения и понимания. Hermann et al., Nips 2015
- Глубокое обучение для выбора предложения ответа. Yu et al., Нажимает семинар по глубокому обучению 2014
14. Лекция 12 - Память [Эд Грефенштет]
[слайды] [видео]
Чтение
- Гибридные вычисления с использованием нейронной сети с динамической внешней памятью. Graves et al., Nature 2016
- Рассуждение о вторжении с нервным вниманием. Rocktäschel et al., ICLR 2016
- Обучение преобразованию с неограниченной памятью. Grefenstette et al., Nips 2015
- Сетки с сети памяти. Sukhbaatar et al., Nips 2015
15. Лекция 13 - Лингвистические знания в нейронных сетях
[слайды] [видео]
Пьяцца
Мы будем использовать Piazza для облегчения обсуждения в классе в течение курса. Вместо того, чтобы напрямую по электронной почте, я призываю вас опубликовать ваши вопросы на Piazza, чтобы получить ответ ваших сокурсников, инструкторов и преподавателей. Однако, пожалуйста, обратите внимание, что все лекторы для этого курса добровольно участвуют в своем времени и не всегда могут быть доступны, чтобы дать ответ.
Найдите нашу страницу класса по адресу: https://piazza.com/ox.ac.uk/winter2017/dnlpht2017/home
Оценка
Основной оценкой для этого курса будет назначение на дому, выпущенное в конце срока. В этом задании будут задавать вопросы, опираясь на концепции и модели, обсуждаемые в курсе, а также из выбранных исследовательских публикаций. Характер вопросов будет включать анализ математических описаний моделей и предложение расширения, улучшения или оценки к таким моделям. Задание также может попросить студентов прочитать конкретные исследования в области исследования и обсудить предлагаемые их алгоритмы в контексте курса. Ожидается, что студенты будут представлять как последовательные письменные аргументы, так и использовать соответствующие математические формулы, так и, возможно, псевдокод, чтобы проиллюстрировать ответы.
Практический компонент курса будет оцениваться обычным способом.
Благодарности
Этот курс был бы невозможным без поддержки DeepMind, Департамента компьютерных наук Оксфорда, NVIDIA, и щедрого пожертвования ресурсов графического процессора от Microsoft Azure.