前言
該存儲庫包含牛津大學希拉里學期的深度自然語言處理課程的講座幻燈片和課程描述。
這是關於自然語言處理的高級課程。自動處理自然語言輸入和產生語言輸出是人工通用情報的關鍵組成部分。人類交流中固有的歧義和噪音使傳統的符號AI技術無效地代表和分析語言數據。最近,基於神經網絡的統計技術在自然語言處理方面取得了許多傑出的成功,從而引起了廣泛的商業和學術興趣
這是一門應用課程,重點介紹了使用複發性神經網絡分析和生成語音和文本的最新進展。我們介紹了相關的機器學習模型的數學定義,並得出了相關的優化算法。該課程涵蓋了NLP中神經網絡的一系列應用,包括分析文本中的潛在維度,將語音轉錄為文本,翻譯在語言之間以及回答問題。這些主題分為三個高級主題,從理解神經網絡進行順序語言建模,理解它們作為轉導任務的條件語言模型的使用,最後是使用這些技術與其他高級應用機制結合使用的方法。在整個課程中,還討論了此類模型在CPU和GPU硬件上的實際實現。
本課程由Phil Blunsom組織,並與DeepMind自然語言研究小組合作。
講師
- Phil Blunsom(牛津大學和Deepmind)
- 克里斯·戴爾(Chris Dyer)(卡內基·梅隆大學(Carnegie Mellon University)和DeepMind)
- 愛德華·格雷芬斯特(Edward Grefenstette)(DeepMind)
- Karl Moritz Hermann(DeepMind)
- 安德魯高級(DeepMind)
- Wang Ling(DeepMind)
- 傑里米·阿普利德(Nvidia)
tas
- Yannis Assael
- Yishu Miao
- 布倫丹·希林福德
- Jan Buys
時間表
實踐
- 第1組 - 星期一,9:00-11:00(第2-8週),60.05湯姆建築物
- 第2組 - 16:00-18:00(2-8週),379室
- 實用1:Word2Vec
- 實用2:文本分類
- 實用3:用於文本分類和語言建模的循環神經網絡
- 實用4:開放實用
講座
公開演講在數學研究所的講座劇院1,星期二和星期四(第8週除外),16:00-18:00(希拉里學期1,3-8)。
講座材料
1。1A講座 - 簡介[Phil Blunsom]
該講座介紹了課程,並激發了為什麼使用深度學習技術研究語言處理很有趣的原因。
[幻燈片] [視頻]
2。1B講座 - 深度神經網絡是我們的朋友[王Ling]
該講座修改了學生在開始本課程之前應該知道的基本機器學習概念。
[幻燈片] [視頻]
3。講座2a-單詞級別的語義[Ed Grefenstette]
單詞是語言中帶有單位的核心。代表和學習單詞的含義是NLP中的一項基本任務,在本講座中,將單詞嵌入的概念作為一種實用且可擴展的解決方案引入。
[幻燈片] [視頻]
閱讀
嵌入基礎知識
- 約翰·R·菲斯(Firth)。 “語言理論的概要,1930- 1955年。” (1957):1-32。
- 柯倫,詹姆斯·理查德。 “從分佈到語義相似。” (2004)。
- Collobert,Ronan等。 “自然語言處理(幾乎)從頭開始。”機器學習研究雜誌12. 8月(2011年):2493-2537。
- Mikolov,Tomas等。 “單詞和短語的分佈表示及其組成性。”神經信息處理系統的進步。 2013。
數據集和可視化
- Finkelstein,Lev等。 “將搜索放在上下文中:重新審視的概念。”世界網絡第十屆國際會議論文集。 ACM,2001年。
- 希爾,菲利克斯,ROI Reichart和Anna Korhonen。 “ Simlex-999:評估具有(真實)相似性估計的語義模型。”計算語言學(2016年)。
- Maaten,Laurens van der和Geoffrey Hinton。 “使用T-SNE可視化數據。”機器學習研究雜誌9.NOV(2008):2579-2605。
博客文章
- 深度學習,NLP和代表,克里斯托弗·奧拉(Christopher Olah)。
- 用JavaScript,Andrej karpathy在t-sne中可視化頂級跨度。
進一步閱讀
- Hermann,Karl Moritz和Phil Blunsom。 “組成分佈語義學的多語言模型。” ARXIV預印型ARXIV:1404.4641(2014)。
- Levy,Omer和Yoav Goldberg。 “神經詞嵌入為隱式矩陣分解。”神經信息處理系統的進步。 2014。
- Levy,Omer,Yoav Goldberg和Ido Dagan。 “通過從單詞嵌入中學到的經驗教訓提高分佈相似性。”計算語言學協會交易3(2015):211-225。
- Ling,Wang等。 “對於語法問題,Word2Vec的兩個/太簡單改編。” HLT-NAACL。 2015。
4。第2B講座 - 實踐概述[Chris Dyer]
該講座激發了課程的實際部分。
[幻燈片] [視頻]
5。講座3-語言建模和RNNS第1部分[Phil Blunsom]
語言建模是許多NLP應用程序中大量實際使用的重要任務。該講座介紹了語言建模,包括基於N-Gram的傳統方法和更現代的神經方法。特別是引入了流行的複發性神經網絡(RNN)語言模型,並描述了其基本培訓和評估算法。
[幻燈片] [視頻]
閱讀
教科書
部落格
- 復發性神經網絡的不合理有效性,Andrej Karpathy。
- 角色級語言模型的不合理有效性,Yoav Goldberg。
- 解釋並說明了復發性神經網絡的正交初始化,Stephen Merity。
6。講座4-語言建模和RNNS第2部分[Phil Blunsom]
該講座從上一篇講座開始,並考慮了有效實施RNN語言模型所涉及的一些問題。描述了消失和爆炸梯度問題,並引入了長期記憶(LSTM)等體系結構解決方案。
[幻燈片] [視頻]
閱讀
教科書
消失的梯度,LSTMS等
- 關於訓練復發性神經網絡的困難。 Pascanu等人,ICML 2013。
- 長期的短期記憶。 Hochreiter和Schmidhuber,《神經計算》,1997年。
- 使用rnn encoderDecoder進行統計機器翻譯的學習短語表示。 Cho等人,EMNLP 2014。
- 博客:了解LSTM網絡,克里斯托弗·奧拉(Christopher Olah)。
處理大詞彙
- 可擴展的層次分佈式語言模型。 Mnih和Hinton,Nips 2009。
- 一種用於培訓神經概率語言模型的快速簡單算法。 Mnih和Teh,ICML 2012。
- 在使用非常大的目標詞彙進行神經機器翻譯時。 Jean等人,ACL 2015。
- 探索語言建模的極限。 Jozefowicz等人,Arxiv 2016。
- GPU的有效軟效果近似。 Grave等,Arxiv 2016。
- 關於噪聲對比估計和負抽樣的註釋。 Dyer,Arxiv 2014。
- 機器翻譯中的務實神經語言建模。 Baltescu和Blunsom,NAACL 2015
正則化和輟學
- 理論上基於復發性神經網絡中輟學的應用。 Gal和Ghahramani,NIPS 2016。
- 博客:深度學習的不確定性,Yarin Gal。
其他東西
- 經常性高速公路網絡。 Zilly等人,Arxiv 2016。
- 復發性神經網絡中的容量和訓練性。 Collins等人,Arxiv 2016。
7.講座5-文本分類[Karl Moritz Hermann]
該講座討論了文本分類,從基本分類器(例如天真的貝葉斯)開始,並逐步發展為RNN和卷積網絡。
[幻燈片] [視頻]
閱讀
- 用於文本分類的經常性卷積神經網絡。 Lai等。 AAAI 2015。
- Kalchbrenner等人,用於建模句子的捲積神經網絡。 ACL 2014。
- Socher等人通過遞歸矩陣矢量的語義組成。 EMNLP 2012。
- 博客:了解NLP的捲積神經網絡,Denny Britz。
- 論文:構圖語義的分佈表示,赫爾曼(Hermann)(2014)。
8。第6講 - NVIDIA GPU的深NLP [Jeremy Appleyard]
該講座介紹了圖形處理單元(GPU),作為執行深度學習算法的CPU的替代方法。討論了GPU的優勢和劣勢,以及了解記憶帶寬和計算如何影響RNN的吞吐量的重要性。
[幻燈片] [視頻]
閱讀
- 優化GPU上復發性神經網絡的性能。 Appleyard等人,Arxiv 2016。
- 持續的RNN:片上固定重量片,Diamos等,ICML 2016
- GPU的有效軟效果近似。 Grave等,Arxiv 2016。
9。講座7-條件語言模型[Chris Dyer]
在本講座中,我們將語言建模的概念擴展到了以前的信息。通過在輸入表示上調節RNN語言模型,我們可以生成上下文相關的語言。這個非常籠統的想法可以應用於將翻譯和摘要等任務的新序列轉換為新的序列,或將圖像轉換為描述其內容的字幕中。
[幻燈片] [視頻]
閱讀
- 經常性連續翻譯模型。 Kalchbrenner和Blunsom,EMNLP 2013
- 使用神經網絡序列學習的順序。 Sutskever等,NIPS 2014
- 多模式神經語言模型。 Kiros等人,ICML 2014
- 顯示和講述:神經圖像標題發生器。 Vinyals等,CVPR 2015
10。講座8-引起注意的語言[Chris Dyer]
該講座介紹了深度神經網絡中採用的最重要,最有影響力的機制之一:注意。注意增強反复的網絡,能夠在輸入的特定部分處置條件,並且是在機器翻譯和圖像字幕等任務中實現高性能的關鍵。
[幻燈片] [視頻]
閱讀
- 神經機器翻譯通過共同學習對齊和翻譯。 Bahdanau等,ICLR 2015
- 顯示,參加和講述:神經圖像標題的產生,視覺關注。 Xu等人,ICML 2015
- 將結構對齊偏置納入註意力神經翻譯模型。 Cohn等,NAACL 2016
- BLEU:一種自動評估機器翻譯的方法。 Papineni等,ACL 2002
11。第9講 - 語音識別(ASR)[Andrew Senior]
自動語音識別(ASR)是將口語的原始音頻信號轉換為文本轉錄的任務。本演講涵蓋了ASR模型的歷史,從高斯混合物到注意力增強RNN,語音的基本語言學以及經常使用的各種輸入和輸出表示。
[幻燈片] [視頻]
12.講座10-文字到語音(TTS)[Andrew Senior]
本講座介紹了將書面語言轉換為口語(文本到語音)的算法。 TTS是ASR的逆過程,但是應用的模型存在一些重要差異。在這裡,我們回顧了傳統的TTS模型,然後介紹了更新的神經方法,例如DeepMind的WaveNet模型。
[幻燈片] [視頻]
13。講座11-回答[Karl Moritz Hermann]
[幻燈片] [視頻]
閱讀
- 教機閱讀和理解。 Hermann等人,NIPS 2015
- 回答句子選擇的深度學習。 Yu等人,NIPS Deep Learning Workshop 2014
14。講座12-記憶[Ed Grefenstette]
[幻燈片] [視頻]
閱讀
- 使用具有動態外部內存的神經網絡的混合計算。 Graves等人,自然2016
- 關於帶有神經關注的理由。 Rocktäschel等,ICLR 2016
- 學習用無限的內存轉導。 Grefenstette等,NIPS 2015
- 端到端內存網絡。 Sukhbaatar等人,NIPS 2015
15。講座13-神經網絡中的語言知識
[幻燈片] [視頻]
廣場
我們將使用廣場在課程中促進課堂討論。我鼓勵您沒有直接發送問題,而是鼓勵您在廣場上發布問題,以由您的同學,講師和講師回答。但是,請注意,本課程的所有講師都在自願參加他們的時間,並且可能並不總是可以提供回應。
在:https://piazza.com/ox.ac.uk/winter2017/dnlpht2017/home上查找我們的課程頁面
評估
本課程的主要評估將是學期結束時發布的帶回家任務。這項任務將提出有關課程中討論的概念和模型以及選定的研究出版物的問題。問題的性質將包括分析模型的數學描述,並提出對此類模型的擴展,改進或評估。該任務還可以要求學生閱讀特定的研究出版物,並在課程中討論其擬議算法。在回答問題時,將期望學生提出連貫的書面論點,並使用適當的數學公式(可能是偽代碼)來說明答案。
課程的實際組成部分將以通常的方式進行評估。
致謝
如果沒有DeepMind的支持,牛津大學計算機科學系,NVIDIA,以及Microsoft Azure的GPU資源的慷慨捐贈,本課程將是不可能的。