史蒂夫叔叔的文本分析和NLP資源清單
____ ____ ____ ____ _________ ____ ____ ____ ____ ____ ____
||t |||e |||x |||t ||| |||m |||i |||n |||i |||n |||g ||
||__|||__|||__|||__|||_______|||__|||__|||__|||__|||__|||__||
|/__|/__|/__|/__|/_______|/__|/__|/__|/__|/__|/__|
策劃的資源清單,用於學習自然語言處理,文本分析和非結構化數據。
目錄
- 圖書
- 部落格
- 博客文章,論文,案例研究
- 一般的
- NLP的偏見
- 刮擦
- 打掃
- 莖
- 減少維度
- 諷刺檢測
- 文檔分類
- 實體和信息提取
- 文檔聚類和文檔相似性
- 概念分析/主題建模
- 情感分析
- 文本摘要
- 機器翻譯
- 問答系統,聊天機器人
- 模糊匹配,概率匹配,記錄鏈接等。
- 單詞和文檔嵌入
- 變形金剛和語言模型
- 深度學習
- 知識圖
- 主要的NLP會議
- 基準
- 在線課程
- API和庫
- 產品
- 在線演示和工具
- 數據集
- 雜項
- 其他精選列表
圖書
r
- 帶有R的文字開採
- 用r掌握文本挖掘
- 與R一起挖掘文字開採
Python
- 使用變壓器的自然語言處理,修訂版
- 開始自然語言處理
- 使用Python的文本分析的藍圖:基於機器學習的共同現實世界(NLP)應用程序的解決方案
- 實用的自然語言處理
- 使用Python進行自然語言處理
- 使用Pytorch進行自然語言處理
- Python自然語言處理
- 使用Python掌握自然語言處理
- 自然語言處理:Python和NLTK
- 使用Python的應用文本分析:通過機器學習啟用語言感知數據產品
- 使用Python應用自然語言處理。 2018。
- 用文字深入學習
一般的
- 馴服文本:如何查找,組織和操縱它。動手指南,學習用於查找,組織和操縱非結構化文本的創新工具和技術。
- 語音和語言處理
- 統計自然語言處理的基礎
- 使用Perl和Prolog的語言處理:理論,實施和應用(認知技術)
- 信息檢索的介紹
- 自然語言處理手冊
- 實用的文本挖掘和非結構化文本數據應用程序的統計分析
- 預測文本挖掘的基本原理
- 挖掘社交網絡:數據挖掘Facebook,Twitter,LinkedIn,Google+,Github等
- 自然語言處理的神經網絡方法
- 文字採礦:社會科學指南
- 實用文本分析:解釋商業智能的文本和非結構化數據
- 自然語言處理中的神經網絡方法
- 文本的機器學習(2018)
- 西班牙語的自然語言處理
- 計算語言學基礎人類計算機以自然語言的交流。提供有關如何構建通話機器人的見解。
- 語音識別的統計方法。突出顯示了語音識別的重要研究和統計方法。
- 如何將數據標記為管理大型文本註釋項目的擴展指南
部落格
- 大概是一個科學博客
- 塞巴斯蒂安·魯德(Sebastian Ruder)
- NLP-Progress
- 自然語言處理博客
博客文章,論文,案例研究
一般的
- NLP醫療保健。醫療保健付款人和提供者如何使用NLP。
- AI哈佛商業評論。 NLP改善對機器互動的影響。
- 為什麼自然語言處理的準確性對於零售AI的未來至關重要
- 自然語言處理很有趣!計算機如何理解人類語言。 2018。
- WEF直播活動 - Twitter Fed全球新聞和情感跟踪器 - 直播2019年1月
- 現代深度學習技術應用於自然語言處理
- 自然語言處理的權威指南。 Monkeylearn。非技術概述。
- 從自然語言到日曆條目,帶有Clojure。 2015年3月。 NLP,Clojure
- 問HN:如何進入NLP(自然語言處理)?
- 問HN:分析大型文本的最佳工具是什麼?
- Quora:我如何學習自然語言處理?初學者的良好介紹與時間估計分解並鏈接到斯坦福大學CS課程。
- Quora主題:自然語言處理
- 自然語言處理的權威指南2015年10月。
- 本文的期貨2015年2月。對文本中所有當前創新的調查是一種媒介。
- R或Python在2015年8月在文本開採中。
- 2012年8月8日在文本採礦中從哪裡開始。
- R和Python中的文字挖掘:有8個入門技巧。 2016年10月
- Python的文本分析介紹,2012年4月1日。初學者在Python中對情感分析的基礎思想的演練。
- 使用Python挖掘Twitter數據(第1部分:收集數據)
- 為什麼文字挖掘可能是下一個大事。 2012年3月。
- SAS首席執行官提供了有關BI的分析,揭示了2011年6月的文本分析用例。
- 文本挖掘的價值和好處。 2015年9月。
- Text Mining South Park 2016年2月 - 涵蓋各種主題的文本挖掘博客。
- 自然語言處理:簡介
- 自然語言處理教程。 2013年6月。
- 自然語言處理博客。
- 使用Twitter流API和Python的文本挖掘簡介
- github repo帶代碼:https://github.com/adilmoujahid/twitter_analytics
- 如何進入自然語言處理”。 NLP的基本非技術介紹。
- 貝蒂:您的命令行友好的英語界面。
- 創建機器學習模型來分析啟動新聞-Part1。第2部分。第3部分。
- 比較最有用的文本處理API
- 100條必須閱讀的NLP論文
- Python處理文本數據指南
- 眾包醫療關係提取的地面真相
- 基於自然語言的財務預測:調查
- 基於自然語言的財務預測:調查。一篇文章闡明了自然語言財務預測的範圍。
- 5個自然語言處理的英雄工具
- 自然語言處理解鎖隱藏的數據以改變醫療保健效率,質量和成本
- 從電子臨床文件中提取醫療問題
- 用於機器學習的自然語言處理(NLP)。包括基本的,易於理解的預處理,並比較Python中的一些ML分類模型。
- 如何編寫拼寫校正器 - 彼得·諾維格(Peter Norvig)
- 使用AI釋放非結構化政府數據的力量:(W。Eggers,N。Malik和M. Gracie,2019年1月)。 “將非結構化的文本視為在物理和虛擬文件櫃中'被困住'。諾言是明確的:政府可以通過提高其“連接點”並確定可用數據中的模式來提高效力並防止許多災難。”這本Deloitte文章提供了NLP的易於完善的底漆和背景,並且各種應用程序NLP可以用於非結構化的政府文本數據。本文包括許多美國政府的例子,介紹了當前如何在不同領域部署NLP(例如,幫助分析公共反饋/情感分析/主題建模,改善法醫調查,以幫助政府的政策制定和法規合規性)。關鍵是要應用不同的NLP技術來探索和發現關鍵的政府情報見解。
- 娛樂產品的提取功能:由媒體消費心理學告知的指導潛在的迪里奇分配方法:( O.Toubia,G。Iyengar,R。Bunnell和A. Lemaire,2019年2月)。 “我們依靠NLP文獻以自動化和可擴展的方式開發一種標記娛樂產品的方法。在電影的背景下,我們首先表明,提出的功能提高了我們在個人級別上預測消耗的能力……我們還表明,LDA功能有可能提高模型的性能,從而預測聚集性能的效果,而不是個人級別的消耗。”這篇學術文章既提供了框架和管理意義,又表明LDA和NLP在娛樂產品中的特徵提取中應用,可以幫助傳統的基於內容的消費者行為模型,以及應用於媒體和娛樂行業的相關營銷模型。
- 經驗教訓在醫療保健中構建自然語言處理系統
- 算法如何知道您將要輸入什麼
NLP的偏見
- AI偏見:人類有責任確保公平
- VentureBeat Blogpost-數據集中的性別偏見 - 基於UCLA研究論文“學習性別中性單詞嵌入” 2018年8月。
- 在200個情緒分析系統中檢查性別和種族偏見。 2018
- 男人是按計算機程序員做的,就像女人是家庭主婦嗎?單詞嵌入。
刮擦
- 使用零工教程刮擦HTML,以使用Python模塊砂紙從凌亂的HTML網站中提取數據。
- 從任何文檔中提取文本;沒有穆斯,沒有大驚小怪。 2014年7月。
- 使用砂紙製造自己的數據集,2017年9月。
打掃
- 如何解決90%的NLP問題:逐步指南2018年1月。用於成功的NLP模型構建的數據清潔和探索的逐步指南。
- Python中的文本預處理:步驟,工具和示例。 2018年10月
- 如何使用Python 2017年10月清潔機器學習的文本。逐步指南如何執行文本數據預處理。
- 功能提取,基本預處理和高級處理
停止文字
- 用python中的NLTK刪除停止單詞
- 情感分析的文本分類 - 攔截和搭配
莖
- 文章:文本詞幹:方法,應用和挑戰。 2016年12月。
- 莖和咬合之間有什麼區別? 2018年2月。在不同語言中使用Stemmating和Lemmatization的差異和示例。
- python中的莖和誘餌。 2018年10月。將莖和檸檬水與背後,結果,利弊,使用上下文以及代碼語法的算法進行比較。
- 情感研討會教程:莖
減少維度
- 使用SVD馴服文本。 SAS。 2004年1月。
- 減少字袋型號的尺寸:PCA vs LSA
- 概述單詞袋以及如何在python中為NLP編碼
- 單詞和TF-IDF解釋了
諷刺檢測
- 自動諷刺檢測:調查ACM計算機調查,2017年9月。
- 級聯:在線討論論壇中的上下文諷刺檢測第27屆國際計算語言學會議,2018年8月。
- 使用深卷積神經網絡國際計算機工程技術高級研究雜誌,第6卷,第1期,2017年1月,更深入地了解諷刺推文。
- 通過深卷積神經網絡檢測諷刺。 2018年4月30日。使用CNN進行有效檢測諷刺的上下文學習。
文檔分類
- 幼稚的貝葉斯和文本分類,2014年。 《天真貝葉斯算法》的深入概述以及如何在文檔分類過程中使用。
- 2016年,Facebook研究人員的一篇論文介紹了FastText,這是一種快速有效的文檔分類算法。
- 機器學習中的文本分類器算法,2017年。一篇博客文章,展示瞭如何將幾種深度學習算法應用於文檔分類問題。
- 在REUTERS-21578 R8數據集中對文檔進行分類,2016年。 R中的一個不錯的教程,該教程顯示瞭如何使用三種不同的ML算法對新聞文章進行分類。
- 整理文本礦業啤酒評論,2018年。使用KNN算法將精釀啤酒產品的評論分類為啤酒風格(例如,“ Pilsner”,“ IPA”或“ Belgian”)。
- 使用fastText和comet.ml在知識圖中對關係進行分類
- Scikit-Learn,2018年多級文本分類。一篇文章,展示瞭如何處理多級問題,例如將消費者投訴分為12個類別之一。
- Scikit-Learn中的文字學習機器學習(Pycon 2016),2016年。一個不錯的視頻教程,討論瞭如何在文檔分類過程中使用Scikit-Learn。
- 處理文本數據的最終指南(使用Python) - 對於數據科學家和工程師,2018年。標題說明了一切。
- 與Scikit-Learn和NLTK,2017年的Python中的文本分類。另一個教程,展示瞭如何使用Scikit-Learn執行文本分類。
- 通過通用語言模型引入最新文本分類狀態,2019年。引入了一種開創性的轉移學習方法,用於文檔分類。
- 通過預測長電影評論的情感分類的N -gram通過預測n -gram的學習文檔嵌入 - 在github上使用代碼的紙張
- 邁向可解釋的NLP:2019年文本分類的生成解釋框架。一篇論文描述了一種新的方法來解釋文本分類模型的內部起作用。
實體和信息提取
- 實體提取和網絡分析。 Python,
StanfordCoreNLP - 自然語言處理以進行信息提取
- 提取信息的NLP技術。對NLP數據挖掘工具和技術的七個步驟框架的深入探索。
文檔聚類和文檔相似性
- 文本聚類:從非結構化數據中獲取快速見解。 2017年7月。
- 文檔群集。 MSC論文。
- 文檔聚類:詳細評論。莎阿和馬哈揚。 Ijais 2012。
- 使用Python進行文檔聚類,該存儲庫將IMDB電影描述簇。基於本原始教程,其GitHub repo在這裡。
- 使用SAS®企業礦工進行視頻遊戲用戶評論的文本挖掘和情感分析
- 誰寫了《反特朗普紐約時報》專欄文章?使用tidyText查找文檔相似性
概念分析/主題建模
- 主題模型:過去,現在和未來
- 使用LSA的單詞向量,第2部分
- 概率主題模型
- 樂高顏色主題為主題模型2017年9月。
- 我們的創業公司如何從無監督的LDA轉換為半監督的引導。
- LSA,PLSA,LDA和LDA2VEC的主題建模2018年8月。
- Text2Vec的主題模型描述
- 主題建模門戶
- 主題模型的應用2017。
- Mac 30500:文本分析:主題建模
- COTA,Uber的主題建模方法來改善客戶支持
- 使用LDA主題模型作為分類模型輸入
- NLP:在幾分鐘內使用LDA從數據集中提取主要主題
- 主題建模澳大利亞高等法院的法律主題和司法活動,1903 - 2015年
情感分析
方法
- CACM:情感分析的技術和應用,2013年。 《 ACM雜誌通信》中情感分析的一個很好的概述。
- 無監督的情感分析與簽名的社交網絡,2017年。會議論文描述了將情感分析應用於社交網絡的挑戰,並提出了一種新的無監督方法。
- 基於詞典的情感分析方法,2010年。使用SO-CAL(語義取向計算器),這是對情感分析的主觀性和意見的度量。
- 這種感性的感覺,2015年。將R的Syezhet軟件包的結果與人類標籤的結果進行了比較。 2016年更新。
- 無監督的情感神經元,2017年。 Openai的團隊開發了一種使用Deep NNS進行情感分析的新方法,對數據的數據比平常少得多。
- 當前的文本情感分析從意見到情感挖掘,2017年。一篇期刊文章調查了當前情感分析研究和工具的狀態。
- 情感分析工具概述,第1部分。正面和負詞數據庫,2017年。概述了一些詞典數據庫的博客文章。
- 情感分析,概念分析和應用,2018年。情感分析的概述,並對有關Uber的推文進行了分析。
- 突破性的研究論文和情感分析模型,2018年。一個博客比較了簡單至高級方法的情感分析的表現。
- Twitter情感分析使用合併的LSTM-CNN模型,2018年。一篇博客文章,描述了一種使用深度學習的情感分析方法。
- VADER:一種基於簡約的規則模型,用於社交媒體文本的情感分析,2014年。呈現Vader的會議論文,Vader是一種簡單的基於規則的情感分析模型。
- 基於詞典的微博帖子情感分析的方法比較2014年。基於SentiWordnet等詞彙資源的推論,介紹了一種基於詞典的Twitter帖子情感分析的新方法。
挑戰
- 關於否定性的否定性,2011年。會議論文討論了在文本中處理否定性的挑戰,並進行了有關IMDB電影評論的案例研究。
- 情感分析中的挑戰,2015年。加拿大國家參議員委員會的實踐指南,描述了情感分析的一些主要挑戰。
- 關於情感分析挑戰的一項調查,2016年。討論和比較四十七篇論文中的情感分析挑戰的期刊文章。
政治
- 使用Python,2017年對特朗普的推文的情感分析。對特朗普的推文使用Tweepy和Textblob進行NLP處理的情感分析。
- 唐納德·特朗普(Donald Trump)vs希拉里·克林頓(Hillary Clinton):Twitter提到的情感分析,2016年。比較了特朗普的推文與希拉里(Hillary)的推文的情感,導致2016年美國總統大選。
- 情感分析有效嗎?對Yelp評論的整潔分析,2016年。在評論中結合了預測結果和單個單詞,以表明情緒分析在Yelp評論中效果很好。
- 從推文到民意調查:將文本情感與2010年的公眾輿論時間序列聯繫起來。會議論文描述了Twitter上的情感分析如何與公眾輿論民意調查有關。
股市
- Twitter情緒預測了2010年的股票市場。衡量每日Twitter Feedsa的“情緒”的期刊文章,並表明情緒可以預測DJIA。
- 非線性影響:社交媒體對市場價格的因果影響的證據,2016年。一篇期刊文章表明,社交媒體與DJIA的關係是非線性的。
- 福布斯:量化交易者如何利用情緒在2015年獲得市場優勢。一篇文章,展示了量化交易者如何使用情感分析的文章。
- SENDEX:量化定性。一種在線工具,可衡量不同股票的整體情感。
- Trump2Cash:由特朗普推文提供支持的股票交易機器人。一個觀看唐納德·特朗普(Donald Trump)的Twitter帳戶的機器人,並等待他提及任何公開交易的公司。一篇相關的博客文章描述了一個機器人,該機器人將特朗普的推文變成了計劃生育捐贈。
申請
- 在海上迷失:社交媒體如何幫助巡航線吸引千禧一代,2016年。一份白皮書描述了巡航線如何吸引其他受眾。
- 哈里·繪圖師(Harry Plotter):與RIDYTEXT和R TIDYVERSE慶祝20週年,2015年。一篇技術文章,展示瞭如何將情感分析應用於Harry Potter系列的文本。
- 數據科學101:2017年r教程中的情感分析。一篇技術文章,描述瞭如何使用R中的TidyText軟件包來分析美國總統演講。
- 2017年戛納獅子會:2017年火星巧克力澳大利亞(Clemenger BBDO),2017年。
- 情感分析:10個應用程序和4個服務,2018年。 《情感分析》的簡短但簡潔的介紹,其業務影響和四個情感分析雲服務提供商,包括Google,Amazon和Microsoft。
- 您的老闆可以通過閱讀整個公司的電子郵件(2018年)可以學到的東西。 “課程:弄清楚勞動力的真相不是通過竊聽員工所說的內容,而是通過檢查他們的說法。”本文以將情感分析應用於大型內部非結構化文本數據集(例如員工電子郵件)的主題為中心。文本分析和NLP已成為一種越來越流行的方法,可以幫助搜索可能表明員工參與工作場所的線索,以及任何潛在的“紅色範圍”,這些潛在的“紅色範圍”應受到組織及其道德含義的特別關注。
- 亞馬遜產品評論的基於方面的情感分析,2018年。一篇文章,展示瞭如何應用亞馬遜產品評論的不同方面的情感分析。
- 對2017年超級碗51的220萬條推文的情感分析。一篇文章,展示瞭如何將情感分析應用於有關超級碗的推文。
- 情感和情感分析:NLP的從業者指南,2018年。 《情感分析》的概述,適用於新聞文章。
工具和技術
- 流媒體分析教程。
- 如何在Azure中分析情感。
- 操作方法 - 驗證 - 索引 - 使用python-tutorial/。
- Twitter情感分析概述,2016年。情感分析概述,以及如何使用TextBlob進行情感分析的分步演練。
- Elmo使用TensorFlow Hub,2018年的keras中嵌入。一種使用TensorFlow Hub在KERAS模型中使用Google Elmo的指南。
- Twitter情感分析在Python中使用TextBlob,2018年。
文本摘要
- 文字摘要用Gensim
- 使用句子嵌入的無監督文本摘要
- 改善文本摘要中的抽象提出了兩種改進技術
- 文本摘要和與科學和健康相關的數據 - 文本匯總的分類。 2016年。關於文本摘要的基本研究。
機器翻譯
- 博客文章:在翻譯中發現:2016年11月Google翻譯中更準確,流利的句子
- 紐約時報:偉大的AI覺醒2016年12月。 Google如何使用人工智能來改變Google Translate,這是其最受歡迎的服務之一,以及如何使機器學習有望重塑計算本身。
- 機器學習翻譯和Google翻譯算法
- 神經機器翻譯(SEQ2SEQ)教程
- 論文解剖:“您需要的全部需要”解釋了一份重要論文,該論文在2017年首次引入了“注意機制”。
- 帶註釋的變壓器逐線實現“您需要的全部需要”。
- BERT:深度雙向變壓器的預培訓,用於了解2018年發布的新語言表示模型。實施代碼。 Pytorch港口。
- 基於短語和神經無監督的機器翻譯提出了兩個模型變體:基於神經和短語模型。在2018年EMNLP上獲得最佳紙張獎。實施代碼。
問答系統,聊天機器人
- 認識露西:創建聊天機器人原型
- Microsoft Bot框架。
- 培訓數百萬個個性化對話代理商
- 為您的聊天機器人利用NLP和機器學習的終極指南。 2016。
- 在Python(使用NLTK)中從頭開始構建一個簡單的聊天機器人。 2018年9月
- 一項關於對話系統的調查:最新進展和新的邊界2018年1月。
- 檢查自動翻譯聊天機器人對偶然L2學習的在線協作對話框的影響
- 使用常見問題發現,憤怒檢測和自然語言理解創建銀行聊天機器人
- 生成模型聊天機器人 - 2017年5月
- 與Python-2017年3月建造多功能的Slackbot指南
- 在Python(使用NLTK)中建立一個簡單的聊天機器人 - 2018年9月
- 通往會話銀行業務未來的道路
- 聊天機器人 - 為NLP模型設計意圖和實體2017年1月
- 自動診斷的面向任務的對話系統。 2018年。談論使用了MDP培訓的數據集及其醫學診斷應用程序。
- AI Frontiers的Li Deng:三代口語對話系統(BOT)。 2017年。微軟首席科學家AI幻燈片。
- NLP - 建立一個問答模型。 2018年3月
模糊匹配,概率匹配,記錄鏈接等。
- R中的consep方法。近似字符串匹配(模糊匹配)
- R.示例用法中的fuzzywuzzy軟件包。
- 模糊弦匹配 - 解決非結構化信息的生存技巧
- record鏈接軟件包:檢測數據中的錯誤
- R軟件包快速鏈接:快速概率記錄鏈接
- 通過定義一個密鑰文件,將r an r an r an r an r函數合併以合併文件
- 學習文本與暹羅經常性網絡的相似性
- Dedupe:一個用於準確且可擴展的模糊匹配,記錄重複數據刪除和實體分辨率的python庫。
- RecordLinkage:用於記錄鏈接的工具包和用Python編寫的重複數據刪除。
單詞和文檔嵌入
- 當前最好的通用單詞嵌入和句子嵌入
- 對單詞嵌入的直觀理解:從計數向量到word2vec
- 對DOC2VEC的經驗評估,對嵌入2016年文檔的實用見解。
- 使用段落向量嵌入的文檔2015。
- 手套單詞嵌入式演示2017。來自Fasti。
- Word2Vec 2016的文本分類。
- 文件嵌入2017
- 從單詞嵌入到2015年的文檔距離。
- 單詞嵌入,ML的偏見,為什麼您不喜歡數學,以及為什麼AI需要您2017年。 RachelThomas(Fastai)
- 自然語言處理中的單詞向量:全球向量(手套)。 2018年8月。
- Lee數據集上的DOC2VEC教程
- 帶有Spacy和Gensim的Python中的單詞嵌入
- 深層上下文化的單詞代表。 Elmo。 Pytorch實施。 TF實施
- 通用語言模型用於文本分類。實施代碼。
- 從自然語言推理數據中監督通用句子表示的學習。
- 在翻譯中學習:上下文化的單詞向量。灣。
- 句子和文件的分佈式表示。段向量。請參閱Gensim的DOC2VEC教程
- Sense2Vec。單詞感覺歧義。
- 跳過思想矢量。單詞表示方法。
- 通過神經網絡序列學習的順序
- 單詞向量的驚人力量。 2016。
- 序列標記的上下文字符串嵌入。 2018。
- 從語義任務中學習嵌入的層次多任務方法,為一組相互關聯的NLP任務引入多任務學習方法。在2019年1月的AAAI會議上發表。實施代碼。
- elmo單詞嵌入
- 白痴的Word2Vec自然語言處理指南
- 忙於嵌入單詞 - 介紹(2018年2月)
- NLP的成像網已經到了。 2018年7月。預先訓練的NLP語言模型概述,使Imagenet對計算機視覺的貢獻相似。
- word2vec:魚 +音樂=低音
- 通用句子編碼器在視覺上解釋。 2020年6月。
變形金剛和語言模型
- 了解大型語言模型。塞巴斯蒂安·拉斯卡卡(Sebastian Raschka)。 2023年2月。
- 貝爾特學的啟示:我們對伯特的工作方式的了解。 2020年11月。
- 基於BERT的模型的評論。 2019年7月。
- 伯特解釋了NLP的藝術語言模型。關於伯特如何運作的基本原理的一個很好的解釋。
- 插圖的Bert,Elmo和Co。 (NLP如何破解轉移學習)。 2018年12月。
- 機器在閱讀測試中擊敗了人類。但是他們了解嗎?
- 每個NLP工程師都需要了解預訓練的語言模型。 2019。
- 變壓器……“解釋”?
- 插圖的變壓器
- 擁抱Face在變壓器模型上的課程
- OpenAI:更好的語言模型及其含義:基於預訓練的變壓器的無監督語言模型,可在許多語言基准上實現最新的語言模型,重點是文本生成。有爭議的有限發布。 2019年2月14日。
chatgpt
...在教育中
- CHATGPT用戶體驗:對教育的影響。 Zhai(佐治亞州的Unviversity)。 2022年12月。
- AI聊天機器人啟用了新的學習模式:三種方法和作業Mollick和Mollick(賓夕法尼亞大學)。 2022年12月。
- 教育工作者戰鬥pla竊,因為有89%的學生承認使用Openai的Chatgpt進行家庭作業。福布斯,2023年1月
- chatgpt:教育的朋友還是敵人? Hirsh-Pasek和Blinkoff(Temple University)。 2023年1月。
- 不要在學校禁止chatgpt。教書。紐約時報(2023年1月)。
- chatgpt和商業教育的未來。 2023年2月。
- Udemy課程(2023年1月)。教育教師的chatgpt。
深度學習
- KERAS LSTM教程 - 如何輕鬆構建強大的深度學習語言模型。
- 文章的前半部分描述了RNN,LSTM細胞的解剖學LSTM網絡。下半部分是使用發電機用於數據輸入的KERAS中的功能進行LSTM實現。
- 自然語言處理的深度學習:帶有Jupyter筆記本的教程。
- 一篇簡短的文章,其中包含鏈接和描述,以進一步的視頻教程,以解決NLP問題的DL方法。總共五個課程,包括預處理,單詞表示和LSTM,以及其他主題。
- 對自然語言處理中深度學習的用法的調查。
- NLP的DL(科羅拉多大學,2018年7月)的35頁學術文獻評論。神經網絡體系結構的詳細描述,然後是一組全面的應用程序。
- 序列分類與人類註意力:使用來自眼神傳播語料庫的人類註意力來使重複的神經網絡(RNN)中的注意力正常。實施代碼。
- 使用Ulmfit和Fastai Library在Python中的文本分類教程(NLP)教程
- 多任務深度神經網絡,用於自然語言理解。學術文章詳細介紹了Microsoft的MTDNN算法,該算法在2019年2月在Glue Benchmark中優於Bert,Elmo和Bilstm。
- 深度學習研究人員的自然語言處理教程:使用Tensorflow和Pytorch的2019年NLP教程存儲庫。
- 深入學習情感分析:調查
- 神經閱讀理解和2018年12月以外的斯坦福大學 - 建立在深神經網絡之上的閱讀理解模型。
- Microsoft:多任務深神經網絡(MT-DNN):微軟對Google Bert的改進,重點是自然語言理解。要發布的代碼。 2019年1月31日。
- 結構化的自我實踐句子嵌入
膠囊網絡
- 通過動態路由進行文本分類研究膠囊網絡。 2018。
- 基於注意力的膠囊網絡具有動態路由以進行關係提取。 2018。
- 使用膠囊和GRU的Twitter情感分析。 2018。
- 使用膠囊網絡在評論中識別侵略性和毒性。 2018年。膠囊網絡的早期是Geoffrey Hinton等人在2017年引入的,作為試圖引入優於古典CNN的NN體系結構的嘗試。該想法旨在通過神經元的“膠囊”之間的動態路由來捕獲輸入層中的層次關係。由於解決層次復雜性的主題的親密關係很可能,因此,該想法擴展到NLP領域已成為積極研究的統治,例如上面列出的論文中。
- 膠囊之間的動態路由。 2017。
- 帶有EM路由的矩陣膠囊。 2018。
知識圖
- 使用fastText和comet.ml在知識圖中對關係進行分類
- WTF是知識圖嗎?
- 自然語言處理中圖的調查。 Nastase等,2015。
主要的NLP會議
- 神經
- 計算語言學協會(ACL)
- 自然語言處理(EMNLP)的經驗方法
- 計算語言學協會北美分會(NAACL)
- 計算語言學協會(EACL)的歐洲分會
- 國際計算語言學會議(COLING)
基準
- 小隊排行榜。斯坦福問題回答數據集(小隊)上表現最強的NLP模型的列表。
- 小隊1.0紙(2016年10月上次更新)。小隊v1.1包括超過100,000個問答對,並基於Wikipedia文章。
- 小隊2.0紙(2018年10月)。 The second generation of SQuAD includes unanswerable questions that the NLP model must identify as being unanswerable from the training data.
- GLUE leaderboard.
- GLUE paper (September 2018). A collection of nine NLP tasks including single-sentence tasks (eg check if grammar is correct, sentiment analysis), similarity and paraphrase tasks (eg determine if two questions are equivalent), and inference tasks (eg determine whether a premise contradicts a hypothesis).
Online courses
Udemy
- Udemy: Deep Learning and NLP AZ™: How to create a ChatBot
- Udemy: Natural Language Processing with Deep Learning in Python
- Udemy: NLP - Natural Language Processing with Python
- Udemy: Deep Learning: Advanced NLP and RNNs
- Udemy: Natural Language Processing and Text Mining Without Coding
Stanford
- Stanford CS 224N / Ling 284
- Website: http://cs224d.stanford.edu/
- Reddit: https://www.reddit.com/r/CS224d/comments/4n04ew/follow_along_with_cs224d_2015_or_2016/
- Lecture Collection | Natural Language Processing with Deep Learning (Winter 2017)
Coursera
- Courses for "natural language processing" on Coursera
- Coursera: Applied Text Mining in Python
- Coursera: Nartual Language Processing
- Coursera: Sequence Models for Time Series and Natural Language Processing
- Coursera: Coursera: Clinical Natural Language Processing
DataCamp
- DataCamp: Natural Language Processing Fundamentals in Python
- DataCamp: Sentiment Analysis in R: The Tidy Way
- DataCamp: Text Mining: Bag of Words
- DataCamp: Building Chatbots in Python
- DataCamp: Advanced NLP with spaCy
其他的
- Deep Learning Drizzle : Drench yourself in Deep Learning, Reinforcement Learning, Machine Learning, Computer Vision, and NLP from this curated list of exciting lectures!
- Natural Language Processing | Dan Jurafsky, Christopher Manning
- Deep Learning for NLP. DeepMind and University of Oxford Department of Computer Science.
- CMU CS 11-747: Neural Network for NLP
- YSDA NLP course. Yandex School of data analysis.
- CMU Language and Statistics II: (More) Empirical Methods in Natural Language Processing
- UT CS 388: Natural Language Processing
- Columbia: COMS W4705: Natural Language Processing
- Columbia: COMS E6998: Machine Learning for Natural Language Processing (Spring 2012)
- Machine Translation: Spring 2016
- Commonlounge: Learn Natural Language Processing: From Beginner to Expert
- Big Data University: Advanced Text Analytics – Getting Results with SystemT
- Udacity: Natural Language Processing Nanodegree
- edX: Natural Language Processing: An introduction to NLP, taught by Microsoft researchers
APIs and Libraries
- R packages
- tm: Text Mining.
- lsa: Latent Semantic Analysis.
- lda: Collapsed Gibbs Sampling Methods for Topic Models.
- textir: Inverse Regression for Text Analysis.
- corpora: Statistics and data sets for corpus frequency data.
- tau: Text Analysis Utilities.
- tidytext: Text mining using dplyr, ggplot2, and other tidy tools.
- Sentiment140: Sentiment text analysis
- sentimentr: Lexicon-based sentiment analysis.
- cleanNLP: ML-based sentiment analysis.
- RSentiment: Lexicon-based sentiment analysis. Contains support for negation detection and sarcasm.
- text2vec: Fast and memory-friendly tools for text vectorization, topic modeling (LDA, LSA), word embeddings (GloVe), similarities.
- fastTextR: Interface to the fastText library.
- LDAvis: Interactive visualization of topic models.
- keras: Interface to Keras, a high-level neural networks 'API'. (RStudio Blog: TensorFlow for R)
- retweet: Client for accessing Twitter's REST and stream APIs. (21 Recipes for Mining Twitter Data with rtweet)
- topicmodels: Interface to the C code for Latent Dirichlet Allocation (LDA).
- textmineR: Aid for text mining in R, with a syntax that should be familiar to experienced R users.
- wordVectors: Creating and exploring word2vec and other word embedding models.
- gtrendsR: Interface for retrieving and displaying the information returned online by Google Trends.
- Analyzing Google Trends Data in R
- textstem: Tools that stem and lemmatize text.
- NLPutils Utilities for Natural Language Processing.
- Udpipe Tokenization, Parts of Speech Tagging, Lemmatization and Dependency Parsing using UDPipe.
- Python modules
- NLTK: Natural Language Toolkit.
- Video: NLTK with Python 3 for Natural Language Processing
- scikit-learn: Machine Learning in Python
- Spark NLP: Open source text processing library for Python, Java, and Scala. It provides production-grade, scalable, and trainable versions of the latest research in natural language processing.
- spaCy: Industrial-Strength Natural Language Processing in Python.
- textblob: Simplified Text processing.
- Natural Language Basics with TextBlob
- Gensim: Topic Modeling for humans.
- Pattern.en: A fast part-of-speech tagger for English, sentiment analysis, tools for English verb conjugation and noun singularization & pluralization, and a WordNet interface.
- textmining: Python Text Mining utilities.
- Scrapy: Open source and collaborative framework for extracting the data you need from websites.
- lda2vec: Tools for interpreting natural language.
- PyText A deep-learning based NLP modeling framework built on PyTorch.
- sent2vec: General purpose unsupervised sentence representations.
- flair: A very simple framework for state-of-the-art Natural Language Processing (NLP)
- word_forms: Accurately generate all possible forms of an English word eg "election" --> "elect", "electoral", "electorate" etc.
- AllenNLP: Open-source NLP research library, built on PyTorch.
- Beautiful Soup: Parse HTML and XML documents. Useful for webscraping.
- BigARTM: Fast topic modeling platform.
- Scattertext: Beautiful visualizations of how language differs among document types.
- embeddings: Pretrained word embeddings in Python.
- fastText: Library for efficient learning of word representations and sentence classification.
- Google Seq2Seq: A general-purpose encoder-decoder framework for Tensorflow that can be used for Machine Translation, Text Summarization, Conversational Modeling, Image Captioning, and more.
- polyglot: A natural language pipeline that supports multilingual applications.
- textacy: NLP, before and after spaCy
- Glove-Python: A “toy” implementation of GloVe in Python. Includes a paragraph embedder.
- Bert As A Service: Client/Server package for sentence encoding, ie mapping a variable-length sentence to a fixed-length vector. Design intent to provide a scalable production ready service, also allowing researchers to apply BERT quickly.
- Keras-BERT: A Keras Implementation of BERT
- Paragraph embedding scripts and Pre-trained models: Scripts for training and testing paragraph vectors, with links to some pre-trained Doc2Vec and Word2Vec models
- Texthero Text preprocessing, representation and visualization from zero to hero.
- Apache Tika: a content analysis tookilt.
- Apache Spark: is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala, Python and R, and an optimized engine that supports general execution graphs.
- MLlib: MLlib is Spark's machine learning (ML) library. Its goal is to make practical machine learning scalable and easy. Related to NLP there are methods available for LDA, Word2Vec, and TFIDF.
- LDA: latent Dirichlet allocation
- Word2Vec: is an Estimator which takes sequences of words representing documents and trains a Word2VecModel. The model maps each word to a unique fixed-size vector. The Word2VecModel transforms each document into a vector using the average of all words in the document
- TFIDF: term frequency-inverse document frequency
- HDF5: an open source file format that supports large, complex, heterogeneous data. Requires no configuration.
- h5py: Python HDF5 package
- Stanford CoreNLP: a suite of core NLP tools
- Also checkout http://corenlp.run for a hosted version of the CoreNLP server.
- Introduction to StanfordNLP: An Incredible State-of-the-Art NLP Library for 53 Languages (with Python code)
- Stanford Parser: A probabilistic natural language parser.
- Stanford POS Tagger: A Parts-of-Speech tagger.
- Stanford Named Entity Recognizer: Recognizes proper nouns (things, places, organizations) and labels them as such.
- Stanford Classifier: A softmax classifier.
- Stanford OpenIE: Extracts relationships between words in a sentence (eg Mark Zuckerberg; founded; Facebook).
- Stanford Topic Modeling Toolbox
- MALLET: MAchine Learning for LanguagE Toolkit
- Github: https://github.com/mimno/Mallet
- Apache OpenNLP: Machine learning based toolkit for text NLP.
- Streamcrab: Real-Time, Twitter sentiment analyzer engine http:/www.streamcrab.com
- TextRazor API: Extract Meaning from your Text.
- fastText. Library for fast text representation and classification. Facebook。
- Comparison of Top 6 Python NLP Libraries.
- pyCaret's NLP Module. PyCaret is an open source, low-code machine learning library in Python that aims to reduce the cycle time from hypothesis to insights; also, PyCaret's Founder Moez Ali is a Smith Alumni - MMA 2020.
產品
- Systran - Enterprise Translation Products
- SAS Text Miner (Part of SAS Enterprise Miner)
- SAS Sentiment Analysis
- STATISTICA
- Text Mining (Big Data, Unstructured Data)
- KNIME
- RapidMiner
- 門
- IBM Watson
- Video: How IBM Watson learns (3 minutes)
- Video: IBM Watson on Jeapardy! (10 minutes)
- Video: IBM Watson: The Science Behind an Answer (7 minutes)
- Crimson Hexagon
- Stocktwits: Tap into the Pulse of Markets
- Meltwater
- CrowdFlower: AI for your business.
- Lexalytics Sematria: API and Excel plugin.
- Rosette Text Analytics: AI for Human Language
- Alchemy API
- Monkey Learn
- LightTag Annotation Tool. Hosted annotation tool for teams.
- UBIAI. Easy-to-use text annotation tool for teams with most comprehensive auto-annotation features. Supports NER, relations and document classification as well as OCR annotation for invoice labeling
- Anafora: Free and open source web-based raw text annotation tool
- brat: Rapid annotation tool.
- Google's Colab: Ready-to-go Notebook environment that makes it easy to get up and running.
- Lyrebird.ai: “Ultra-Realistic Voice Cloning and Text-to-Speech” recognition platform. This Canadian start-up has created a product/platform that syncs both voice cloning with text-to-speech. Lyrebird recognizes the intonations and voice patterns from audio recordings, and overlays text data input to recreate a text-to-speech audio file output from the selected voice pattern audio recording.
- Ask Data by Tableau Software Inc.: In February 2019, Tableau released a new NLP feature service add-on to help assist existing Tableau platform users with retrieving quick and easy data visualizations to drive business intelligence insights. Similar to a search engine user interface, Tableau's Ask Data feature interface applies NLP from user text input to extract key words to find data analytics and business insights quickly on the Tableau Platform.
- Dialogflow Google's Natural Language Platform used to integrate conversational user interfaces into mobile apps, web applications, bots, VRUs, etc.
- Weka Easy-to-use, graphical Machine Learning Workbench including NLP capabilities.
- Annotation Lab - Free End-to-End No-Code platform for text annotation and DL model training/tuning. Out-of-the-box support for Named Entity Recognition, Classification, Relation extraction and Assertion Status Spark NLP models. Unlimited support for users, teams, projects, documents.
雲
- Microsoft Azure Text Analytics
- Amazon Lex: A service for building conversational interfaces into any application using voice and text.
- Amazon Comprehend
- Google Cloud Natural Language
- IBM Watson
- Video: How IBM Watson learns (3 minutes)
- Video: IBM Watson on Jeapardy! (10 minutes)
- Video: IBM Watson: The Science Behind an Answer (7 minutes)
Getting Data out of PDFs
- Apache PDFBox
- Tabula: A tool for liberating data tables locked inside PDF files.
- PDFLayoutTextStripper: Converts a pdf file into a text file while keeping the layout of the original pdf.
- pdftabextract: A set of tools for extracting tables from PDF files helping to do data mining on (OCR-processed) scanned documents.
- SO: How to extract text from a PDF?
- Tools for Extracting Data and Text from PDFs - A Review
- How I used NLP (SpaCy) to screen Data Science Resumes
- PyPDF2: PDF file manipulation (PDF to PDF).
Online Demos and Tools
- MIT OpenNPT for neural machine translation and neural sequence modeling
- Stanford Parser
- Stanford CoreNLP
- word2vec demo
- Another word2vec demo
- sense2vec: Semantic Analysis of the Reddit Hivemind
- RegexPal: Great tool for testing out regular expressions.
- AllenNLP Demo: Great demo using AllenNLP of everything from Named Entity Recognition to Textual Entailment.
- Cognitive Computation Group - Part of Speech Tagging Demo These demos exhibit part-of-speech tagging, information extraction tasks etc.
數據集
- UCI's Text Datasets. A collection of databases, domain theories, and data generators used by Machine Learning community.
- data.world's Text Datasets
- Awesome Public Datasets' Natural Languge
- Insight Resources Datasets
- Bing Sentiment Analysis
- Consumer Complaint Database. From the Consumer Financial Protection Bureau.
- Sentiment Labelled Sentences Data Set . Contains sentences labelled as "positive" or "negative", from imdb.com, amazon.com, and yelp.com.
- Amazon product data
- Data is Plural
- FiveThirtyEight's datasets
- r/datasets
- Awesome public datasets
- R's
datasets package - 200,000 Russian Troll Tweets - Released by Congress from Twitter suspended accounts and removed from public view.
- Wikipedia: List of datasets for ML research
- Google Dataset Search
- Kaggle: UMICH SI650 - Sentiment Classification
- Lee's Similarity Data Sets
- Corpus of Presidential Speeches (CoPS) and a Clinton/Trump Corpus
- 15 Best Chatbot Datasets for Machine Learning
- A Survey of Available Corpora for Building Data-Driven Dialogue Systems
- nlp-datasets
- Hate-speech-and-offensive-language
- First Quora Dataset Release: Question Pairs
- The Best 25 Datasets for Natural Language Processing
- SWAG: A large-scale dataset created for Natural Language Inference (NLI) with common-sense reasoning.
- MIMIC: an openly available dataset developed by the MIT Lab for Computational Physiology, comprising deidentified health data associated with ~40,000 critical care patients.
- Clinical NLP Dataset Repository: A curated list of publicly-available clinical datasets for use in NLP research.
- Million Song Lyrics
- The Multi-Genre NLI Corpus
- Twitter US Airline Sentiment
- Million Song Lyrics: Dataset of song lyrics in Bag-Of-Words (BOW) format.
- DuoRC – 186K unique question-answer pairs with evaluation script for Paraphrased Reading Comprehension
- EDGAR Financial Statements: Reporting engine for financial and regulatory filings for companies worldwide. A huge repository of financial and company data for text mining.
- American National Corpus Download
- Santa Barbara Corpus of Spoken American English
- Leipzig Corpora Collection: Corpora in English, Arabic, French, Russian, German
- Awesome Twitter
- The Big Bad NLP Database
- CBC News Coronavirus articles
- Huggingface
Lexicons for Sentiment Analysis
- MPQA Lexicon
- SentiWordNet
- 阿菲
- bing
- nrc
- vaderSentiment
雜項
- AskReddit: People with a mother tongue that isn't English, what are the most annoying things about the English language when you are trying to learn it?
- Funny Video: Emotional Spell Check
- How to win Kaggle competition based on NLP task, if you are not an NLP expert
- Detecting Gang-Involved Escalation on Social Media Using Context Detecting Aggression and Loss in social media using CNN
- Reasoning about Actions and State Changes by Injecting Commonsense Knowledge Incorporating global, commonsense constraints & biasing reading with preferences from large-scale corp
- The Language of Hip Hop: A 2017 analysis by Matt Daniels of Pudding determining the popularity of various words in hip hop music and across artists.
- Using Natural Language Processing for Automatic Detection of Plagiarism
- Probabilistic Graphical Models: Lagrangian Relaxation Algorithms for Natural Language Processing
- Human Emotion How to determine confidence level for manually labeled sentiment data?
- A Complete Exploratory Data Analysis and Visualization for Text Data
Other Curated Lists
- awesome-nlp: A curated list of resources dedicated to Natural Language Processing (NLP)
- awesome-machine-learning
- Awesome Deep Learning for Natural Language Processing (NLP)
- Paper with Code: A fantastic list of recent machine learning papers on ArXiv, with links to code.
- Chinese NLP Tools. 2019. List of tools for NLP in Chinese Language.
- Association for Computational Linguistics Papers Anthology: The ACL Anthology currently hosts almost 50,000 papers on the study of computational linguistics and natural language processing. Includes all papers from recent conferences.
- Over 150 of the Best Machine Learning, NLP, and Python Tutorials I've Found
貢獻
Contributions are more than welcome! Please read the contribution guidelines first.
執照
To the extent possible under law, @stepthom has waived all copyright and related or neighboring rights to this work.