nlp in practice
1.0.0
使用這些NLP,文本挖掘和機器學習代碼樣本和工具來解決現實世界文本數據問題。
第一列中的鏈接將您帶到帶有源代碼的子文件夾/存儲庫。
| 任務 | 相關文章 | 源類型 | 描述 |
|---|---|---|---|
| 大型短語提取 | Phrase2Vec文章 | Python腳本 | 使用Pyspark提取大量數據的短語。使用這些短語註釋文本或將短語用於其他下游任務。 |
| Jupyter筆記本和Python Web應用程序的Word Cloud | Word_cloud文章 | Python腳本 +筆記本 | 使用Word Counts或TFIDF可視化頂級關鍵字 |
| Gensim Word2Vec(帶有數據集) | Word2Vec文章 | 筆記本 | 如何與Word2Vec正確合作以獲得所需的結果 |
| 用火花讀取文件和單詞計數 | 火花文章 | Python腳本 | 如何使用pyspark和單詞計數示例讀取不同格式的文件 |
| 用TF-IDF和Sklearn提取關鍵字(使用數據集) | TFIDF文章 | 筆記本 | 如何使用TF-IDF和Python的Sklearn從文本中提取有趣的關鍵字 |
| 文本預處理 | 文本預處理文章 | 筆記本 | 一些有關如何執行文本預處理的代碼片段。包括幹噪聲,去除噪聲,竊聽和停止單詞刪除。 |
| TFIDFTRANSFORMER與TFIDFDECTORIZER | tfidftransformer和tfidfvectorizer用法 | 筆記本 | 如何正確使用tfidftransformer和tfidfvectorizer,以及兩者之間的差異以及何時使用的內容。 |
| 使用Gensim訪問預訓練的單詞嵌入 | 預訓練的單詞嵌入式文章 | 筆記本 | 如何使用Gensim訪問預訓練的手套和Word2Vec嵌入,以及如何利用這些嵌入的示例 |
| Python中的文本分類(帶有新聞數據集) | 帶有邏輯回歸文章的文本分類文章 | 筆記本 | 開始進行文本分類。了解如何使用邏輯回歸構建和評估文本分類器進行新聞分類。 |
| CountDectorizer用法示例 | 如何正確使用CountVectorizer?深入的外觀文章 | 筆記本 | 了解如何最大程度地利用CountVectorizer的使用,以使您不僅要計算單詞計數,還可以適當地預處理文本數據,並從文本數據集中提取其他功能。 |
| HashingDectorizer示例 | HashingVectorizer vs。 CountDectorizer文章 | 筆記本 | 了解HashingDectorizer和CountDectorizer之間的差異以及何時使用。 |
| CBOW與Skipgram | Word2Vec:CBOW,Skipgram和Skipgramsi文章的比較 | 筆記本 | 快速比較三個嵌入式體系結構。 |
該存儲庫由Kavita Ganesan維護。在LinkedIn或Twitter上與我聯繫。