根據計算機世界雜誌的數據,非結構化的文本數據約佔組織中所有數據的70%-80%。利用公司文本資源的最常見方法是使用搜索引擎使其可以搜索。儘管這本身是向前邁出的一大步,但還可以做更多的事情來從文本中提取進一步的見解。在本教程中,我們將使用眾所周知的統計和現成的機器學習技術來研究文本中的關鍵字和其他功能,從而在此過程中改進內容搜索和發現。最後,我們將這些線程匯集在一起,以構建一個本體和簡單的推薦系統。我們將使用SOLR 7.X作為索引平台和NIPS Papers Dataset,該數據集是1987 - 2017年從1987 - 2017年的神經信息處理系統會議上收集的7000多篇論文,作為我們的語料庫。教程是相當重的代碼且基於Python的,儘管不需要python的知識,但對編程語言的熟悉程度是非常可取的。
請參閱data/readme.md和models/readme.md下載數據集和第三方模型。
另請參閱要求。該代碼是使用Anaconda Python3構建的,該Anaconda Python3已安裝了這些庫中的許多(並非全部)。我唯一無法上班的是Dedupe庫,我必須將其安裝在單獨的Anaconda Python 2安裝上。
最後,筆記本電腦和Web應用程序都使用Solr 7.X作為搜索後端,因此您需要安裝它。要啟動Solr,請導航到Solr Home目錄,然後運行以下命令。可以通過http:// localhost:8983從瀏覽器訪問SOLR控制台。
cd <solr_home>
bin/solr start
該代碼庫由筆記本文件夾下的一組筆記本和WebTool文件夾下的基於燒瓶的Web應用程序組成,該應用程序提供了前端,以展示各種內容工程技術的輸出的應用程序,該應用程序針對包含NIPS論文的搜索索引。
要運行筆記本服務器,請導航到筆記本子目錄,然後運行以下命令。默認情況下,要在瀏覽器上導航以訪問筆記本的默認URL為http:// localhost:8888/。您還可以從控制台上寫入的服務器日誌中找到URL。
cd <project_home>/notebooks
jupyter notebook
要運行Web應用程序,請導航到WebTool子目錄,然後運行以下命令。 Web應用程序將開始在端口5000上收聽。要從瀏覽器到達應用程序,請導航到http:// localhost:5000。
cd <project_home>/webtool
python webtool.py