根据计算机世界杂志的数据,非结构化的文本数据约占组织中所有数据的70%-80%。利用公司文本资源的最常见方法是使用搜索引擎使其可以搜索。尽管这本身是向前迈出的一大步,但还可以做更多的事情来从文本中提取进一步的见解。在本教程中,我们将使用众所周知的统计和现成的机器学习技术来研究文本中的关键字和其他功能,从而在此过程中改进内容搜索和发现。最后,我们将这些线程汇集在一起,以构建一个本体和简单的推荐系统。我们将使用SOLR 7.X作为索引平台和NIPS Papers Dataset,该数据集是1987 - 2017年从1987 - 2017年的神经信息处理系统会议上收集的7000多篇论文,作为我们的语料库。教程是相当重的代码且基于Python的,尽管不需要python的知识,但对编程语言的熟悉程度是非常可取的。
请参阅data/readme.md和models/readme.md下载数据集和第三方模型。
另请参阅要求。该代码是使用Anaconda Python3构建的,该Anaconda Python3已安装了这些库中的许多(并非全部)。我唯一无法上班的是Dedupe库,我必须将其安装在单独的Anaconda Python 2安装上。
最后,笔记本电脑和Web应用程序都使用Solr 7.X作为搜索后端,因此您需要安装它。要启动Solr,请导航到Solr Home目录,然后运行以下命令。可以通过http:// localhost:8983从浏览器访问SOLR控制台。
cd <solr_home>
bin/solr start
该代码库由笔记本文件夹下的一组笔记本和WebTool文件夹下的基于烧瓶的Web应用程序组成,该应用程序提供了前端,以展示各种内容工程技术的输出的应用程序,该应用程序针对包含NIPS论文的搜索索引。
要运行笔记本服务器,请导航到笔记本子目录,然后运行以下命令。默认情况下,要在浏览器上导航以访问笔记本的默认URL为http:// localhost:8888/。您还可以从控制台上写入的服务器日志中找到URL。
cd <project_home>/notebooks
jupyter notebook
要运行Web应用程序,请导航到WebTool子目录,然后运行以下命令。 Web应用程序将开始在端口5000上收听。要从浏览器到达应用程序,请导航到http:// localhost:5000。
cd <project_home>/webtool
python webtool.py