信息回程
关键字
Elasticsearch,MongoDB,Tornado Server,Restful API,Python,信息检索,机器学习,网络爬网
屏幕截图
- 搜索网页

- Elasticsearch结果

- 搜索接口

- 搜索结果

介绍
我的课程“信息检索”的作业,Python 3。
- 讲师:Virgil Pavlu
- 大学:东北大学
- 课程:CS6200
- Elasticsearch索引
- 索引超过80000个文档到Elasticsearch
- 优化指数速度至15分钟左右
- 文档索引
- 制作我自己的“ Elasticsearch”
- DOC维度和期限维度的索引数据
- 两种维度指数提高了指数效率。
- 网络爬网
- 主题:海事事故
- 广度优先搜索以迭代所有页面。
- 主题模块应用程序准确检查页面的相关性
- 总共36000页,超过50%与主题“海上事故”有关
- 在下载之前,通过标头内容类型区分想要的页面。
- 应用网络会话以恢复cookie的快速和低点重新访问。
- 根据上次访问时间对域进行排序,以便多线程可以访问不同的域以加快爬行的速度
- 以良好的方法归一化HREF链接,以降低页面下降率
- Web图计算
- 应用Pagerank和hitts以评估整个页面集中的页面
- 将页面的内在链接视为指示网络图
- Web图计算是一种想法“奶油升至顶部”的想法:
- 良好的权威页面可以越来越多地引用
- 良好的集线器页面挖掘越来越好的授权页面。
- Web界面相关性评估
- 应用的龙卷风服务器作为Web服务器,可以远程访问该服务器
- 服务器与Elasticsearch数据库进行通信以搜索和提取数据
- MongoDB还原页面信息以加快Web服务器
- 使基于Python的HTML模板自动创建搜索结果页面并灵活性。
- 设置登录许可证以过滤用户
- 应用应用程序层信息以在页面之间传输参数。
- 进行手动评估后,应用查询计算R-Precision,平均精度,NDCG,Precision和Recemiss和F1以及F1评估来自页面集的搜索结果。
- Drew Precision&Recell Graphics,用于搜索结果分布与页面相关的真实值之间可视化的合作。
- IR的机器学习
- 有了更好地了解Elasticsearch,重新索引数据集,该数据集将新的分析器设置为标准令牌,小写和Porter2 stemmer。
- 将嵌套映射设置为还原功能详细信息
- 通过不同的Elasticsearch类型区分文档
- 对于带有标记数据的数据集,将其分为80%以进行培训,20%用于测试
- 尝试了不同的功能组合以提高机器学习模块的性能
- 应用不同的机器学习模块,包括:衬里回归,LogisticRegress,SVM,SVM等级