信息回程
關鍵字
Elasticsearch,MongoDB,Tornado Server,Restful API,Python,信息檢索,機器學習,網絡爬網
屏幕截圖
- 搜索網頁

- Elasticsearch結果

- 搜索接口

- 搜索結果

介紹
我的課程“信息檢索”的作業,Python 3。
- 講師:Virgil Pavlu
- 大學:東北大學
- 課程:CS6200
- Elasticsearch索引
- 索引超過80000個文檔到Elasticsearch
- 優化指數速度至15分鐘左右
- 文檔索引
- 製作我自己的“ Elasticsearch”
- DOC維度和期限維度的索引數據
- 兩種維度指數提高了指數效率。
- 網絡爬網
- 主題:海事事故
- 廣度優先搜索以迭代所有頁面。
- 主題模塊應用程序準確檢查頁面的相關性
- 總共36000頁,超過50%與主題“海上事故”有關
- 在下載之前,通過標頭內容類型區分想要的頁面。
- 應用網絡會話以恢復cookie的快速和低點重新訪問。
- 根據上次訪問時間對域進行排序,以便多線程可以訪問不同的域以加快爬行的速度
- 以良好的方法歸一化HREF鏈接,以降低頁面下降率
- Web圖計算
- 應用Pagerank和hitts以評估整個頁面集中的頁面
- 將頁面的內在鏈接視為指示網絡圖
- Web圖計算是一種想法“奶油升至頂部”的想法:
- 良好的權威頁面可以越來越多地引用
- 良好的集線器頁面挖掘越來越好的授權頁面。
- Web界面相關性評估
- 應用的龍捲風服務器作為Web服務器,可以遠程訪問該服務器
- 服務器與Elasticsearch數據庫進行通信以搜索和提取數據
- MongoDB還原頁面信息以加快Web服務器
- 使基於Python的HTML模板自動創建搜索結果頁面並靈活性。
- 設置登錄許可證以過濾用戶
- 應用應用程序層信息以在頁面之間傳輸參數。
- 進行手動評估後,應用查詢計算R-Precision,平均精度,NDCG,Precision和Recemiss和F1以及F1評估來自頁面集的搜索結果。
- Drew Precision&Recell Graphics,用於搜索結果分佈與頁面相關的真實值之間可視化的合作。
- IR的機器學習
- 有了更好地了解Elasticsearch,重新索引數據集,該數據集將新的分析器設置為標準令牌,小寫和Porter2 stemmer。
- 將嵌套映射設置為還原功能詳細信息
- 通過不同的Elasticsearch類型區分文檔
- 對於帶有標記數據的數據集,將其分為80%以進行培訓,20%用於測試
- 嘗試了不同的功能組合以提高機器學習模塊的性能
- 應用不同的機器學習模塊,包括:襯裡回歸,LogisticRegress,SVM,SVM等級