MLSearchEngine下載MLSearchEngine源代碼下載

下載

基於ML的搜索引擎

搜索是一項艱鉅的任務，因為要執行這麼多時間。如果我們有一個大數據集，那麼如果我們進行一對一搜索，則將需要大量的用戶時間。

Alt text

我們從kaggle鏈接中獲得了堆棧溢出數據集：https：//www.kaggle.com/c/facebook-recruiting-iii-keyword-word-ectraction/data

所以現在我們有一個任務：

SEARCHENGINE_DATA.IPYNB：在此筆記本中，我們獲取數據並刪除重複項。然後，我們繼續選擇我們想要的標籤。我們使用多處理來這樣做，因為使用4個核心增加了速度，並在1小時內完成了2.5小時的工作。我們將新的處理數據框保存在SQLite數據庫中。
Preprocessing.ipynb：在此筆記本中，我們正在預處理標題中的數據，即我們的問題。我們正在從中刪除任何HTML標籤和空格以及其他垃圾或停車字。
SEARCHENGINE_DATA.IPYNB：在此筆記本中，我們正在創建系統以訪問查詢，即構建預測系統的開始步驟。我們首先對整個數據進行了矢量，並使用了查詢和數據庫之間的成對距離，但結果並未達到標記。 TFIDF的表現要比弓好。
分類 - machinelearning.ipynb：與第三步一樣，我們無法獲得良好的結果，因此我們要做的就是使用一些經典的機器學習。因此，我所做的是使用這些數據來製作機器學習模型。標題是一個字符串值，因此我們使用TFIDFECTORIZER ASS TFIDF在第三步中表現要好於Bow。下一步我們將模型分為火車，簡歷，測試。由於我們有一個稀疏的向量，因此我們有2個選擇LR或SVM。我們在Umigram和Bigram上都表演了，但是在Bigram上，它過於合適。然後，我們終於將LR與Unigram一起使用，因為其性能更好。

然後在預測查詢的編程語言後，然後在查詢中添加。因為大多在stackoverflow上搜索某些東西時，我們通常會在問題上添加標籤。

然後，我們重複了第三步中所做的步驟，結果要好得多。