搜索是一項艱鉅的任務,因為要執行這麼多時間。如果我們有一個大數據集,那麼如果我們進行一對一搜索,則將需要大量的用戶時間。

我們從kaggle鏈接中獲得了堆棧溢出數據集:https://www.kaggle.com/c/facebook-recruiting-iii-keyword-word-ectraction/data
所以現在我們有一個任務:
SEARCHENGINE_DATA.IPYNB:在此筆記本中,我們獲取數據並刪除重複項。然後,我們繼續選擇我們想要的標籤。我們使用多處理來這樣做,因為使用4個核心增加了速度,並在1小時內完成了2.5小時的工作。我們將新的處理數據框保存在SQLite數據庫中。
Preprocessing.ipynb:在此筆記本中,我們正在預處理標題中的數據,即我們的問題。我們正在從中刪除任何HTML標籤和空格以及其他垃圾或停車字。
SEARCHENGINE_DATA.IPYNB:在此筆記本中,我們正在創建系統以訪問查詢,即構建預測系統的開始步驟。我們首先對整個數據進行了矢量,並使用了查詢和數據庫之間的成對距離,但結果並未達到標記。 TFIDF的表現要比弓好。
分類 - machinelearning.ipynb:與第三步一樣,我們無法獲得良好的結果,因此我們要做的就是使用一些經典的機器學習。因此,我所做的是使用這些數據來製作機器學習模型。標題是一個字符串值,因此我們使用TFIDFECTORIZER ASS TFIDF在第三步中表現要好於Bow。下一步我們將模型分為火車,簡歷,測試。由於我們有一個稀疏的向量,因此我們有2個選擇LR或SVM。我們在Umigram和Bigram上都表演了,但是在Bigram上,它過於合適。然後,我們終於將LR與Unigram一起使用,因為其性能更好。
然後在預測查詢的編程語言後,然後在查詢中添加。因為大多在stackoverflow上搜索某些東西時,我們通常會在問題上添加標籤。
然後,我們重複了第三步中所做的步驟,結果要好得多。