搜索是一项艰巨的任务,因为要执行这么多时间。如果我们有一个大数据集,那么如果我们进行一对一搜索,则将需要大量的用户时间。

我们从kaggle链接中获得了堆栈溢出数据集:https://www.kaggle.com/c/facebook-recruiting-iii-keyword-word-ectraction/data
所以现在我们有一个任务:
SEARCHENGINE_DATA.IPYNB:在此笔记本中,我们获取数据并删除重复项。然后,我们继续选择我们想要的标签。我们使用多处理来这样做,因为使用4个核心增加了速度,并在1小时内完成了2.5小时的工作。我们将新的处理数据框保存在SQLite数据库中。
Preprocessing.ipynb:在此笔记本中,我们正在预处理标题中的数据,即我们的问题。我们正在从中删除任何HTML标签和空格以及其他垃圾或停车字。
SEARCHENGINE_DATA.IPYNB:在此笔记本中,我们正在创建系统以访问查询,即构建预测系统的开始步骤。我们首先对整个数据进行了矢量,并使用了查询和数据库之间的成对距离,但结果并未达到标记。 TFIDF的表现要比弓好。
分类 - machinelearning.ipynb:与第三步一样,我们无法获得良好的结果,因此我们要做的就是使用一些经典的机器学习。因此,我所做的是使用这些数据来制作机器学习模型。标题是一个字符串值,因此我们使用TFIDFECTORIZER ASS TFIDF在第三步中表现要好于Bow。下一步我们将模型分为火车,简历,测试。由于我们有一个稀疏的向量,因此我们有2个选择LR或SVM。我们在Umigram和Bigram上都表演了,但是在Bigram上,它过于合适。然后,我们终于将LR与Unigram一起使用,因为其性能更好。
然后在预测查询的编程语言后,然后在查询中添加。因为大多在stackoverflow上搜索某些东西时,我们通常会在问题上添加标签。
然后,我们重复了第三步中所做的步骤,结果要好得多。