MLSearchEngine下载MLSearchEngine源代码下载

MLSearchEngine

其他源码

1.0.0

下载

基于ML的搜索引擎

搜索是一项艰巨的任务，因为要执行这么多时间。如果我们有一个大数据集，那么如果我们进行一对一搜索，则将需要大量的用户时间。

在职的：

Alt text

数据集：

我们从kaggle链接中获得了堆栈溢出数据集：https：//www.kaggle.com/c/facebook-recruiting-iii-keyword-word-ectraction/data

所以现在我们有一个任务：

用户将输入与代码相关的查询。
我们必须处理查询。
返回结果与我们的查询匹配。

限制：

我有8GB RAM，数据集为7GB，因此很难使用它。因此，我们正在使用SQLite处理信息。
我们必须减少数据，因此我只采取与C＃，C ++，C，Java和iOS相关的问题

工作流：

SEARCHENGINE_DATA.IPYNB：在此笔记本中，我们获取数据并删除重复项。然后，我们继续选择我们想要的标签。我们使用多处理来这样做，因为使用4个核心增加了速度，并在1小时内完成了2.5小时的工作。我们将新的处理数据框保存在SQLite数据库中。
Preprocessing.ipynb：在此笔记本中，我们正在预处理标题中的数据，即我们的问题。我们正在从中删除任何HTML标签和空格以及其他垃圾或停车字。
SEARCHENGINE_DATA.IPYNB：在此笔记本中，我们正在创建系统以访问查询，即构建预测系统的开始步骤。我们首先对整个数据进行了矢量，并使用了查询和数据库之间的成对距离，但结果并未达到标记。 TFIDF的表现要比弓好。
分类 - machinelearning.ipynb：与第三步一样，我们无法获得良好的结果，因此我们要做的就是使用一些经典的机器学习。因此，我所做的是使用这些数据来制作机器学习模型。标题是一个字符串值，因此我们使用TFIDFECTORIZER ASS TFIDF在第三步中表现要好于Bow。下一步我们将模型分为火车，简历，测试。由于我们有一个稀疏的向量，因此我们有2个选择LR或SVM。我们在Umigram和Bigram上都表演了，但是在Bigram上，它过于合适。然后，我们终于将LR与Unigram一起使用，因为其性能更好。

然后在预测查询的编程语言后，然后在查询中添加。因为大多在stackoverflow上搜索某些东西时，我们通常会在问题上添加标签。

然后，我们重复了第三步中所做的步骤，结果要好得多。

未来：

我们可以使用W2V和TFIDF加权W2V。由于我受到资源的限制，因此无法做到。
制作烧瓶API以使其可以呈现。由于我们也有一些问题，并且我们正在从搜索中返回索引，我们可以使用该索引以出现的方式展示它们。

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-03-13
大小 6.37MB
来自于 Github

MLSearchEngine

基于ML的搜索引擎

在职的：

数据集：

限制：

工作流：

未来：

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express

MLSearchEngine

基于ML的搜索引擎

在职的 ：

数据集：

限制：

工作流：

未来 ：

在职的：

未来：