Download MLSearchEngine - MLSearchEngine Código -fonte Download

MLSearchEngine

Outro código-fonte

1.0.0

Baixar

Mecanismo de pesquisa baseado em ML

A pesquisa é uma tarefa difícil, pois leva muito tempo para executá -la. Se tivermos um conjunto de dados grande, se fizermos um a um pesquisando, levará muito tempo para o usuário.

Trabalhando :

Alt text

Conjunto de dados:

Temos o conjunto de dados de sobreffeições de pilha da Kaggle Link: https://www.kaggle.com/c/facebook-recruiting-iii-keyword-extraction/data

Então agora temos uma tarefa:

O usuário inserirá uma consulta relacionada ao código.
Temos que processar a consulta.
Retornar os resultados correspondentes à nossa consulta.

Limitação:

Eu tenho 8 GB de RAM e o conjunto de dados é de 7 GB, o uso será difícil. Então, estamos usando o SQLite para processar informações.
Temos que reduzir dados, por isso estou tirando apenas perguntas relacionadas a C#, C ++, C, Java e iOS

Fluxo de trabalho:

SearchEngine_Data.ipynb: Neste notebook, estamos recebendo nossos dados e removendo duplicatas. Em seguida, seguimos para selecionar tags que queremos. Utilizamos multiprocessamento para fazê -lo, pois o uso de 4 núcleos juntos aumentou a velocidade e fazia o trabalho de 2,5 horas em 1 hora. Salvamos o novo DataFrame processado no banco de dados SQLite.
Pré -processamento.ipynb: Neste caderno, estamos pré -processando os dados no título, ou seja, nossas perguntas. Estamos removendo quaisquer tags e espaços HTML e outras palavras de lixo ou parada.
SearchEngine_data.ipynb: Neste caderno, estamos criando um sistema para acessar as consultas, ou seja, a etapa inicial da criação de nosso sistema de previsão. Primeiro, vetorizamos os dados inteiros e usamos a distância em pares entre a consulta e o banco de dados, mas os resultados não foram submetidos às marcas. O TFIDF teve um desempenho melhor que o arco.
ClassificationMachineLearning.ipynb: Como na 3ª etapa, não conseguimos obter bons resultados, então o que faremos é usar algum aprendizado de máquina clássico. Então, o que fiz foi usar esses dados para criar um modelo de aprendizado de máquina. O título é um valores de string, por isso usamos o TFIDFVECTORIZE ASS TFIDF com um desempenho melhor do que o arco na 3ª etapa. Em seguida, dividimos o modelo em trem, cv, teste. Como tínhamos um vetor tão esparso, tivemos 2 opções LR ou SVM. Nós nos apresentamos em Unigram e Bigram, mas em BigRam foi exagerado. Então finalmente usamos o LR com a Unigram, pois seu desempenho foi melhor.

Depois de prever a linguagem de programação da consulta, adicionamos isso em nossa consulta. Porque principalmente quando pesquisamos algo no Stackoverflow, geralmente adicionamos tags à nossa pergunta.

Em seguida, repetimos as etapas que fizemos na 3ª etapa e nossos resultados foram muito melhores.

Futuro :

Podemos usar W2V ponderado W2V e TFIDF. Como eu era limitado com recursos e, portanto, não poderia fazê -lo.
Fazendo uma API de frasco para torná -lo apresentável. Como também temos perguntas e estamos retornando índices da pesquisa, podemos usar esse índice para mostrá -los de maneira apresentável.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-03-13
tamanho 6.37MB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos