Descargar MLSearchEngine - Descargar el código fuente MLSearchEngine

MLSearchEngine

Otro código fuente

1.0.0

Descargar

Motor de búsqueda basado en ML

Buscar es una tarea difícil, ya que lleva tanto tiempo realizarla. Si tenemos un conjunto de datos grande, entonces si hacemos uno a uno buscando, tomará mucho tiempo de usuario.

Laboral :

Alt text

Conjunto de datos:

Tenemos un conjunto de datos de desbordamiento de pila desde el enlace de Kaggle: https://www.kaggle.com/c/facebook-cruiting-iii-keyword-extraction/data

Entonces ahora tenemos una tarea:

El usuario ingresará una consulta relacionada con el código.
Tenemos que procesar la consulta.
Devuelve los resultados que coinciden con nuestra consulta.

Limitación:

Tengo 8 GB de RAM y el conjunto de datos es de 7 GB, así que lo usará será difícil. Entonces estamos utilizando SQLite para procesar información.
Tenemos que reducir los datos, por lo que estoy tomando solo preguntas relacionadas con C#, C ++, C, Java e iOS

Flujo de trabajo:

SearchEngine_data.ipynb: en este cuaderno estamos obteniendo nuestros datos y eliminando duplicados. Luego pasamos a seleccionar etiquetas que queremos. Utilizamos el multiprocesamiento para hacerlo, ya que usar 4 núcleos juntos aumentó la velocidad y funcionó de 2.5 horas en 1 hora. Guardamos el nuevo cuadro de datos procesado en la base de datos SQLite.
Preprocessing.ipynb: En este cuaderno estamos preprocesando los datos en el título, es decir, nuestras preguntas. Estamos eliminando cualquier etiqueta y espacios HTML y otras palabras de basura o parada.
SearchEngine_data.ipynb: en este cuaderno estamos creando un sistema para acceder a las consultas, es decir, el paso inicial de construir nuestro sistema de predicción. Primero vectorizamos los datos completos y utilizamos la distancia por pares entre la consulta y la base de datos, pero los resultados no subieron a las marcas. TFIDF funcionó mejor que el arco.
Clasificación Machinelearning.ipynb: Como en el tercer paso, no pudimos obtener buenos resultados, así que lo que haremos es usar un aprendizaje automático clásico. Entonces, lo que hice es utilizar estos datos para hacer un modelo de aprendizaje automático. El título es un valores de cadena, por lo que utilizamos TFIDFVectorizer Ass TFIDF funcionó mejor que el arco en el tercer paso. El siguiente paso dividimos el modelo en Train, CV, Prueba. Como teníamos un vector tan escaso, teníamos 2 opciones LR o SVM. Actuamos tanto en Unigram como en Bigram, pero en Bigram fue un sobreajuste. Entonces finalmente usamos LR con Unigram ya que su rendimiento fue mejor.

Luego, después de predecir el lenguaje de programación de la consulta, lo agregamos en nuestra consulta. Por lo general, cuando buscamos algo en StackOverflow, a menudo agregamos etiqueta con nuestra pregunta.

Luego repitimos los pasos que hicimos en el tercer paso y nuestros resultados fueron mucho mejores.

Futuro :

Podemos usar W2V y TFIDF W2V ponderado. Como estaba limitado con los recursos y, por lo tanto, no pude hacerlo.
Hacer una API de frasco para hacerlo presentable. Como también tenemos un cuerpo de preguntas y estamos devolviendo índices de la búsqueda, podemos usar ese índice para mostrarlas de manera presentable.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-03-13
tamaño 6.37MB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo