Descargar CarReviewsSearchEngine - Código fuente CarReviewsSearchEngine Descargar

CarReviewsSearchEngine

Otro código fuente

1.0.0

Descargar

Proyecto para mi examen de gestión de información AY 2023/2024

Abstracto

Comprar un automóvil nuevo puede ser complicado y complicado debido a la gran cantidad de fabricantes de automóviles y modelos, cada uno con sus propios pros, contras y características especiales. Este motor de búsqueda tiene como objetivo ayudar a las personas a filtrar las revisiones para los modelos de automóviles, lo que sugiere los más interesantes y relevantes para ellos primero.

Contenido de módulos

DataSet_Generator.py

Crea aproximadamente 300,000 archivos de un archivo .csv especificado dado como el primer argumento y los almacena en un directorio especificado como el segundo argumento. Cada archivo corresponde a una línea en el archivo .csv , con cada argumento separado por una nueva línea. Esto forma el conjunto de datos base para la creación del índice invertido.

concurrent_generator.py

Una versión paralela del script dataset_generator.py que crea simultáneamente el conjunto de datos, reduciendo el tiempo en aproximadamente un 33%. Esta conclusión se basa en varias pruebas realizadas en diferentes PC.

index_generator.py

Este script crea el índice invertido de los archivos generados con dataset_generator.py , tomando el directorio de los archivos como el primer argumento. El índice invertido se guarda en el directorio actual.

Definición del esquema del índice:

file : nombre de archivo de una revisión
maker : fabricante de automóviles del automóvil revisado
model : Modelo de automóvil del auto revisado
year : Año del auto revisado
author : Autor de la revisión
date : Fecha de la revisión
title : Título de la revisión
rating : calificación de la revisión
content : revisión real

Query.py

Un script que funciona en el directorio del índice (debe estar en el directorio de trabajo) y permite solicitar consultas en el índice invertido.

Principales funciones de búsqueda y sintaxis:

Búsqueda de texto completo: word1 word2
Búsqueda frasal: "word1 word2"
Búsqueda de comodín: word*
Búsqueda de rango: [word1 TO word2]
Búsqueda de proximidad: "word1 word2"~N
Búsqueda booleana: word1 AND/OR/NOT word2
Búsqueda difusa: word~
Dígito 0 para salir

Los comodines no funcionan en la consulta con campos especificados (Ex. maker:a* ), porque los campos maker y model se establecen como ID en la definición de esquema para evitar el preprocesamiento de ellos, ya que empeora los resultados de la consulta.

custom_model.py

Módulo que contiene las clases y métodos para la puntuación personalizada de los diversos modelos.

Modelos actuales:

Modelo de texto completo: utiliza la puntuación BM25F con una ligera melodía a las variables libres B y K1 . Modelo utilizado para consultar: valores sintonizados BM25F: B=0.5, K1=1.5 .
Modelo de sentimiento: utiliza el sentimiento de la revisión para influir en la puntuación. Ha sido diseñado para funcionar tanto para BM25F como TF_IDF . Tiene 2 tipos diferentes de puntuación:
- Puntuación con valor de sentimiento: utiliza solo el valor del sentimiento de la revisión para influir en la puntuación final con la fórmula: final_score = score * sentiment_value .
- Calificación con valor de sentimiento y clasificación: utiliza el valor del sentimiento y la calificación de la revisión para arreglar la puntuación, evitando cualquier posible discordancia con la calificación y el valor del sentimiento. Utiliza una serie de fórmulas basadas en el tipo de sentimiento (consulte el comentario del código para más):
  - Sentimiento positivo: final_score = score * sentiment_value * rating/5 .
  - Sentimiento negativo: final_score = score * sentiment_value * 1.2 - rating/5 .
  - Sentimiento neutral: if rating > 3: final_score = score * sentiment_value * 0.4 - rating/5 o if rating < 3: final_score = score * sentiment_value * 0.4 + rating/5 .
Modelo de Word2Vec: el modelo se ha capacitado a medida en nuestro conjunto de datos utilizando la arquitectura CBOW (Bolsa de palabras continua). Para cada palabra en un documento, calcula un vector y luego calcula la media vector de un documento. La media se almacena en un archivo .json que utiliza la clase de modelo personalizado que calcula la similitud de coseno entre cada documento y el vector de consulta preprocesada. Luego utilice la siguiente fórmula para obtener el puntaje final: final_score = score * cosine_similarity .

Archivos útiles:

Conjunto de datos: conjunto de datos Kaggle
Índice invertido completo: enlace a agregar más tarde
Modelo de sentimiento previamente capacitado: página de Facefactor
Versión de demostración en el índice invertido (~ 20,000 revisiones): Demo del índice invertido
Word2Vec Modelo entrenado por nosotros: Modelo Word2Vec
Word2Vec Vectores de todo el conjunto de datos: Word2Vec Vectores

Cómo usar:

Creación del conjunto de datos: puede crear el índice a partir del conjunto de datos descargándolo desde el enlace anterior y pegándolo en el directorio del proyecto. Ejecute dataset_generator.py de la siguiente manera: python3 -s dataset_generator.py review.csv <output_directory> .
Creación del índice invertido: una vez que haya creado el conjunto de datos, puede ejecutar index_generator.py para crear el índice invertido. Use el siguiente comando: python3 -s index_generator.py <dataset_directory> Sugiero probar la demostración del índice antes de crear el completo, ya que este script calcula el sentimiento de cada archivo durante la generación de índice, y dependiendo de las especificaciones de su PC, esto podría tomar un tiempo (me tomó ~ 8 horas para la primera versión de la completa y ~ 20 min para el Demo uno).
Consulta el índice: después de haber descargado o creado el índice, ahora puede descargar el modelo Word2Vec y los vectores Word2Vec en el directorio de trabajo. Luego, simplemente ejecute query.py de la siguiente manera: python3 -s query.py <index_directory_path> .