amazon product recommendation system web application using mongodb pyspark and apache kafka Descarga - amazon product recommendation system web application using mongodb pyspark and apache kafka Sourc

amazon product recommendation system web application using mongodb pyspark and apache kafka

Datos del sitio web

1.0.0

Descargar

Amazon.com Sistema de recomendación de productos Aplicación web (Flask) utilizando MongoDB, Pyspark y Apache Kafka:

Este repositorio se basa en el trabajo del análisis de datos exploratorios (EDA) en los datos de revisión de Amazon (2018) utilizando MongoDB y Pyspark e incluye una aplicación web que está conectada a un sistema de recomendación de producto desarrollado con los datos completos de Data Data Data (2018), que consiste en casi 233.1 millones de registros y ocupan aproximadamente 128 Gigabytes (GB) de almacenamiento de datos, utilizando MongaDB, y APYSPARK y Ocuping y Ocuping Ocuping y APYSPAYB y APYSPARE, USO MONGODB, y APYSPARE Y APYSPARE Y APYSPAR Kafka, como parte del proyecto final para el curso fundamental del Análisis de Big Data (DS2004).

Dependencias:

Notebook Jupyter (instalación)
Pyspark (instalar)
MongoDB Community Edition (instalación)
Apache Kafka (instalación)
Pymongo (instalar)
Kafka-Python (instalación)
Matplotlib (instalar)
Seaborn (instalar)
Frasco (instalar)

Introducción:

Los sistemas de recomendación de productos son tipos de software que utilizan análisis de análisis de datos y técnicas de aprendizaje automático para sugerir productos a los clientes en función de sus intereses, compras pasadas e historial de navegación. Estos sistemas se pueden encontrar en sitios web de comercio electrónico, como Amazon.com, y están diseñados para proporcionar recomendaciones personalizadas a los usuarios en tiempo real. Los sistemas de recomendación funcionan analizando grandes cantidades de datos, como el comportamiento del usuario, los atributos del producto y el historial de transacciones. Según estos datos, el sistema genera recomendaciones que son relevantes para los intereses y preferencias del usuario. Por ejemplo, si un usuario ha comprado previamente un libro sobre un tema específico, el sistema de recomendación puede sugerir otros libros sobre el mismo tema o temas relacionados.

El conjunto de datos de Amazon Review Data (2018) se puede utilizar para capacitar a un sistema de recomendación de productos que ofrece sugerencias de productos personalizadas a los usuarios en función de su historial de compras, así como los niveles de satisfacción de otros usuarios que han revisado y calificado de productos en la plataforma. Sin embargo, dado que el conjunto de datos es vasto, es crucial analizar y seleccionar cuidadosamente las características relevantes que contribuirán efectivamente al sistema de recomendación del producto, a fin de evitar el sobreajuste y el maletjo del modelo de aprendizaje automático.

¿Cuál es nuestro enfoque?

Similar a nuestro enfoque en la realización de datos de datos exploratorios (EDA) en los datos de datos de Amazon Review (2018) Data Amazon Review Data (2018) Análisis.IPYNB, 1-38) , empleamos un método estadístico inferencial para capacitar nuestro modelo de recomendación de productos. La razón para usar una muestra para hacer inferencias sobre toda la población es minimizar la carga computacional asociada con el procesamiento del conjunto de datos completo, que a menudo no es práctico para una sola máquina. Si bien el aprendizaje profundo generalmente requiere grandes cantidades de datos, el aprendizaje automático se puede utilizar de manera efectiva para desarrollar metodologías de capacitación sólidas incluso con pequeños conjuntos de datos. Esto es particularmente útil para la investigación basada en hipótesis, que es nuestro objetivo principal con el sistema de recomendación de productos. (Vabalas et al., 2019) En cualquier caso, es importante tener en cuenta que cualquier conjunto de datos es esencialmente un subconjunto de una población más grande.

Para garantizar la precisión de nuestros resultados, es crucial analizar y mitigar cuidadosamente los sesgos potenciales en los datos. Esto es particularmente importante en el aprendizaje automático, que es sensible a los sesgos que pueden dar como resultado estimaciones de rendimiento sesgadas. Para abordar este problema, aplicaremos el enfoque de muestreo aleatorio estratificado que discutimos anteriormente para extraer una muestra representativa de 10,000,000 de registros de la población mientras mantenemos la misma distribución del producto que en el conjunto de datos original. (compress.py, 1-61) Dado que el tamaño de la muestra es bastante grande, lo hemos comprimido en un formato de archivo de parquet Apache, que reduce el tamaño del conjunto de datos en más del 90%.

¿Cuál es el algoritmo alterno de mínimos cuadrados (ALS)?

Mínimos cuadrados alternativos (ALS) es un algoritmo de filtrado colaborativo utilizado para desarrollar sistemas de recomendación de productos. El algoritmo tiene como objetivo aprender los factores latentes o ocultos que influyen en las interacciones de ítems de usuario, descomponiendo la matriz de calificación de ítems de usuario en dos matrices de bajo rango que representan el usuario y los factores latentes de elementos.

Mínimos cuadrados alternativos (ALS) funciona de forma iterativa, alternando entre fijar un conjunto de factores latentes y resolver el otro utilizando un algoritmo de optimización de mínimos cuadrados. En particular, en cada iteración, el algoritmo corrige los factores latentes del elemento y resuelve los factores latentes del usuario utilizando la optimización de mínimos cuadrados, y luego corrige los factores latentes del usuario y resuelve los factores latentes del elemento utilizando la optimización de mínimos cuadrados.

¿Por qué el algoritmo alterno de mínimos cuadrados (ALS)?

Mínimos cuadrados alternativos (ALS) tiene varias ventajas para los sistemas de recomendación de productos. Es escalable y computacionalmente eficiente, particularmente para conjuntos de datos grandes y escasos. Puede manejar datos de retroalimentación implícitos, donde solo se sabe que las interacciones de ítems de usuario existen o no existen, y no sus calificaciones específicas. También puede manejar datos faltantes, donde no todos los usuarios han calificado todos los elementos. Además, los mínimos cuadrados alternativos (ALS) pueden proporcionar recomendaciones de artículos en tiempo real, lo que lo hace adecuado para sistemas de recomendación en línea.

Uso:

Product Recommendation Model.ipynb : contiene la implementación (MLLIB) del sistema de recomendación de productos capacitado y probado en el conjunto de datos de datos de revisión de Amazon (2018).
srcdata.py : código fuente para almacenar el conjunto de datos del archivo de notación del objeto JavaScript (JSON) en una base de datos MongoDB como una colección.
srccompress.py : código fuente para extraer una muestra aleatoria estratificada de un tamaño de muestra especificado del conjunto de datos almacenado en la base de datos MongoDB como una colección y almacenarla como un archivo de parquet Apache.
srcvalidate.py : código fuente para validar la precisión y la funcionalidad del sistema de recomendación de productos capacitado utilizando un ejemplo práctico.
modelproduct_recommendation_model : directorio que contiene el modelo de aprendizaje automático capacitado para el sistema de recomendación de productos.
appapplication.py - Fuente de la aplicación web (Flask) asociada con el sistema de recomendación de productos a través de un clúster Apache Kafka.
apprecommendation.py : código fuente para el clúster Apache Kafka conectado al modelo de aprendizaje automático capacitado para el sistema de recomendación de productos que permite la generación de recomendaciones de productos.
templates : contiene los códigos de origen para las páginas web ( login.html , dashboard.html , review.html , loading.html y recommendation.html ) representada por la aplicación web (frasco).
static : contiene todos los iconos y elementos visuales utilizados por la aplicación web (frasco).
.hintrc : archivo de configuración para personalizar el comportamiento de Eslint especificando configuraciones y reglas específicas.

Instrucciones (Ejecución):

Descargue el archivo All_Amazon_Review.json.gz del sitio web de la recopilación de datos de revisión de Amazon (2018).
Ejecute srcdata.py para guardar el conjunto de datos del archivo JavaScript Object Notation (JSON) en una base de datos MongoDB como una colección (asegúrese de que MongoDB ya esté configurado).
Una vez que se almacenan los datos, ejecute srccompress.py para extraer una muestra aleatoria estratificada de un tamaño especificado del conjunto de datos almacenado en MongoDB y guarde la muestra como un archivo de Parquet Apache.
Ejecute el Product Recommendation Model.ipynb (1-16) para transformar la colección y almacenarlo en MongoDB para un acceso permanente (no tiene que ejecutar el archivo completo).
Abra una instancia de terminal y ejecute apprecommendation.py en el lado (asegúrese de que un clúster Apache Kafka se haya establecido correctamente y esté operativo, con dos temas nombrados credenciales y recomendaciones ).
Abra una instancia de terminal separada para ejecutar appapplication.py y abra el enlace proporcionado al puerto de host.
Ingrese un nombre de usuario válido que corresponda a cualquier valor revisor de la colección transformada en la base de datos MongoDB (la contraseña no importa).
En la página /dashboard , haga clic en el botón Revisión y envíe cualquier contenido.
Después de enviar, habrá una espera de cinco minutos en la página /loading mientras se generan las recomendaciones del producto.
Una vez que termine la espera, será redirigido a la página /recommendation para ver las recomendaciones de productos generadas.

Nota:

Los archivos del código fuente se escribieron específicamente para MacOS Ventura y pueden necesitar modificaciones para garantizar la ejecución adecuada de otros sistemas operativos.

Colaboradores:

Este proyecto existe gracias a las personas extraordinarias que contribuyeron a él.

Wajeeh ul Hassan ([email protected])
Mohammad Abubakar Siddiq ([email protected])

Referencias:

Ni, J., Li, J. y McAuley, J. (2019) 'Justificación de recomendaciones utilizando revisiones marcadas de forma distante y aspectos de grano fino', métodos empíricos en el procesamiento del lenguaje natural (EMNLP) [preimpresión]. Disponible en: https://cseweb.ucsd.edu//~jmcauley/pdfs/emnlp19a.pdf (consultado: 25 de junio de 2023).
Vabalas, A. et al. (2019) 'Validación del algoritmo de aprendizaje automático con un tamaño de muestra limitado' , PLoS One, 14 (11). doi: 10.1371/journal.pone.0224365.
Filtrado colaborativo (sin fecha) Google . Disponible en: https://developers.google.com/machine-letarning/recommendation/collaborative/basics (consultado: 11 de mayo de 2023).

Expandir

Información adicional

Versión 1.0.0
Tipo Datos del sitio web
Fecha de actualización 2025-06-29
tamaño 93.18MB
Proviene de Github

Aplicaciones relacionadas

amazon ssm agent

2024-11-03
Sistema de Riesgos

2022-09-04
Sistema de entretenimiento del proyecto

2022-08-05
Versión de instalación del sistema Shengxun 1.1

2022-07-04
Código fuente del sistema Shengxun 1.1

2022-06-29
Sistema de archivos FPS88

2010-10-23

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Twitter Sentiment Analysis on Flask App

Datos del sitio web

1.0.0
data science app road accident analysis

Datos del sitio web

1.0.0
static web apps cli

Datos del sitio web

v2.0.2
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo