amazon product recommendation system web application using mongodb pyspark and apache kafka Téléchargement - amazon product recommendation system web application using mongodb pyspark and apache kafka

amazon product recommendation system web application using mongodb pyspark and apache kafka

Données du site Web

1.0.0

Télécharger

Application Web du système de recommandation de produit Amazon.com (FLASK) Utilisation de MongoDB, Pyspark et Apache Kafka:

Ce référentiel s'appuie sur les travaux d' analyse des données exploratoires (EDA) sur Amazon Review Data (2018) à l'aide de MongoDB & Pyspark et comprend une application Web connectée à un système de recommandation de produits développé avec les données complètes de la revue Amazon (2018), composée de près de 233,1 millions d'enregistrements et d'occupation approximative Kafka, dans le cadre du projet final pour le cours fondamental du cours d'analyse de Big Data (DS2004).

Dépendances:

Cahier Jupyter (installation)
Pyspark (installation)
MongoDB Community Edition (Installer)
Apache Kafka (Installer)
Pymongo (installation)
kafka-python (installation)
Matplotlib (installation)
Seaborn (installation)
Flash (installation)

Introduction:

Les systèmes de recommandation de produits sont des types de logiciels qui utilisent l'analyse des données et les techniques d'apprentissage automatique pour suggérer des produits aux clients en fonction de leurs intérêts, de leurs achats passés et de leur historique de navigation. Ces systèmes peuvent être trouvés sur des sites Web de commerce électronique, tels que Amazon.com, et sont conçus pour fournir des recommandations personnalisées aux utilisateurs en temps réel. Les systèmes de recommandation fonctionnent en analysant de grandes quantités de données, telles que le comportement des utilisateurs, les attributs de produits et l'historique des transactions. Sur la base de ces données, le système génère des recommandations pertinentes pour les intérêts et les préférences de l'utilisateur. Par exemple, si un utilisateur a déjà acheté un livre sur un sujet spécifique, le système de recommandation peut suggérer d'autres livres sur le même sujet ou des sujets connexes.

L'ensemble de données Amazon Review (2018) peut être utilisé pour former un système de recommandation de produits qui offre des suggestions de produits personnalisées aux utilisateurs en fonction de leur historique d'achat, ainsi que les niveaux de satisfaction des autres utilisateurs qui ont examiné et évalué les produits sur la plate-forme. Cependant, comme l'ensemble de données est vaste, il est crucial d'analyser soigneusement et de sélectionner les fonctionnalités pertinentes qui contribueront efficacement au système de recommandation de produit, afin d'éviter à la fois le sur-ajustement et le sous-ajustement du modèle d'apprentissage automatique.

Quelle est notre approche?

Semblable à notre approche dans la conduite de l'exploration d'analyse des données (EDA) sur Amazon Review Data (2018) DataSet Amazon Review Data (2018) Analysis.Ipynb, 1-38) , nous avons utilisé une méthode statistique inférentielle pour former notre modèle de recommandation de produit. La justification de l'utilisation d'un échantillon pour faire des inférences sur l'ensemble de la population est de minimiser la charge de calcul associée au traitement de l'ensemble de données complet, ce qui est souvent peu pratique pour une seule machine. Bien que l'apprentissage en profondeur nécessite généralement de grandes quantités de données, l'apprentissage automatique peut être utilisé efficacement pour développer des méthodologies de formation robustes, même avec de petits ensembles de données. Ceci est particulièrement utile pour la recherche axée sur l'hypothèse, qui est notre principal objectif avec le système de recommandation de produit. (Vabalas et al., 2019) Dans tous les cas, il est important de noter que tout ensemble de données est essentiellement un sous-ensemble d'une population plus importante.

Pour assurer la précision de nos résultats, il est crucial d'analyser et d'atténuer soigneusement les biais potentiels dans les données. Ceci est particulièrement important dans l'apprentissage automatique, qui est sensible aux biais qui peuvent entraîner des estimations de performance asymétriques. Pour résoudre ce problème, nous appliquerons l'approche d'échantillonnage aléatoire stratifiée que nous avons discutée plus tôt pour extraire un échantillon représentatif de 10 000 000 enregistrements de la population tout en conservant la même distribution de produit que dans l'ensemble de données d'origine. (Compress.py, 1-61) Étant donné que la taille de l'échantillon est assez grande, nous l'avons compressée dans un format de fichier parquet Apache, ce qui réduit la taille de l'ensemble de données de plus de 90%.

Quel est l'algorithme alternatif des moindres carrés (ALS)?

Les moindres carrés alternatifs (SLA) sont un algorithme de filtrage collaboratif utilisé pour développer des systèmes de recommandation de produits. L'algorithme vise à apprendre les facteurs latents ou cachés qui influencent les interactions utilisateur-item, en décomposant la matrice de notation de l'élément utilisateur en deux matrices de bas rang représentant l'utilisateur et les facteurs latents de l'utilisateur.

Les moindres carrés alternés (SLA) fonctionnent de manière itérative, en alternant entre fixer un ensemble de facteurs latents et la résolution de l'autre en utilisant un algorithme d'optimisation des moindres carrés. En particulier, dans chaque itération, l'algorithme corrige les facteurs latents de l'élément et résout les facteurs latents de l'utilisateur en utilisant l'optimisation des moindres carrés, puis corrige les facteurs latents de l'utilisateur et résout les facteurs latents de l'élément en utilisant l'optimisation des moindres carrés.

Pourquoi l'algorithme alterné des moindres carrés (ALS)?

Les moindres carrés alternatifs (SLA) présentent plusieurs avantages pour les systèmes de recommandation de produits. Il est évolutif et efficace sur le plan informatique, en particulier pour les ensembles de données grands et clairsemés. Il peut gérer les données de rétroaction implicites, où les interactions utilisateur-élément sont connues uniquement pour exister ou non, et non leurs notes spécifiques. Il peut également gérer les données manquantes, où tous les utilisateurs n'ont pas évalué tous les éléments. De plus, l'alternance des moindres carrés (ALS) peut fournir des recommandations d'articles en temps réel, ce qui le rend adapté aux systèmes de recommandation en ligne.

Usage:

Product Recommendation Model.ipynb - Contient la mise en œuvre (MLIB) du système de recommandation de produit formé et testé sur l'ensemble de données Amazon Review Data (2018).
srcdata.py - Code source pour stocker l'ensemble de données à partir du fichier JavaScript Object Notation (JSON) dans une base de données MongoDB en tant que collection.
srccompress.py - Code source pour extraire un échantillon aléatoire stratifié d'une taille d'échantillon spécifiée à partir de l'ensemble de données stocké dans la base de données MongoDB en tant que collection et en le stockant en tant que fichier de parquet Apache.
srcvalidate.py - Code source pour valider la précision et la fonctionnalité du système de recommandation de produit formé à l'aide d'un exemple pratique.
modelproduct_recommendation_model - Répertoire contenant le modèle d'apprentissage automatique formé pour le système de recommandation de produit.
appapplication.py - source pour l'application Web (FLASK) associée au système de recommandation de produit via un cluster Apache Kafka.
apprecommendation.py - Code source pour le cluster Apache Kafka connecté au modèle d'apprentissage automatique formé pour le système de recommandation de produit permettant la génération de recommandations de produits.
templates - Contient les codes source pour les pages Web ( login.html , dashboard.html , review.html , loading.html et recommendation.html ) rendu par l'application Web (FLASK).
static - contient toutes les icônes et éléments visuels utilisés par l'application Web (FLASK).
.hintrc - Fichier de configuration pour personnaliser le comportement d'Eslint en spécifiant des paramètres et des règles spécifiques.

Instructions (exécution):

Téléchargez le fichier All_Amazon_Review.json.gz à partir du site Web de collection Amazon Review Data (2018).
Exécutez srcdata.py pour enregistrer l'ensemble de données à partir du fichier JavaScript Object Notation (JSON) dans une base de données MongoDB en tant que collection (assurez-vous que MongoDB est déjà configuré).
Une fois les données stockées, exécutez srccompress.py pour extraire un échantillon aléatoire stratifié d'une taille spécifiée à partir de l'ensemble de données stocké dans MongoDB et enregistrez l'échantillon en tant que fichier d'Apache Parquet.
Exécutez le fichier Product Recommendation Model.ipynb (1-16) pour transformer la collection et le stocker dans MongoDB pour un accès permanent (vous n'avez pas à exécuter le fichier entier).
Ouvrez une instance de terminal et exécutez apprecommendation.py sur le côté (assurez-vous qu'un cluster Apache Kafka a été établi avec succès et est opérationnel, avec deux sujets nommés des informations d'identification et des recommandations ).
Ouvrez une instance de terminal séparé pour exécuter appapplication.py et ouvrir le lien fourni vers le port hôte.
Entrez un nom d'utilisateur valide qui correspond à n'importe quelle valeur de revuerid à partir de la collection transformée dans la base de données MongoDB (le mot de passe n'a pas d'importance).
Sur la page /dashboard , cliquez sur le bouton Revoir et soumettez tout contenu.
Après la soumission, il y aura une attente de cinq minutes sur la page /loading pendant que les recommandations de produits seront générées.
Une fois l'attente terminée, vous serez redirigé vers la page /recommendation pour afficher les recommandations de produits générés.

Note:

Les fichiers de code source ont été spécifiquement écrits pour MacOS Ventura et peuvent avoir besoin de modifications pour assurer une exécution appropriée sur d'autres systèmes d'exploitation.

Contributeurs:

Ce projet existe grâce aux gens extraordinaires qui y ont contribué.

Wajeeh ul Hassan ([email protected])
Mohammad Abubakar Siddiq ([email protected])

Références:

Ni, J., Li, J. et McAuley, J. (2019) «Justification des recommandations utilisant des revues étiquetées éloignées et des aspects à grains fins», Méthodes empiriques en matière de traitement du langage naturel (EMNLP) [Preprint]. Disponible sur: https://cseweb.ucsd.edu//~jmcauley/pdfs/Emmllp19a.pdf (consulté: 25 juin 2023).
Vabalas, A. et al. (2019) «Validation de l'algorithme d'apprentissage automatique avec une taille d'échantillon limitée» , PLOS ONE, 14 (11). doi: 10.1371 / journal.pone.0224365.
Filtrage collaboratif (pas de date) Google . Disponible sur: https://developers.google.com/machine-learning/recommendation/collaborative/basics (consulté: 11 mai 2023).

Développer

Informations supplémentaires

Version 1.0.0
Type Données du site Web
Date de mise à jour 2025-06-29
taille 93.18MB
Provenant de Github

Applications connexes

amazon ssm agent

2024-11-03
Système de risque

2022-09-04
Système de divertissement de projet

2022-08-05
Version d'installation du système Shengxun 1.1

2022-07-04
Code source du système Shengxun 1.1

2022-06-29
Système de fichiers FPS88

2010-10-23

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Twitter Sentiment Analysis on Flask App

Données du site Web

1.0.0
data science app road accident analysis

Données du site Web

1.0.0
static web apps cli

Données du site Web

v2.0.2
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout