amazon product recommendation system web application using mongodb pyspark and apache kafka Download - amazon product recommendation system web application using mongodb pyspark and apache kafka Sourc

amazon product recommendation system web application using mongodb pyspark and apache kafka

Dados do site

1.0.0

Baixar

Amazon.com Sistema de recomendação de produtos Aplicativo da Web (Flask) usando MongoDB, Pyspark e Apache Kafka:

Este repositório se baseia no trabalho de análise de dados exploratórios (EDA) nos dados da Amazon Review (2018) usando o MongoDB e o Pyspark e inclui um aplicativo da Web conectado a um sistema de recomendação de produto desenvolvido com o conjunto de dados de revisão amazon (2018), consistindo em quase 233,1 milhões de registros e ocupando aproximadamente 128 gig Kafka, como parte do projeto final para o curso Fundamental do Big Data Analytics (DS2004).

Dependências:

Notebook Jupyter (instalação)
Pyspark (instalação)
Edição da comunidade MongoDB (instalação)
Apache Kafka (instalação)
Pymongo (instalação)
kafka-python (instalação)
Matplotlib (instalação)
Seaborn (instalação)
Flask (instalação)

Introdução:

Os sistemas de recomendação de produtos são tipos de software que usam análises de dados e técnicas de aprendizado de máquina para sugerir produtos aos clientes com base em seus interesses, compras passadas e histórico de navegação. Esses sistemas podem ser encontrados em sites de comércio eletrônico, como a Amazon.com, e foram projetados para fornecer recomendações personalizadas aos usuários em tempo real. Os sistemas de recomendação funcionam analisando grandes quantidades de dados, como comportamento do usuário, atributos do produto e histórico de transações. Com base nesses dados, o sistema gera recomendações relevantes para os interesses e preferências do usuário. Por exemplo, se um usuário já comprou um livro sobre um tópico específico, o sistema de recomendação pode sugerir outros livros sobre o mesmo tópico ou tópicos relacionados.

O conjunto de dados da Amazon Review Data (2018) pode ser utilizado para treinar um sistema de recomendação de produtos que oferece sugestões de produtos personalizadas aos usuários com base no histórico de compras, bem como nos níveis de satisfação de outros usuários que revisaram e classificaram produtos na plataforma. No entanto, como o conjunto de dados é vasto, é crucial analisar e selecionar cuidadosamente os recursos relevantes que contribuirão efetivamente para o sistema de recomendação do produto, a fim de evitar ajustes excessivos e subjacentes do modelo de aprendizado de máquina.

Qual é a nossa abordagem?

Semelhante à nossa abordagem na realização de análises de dados exploratórios (EDA) sobre os dados da Amazon Review (2018) DataSet Amazon Review Data (2018) Analysis.ipynb, 1-38) , empregamos um método estatístico inferencial para treinar nosso modelo de recomendação de produtos. A lógica para usar uma amostra para fazer inferências sobre toda a população é minimizar a carga computacional associada ao processamento do conjunto de dados completo, o que geralmente é impraticável para uma única máquina. Embora o aprendizado profundo normalmente exija grandes quantidades de dados, o aprendizado de máquina pode ser efetivamente usado para desenvolver metodologias de treinamento robustas, mesmo com pequenos conjuntos de dados. Isso é particularmente útil para pesquisas orientadas por hipóteses, que é nosso objetivo principal com o sistema de recomendação do produto. (Vabalas et al., 2019) Em qualquer caso, é importante observar que qualquer conjunto de dados é essencialmente um subconjunto de uma população maior.

Para garantir a precisão de nossos resultados, é crucial analisar e mitigar cuidadosamente vieses potenciais nos dados. Isso é particularmente importante no aprendizado de máquina, sensível a vieses que podem resultar em estimativas de desempenho distorcidas. Para resolver esse problema, aplicaremos a abordagem de amostragem aleatória estratificada que discutimos anteriormente para extrair uma amostra representativa de 10.000.000 de registros da população, mantendo a mesma distribuição de produtos que no conjunto de dados original. (Compress.py, 1-61) Como o tamanho da amostra é bastante grande, a comprimimos em um formato de arquivo Apache Parquet, que reduz o tamanho do conjunto de dados em mais de 90%.

Qual é o algoritmo de mínimos quadrados alternados (ALS)?

Os mínimos quadrados alternados (ALS) são um algoritmo de filtragem colaborativo usado para desenvolver sistemas de recomendação de produtos. O algoritmo visa aprender os fatores latentes ou ocultos que influenciam as interações do usuário-ITEM, decompondo a matriz de classificação do usuário em duas matrizes de baixo rank, representando os fatores latentes do usuário e do item.

Os mínimos quadrados alternados (ALS) funcionam iterativamente, alternando entre a fixação de um conjunto de fatores latentes e a solução para o outro usando um algoritmo de otimização de mínimos quadrados. Em particular, em cada iteração, o algoritmo corrige os fatores latentes do item e resolve os fatores latentes do usuário usando otimização de mínimos quadrados e, em seguida, corrige os fatores latentes do usuário e resolve os fatores latentes do item usando a otimização de mínimos quadrados.

Por que o algoritmo de mínimos quadrados alternados (ALS)?

Os mínimos quadrados alternados (ALS) têm várias vantagens para sistemas de recomendação de produtos. É escalável e computacionalmente eficiente, principalmente para conjuntos de dados grandes e esparsos. Ele pode lidar com dados de feedback implícitos, onde as interações do usuário-usuário são conhecidas apenas por existir ou não, e não suas classificações específicas. Também pode lidar com dados ausentes, onde nem todos os usuários classificaram todos os itens. Além disso, os mínimos quadrados alternados (ALS) podem fornecer recomendações de itens em tempo real, tornando-o adequado para sistemas de recomendação on-line.

Uso:

Product Recommendation Model.ipynb - Contém a implementação (MLLIB) do sistema de recomendação de produto treinado e testado no conjunto de dados da Amazon Review Data (2018).
srcdata.py - código -fonte para armazenar o conjunto de dados do arquivo JavaScript Object Notation (JSON) em um banco de dados MongoDB como uma coleção.
srccompress.py - código -fonte para extrair uma amostra aleatória estratificada de um tamanho de amostra especificado do conjunto de dados armazenado no banco de dados MongoDB como uma coleção e armazenando -o como um arquivo Apache Parquet.
srcvalidate.py - código -fonte para validar a precisão e a funcionalidade do sistema de recomendação de produto treinado usando um exemplo prático.
modelproduct_recommendation_model - Diretório que contém o modelo de aprendizado de máquina treinado para o sistema de recomendação do produto.
appapplication.py - Fonte do aplicativo da Web (Flask) associado ao sistema de recomendação do produto através de um cluster Apache Kafka.
apprecommendation.py - Código -fonte do cluster Apache Kafka conectado ao modelo de aprendizado de máquina treinado para o sistema de recomendação do produto, permitindo a geração de recomendações de produtos.
templates - contém os códigos de origem das páginas da web ( login.html , dashboard.html , review.html , loading.html e recommendation.html ) renderizadas pelo aplicativo da web (frasco).
static - contém todos os ícones e elementos visuais utilizados pelo aplicativo da web (Flask).
.hintrc - arquivo de configuração para personalizar o comportamento de Eslint especificando configurações e regras específicas.

Instruções (execução):

Faça o download do arquivo All_Amazon_Review.json.gz no site da coleção Amazon Review Data (2018).
Execute srcdata.py para salvar o conjunto de dados do arquivo JavaScript Object Notation (JSON) em um banco de dados MongoDB como uma coleção (verifique se o MongoDB já está configurado).
Depois que os dados forem armazenados, execute srccompress.py para extrair uma amostra aleatória estratificada de um tamanho especificado do conjunto de dados armazenado no MongoDB e salve a amostra como um arquivo Apache Parquet.
Execute o arquivo Product Recommendation Model.ipynb .
Abra uma instância do terminal e execute apprecommendation.py ao lado (verifique se um cluster Apache Kafka foi estabelecido com sucesso e está operacional, com dois tópicos chamados credenciais e recomendações ).
Abra uma instância de terminal separada para executar appapplication.py e abra o link fornecido para a porta do host.
Digite um nome de usuário válido que corresponda a qualquer valor do revisor da coleção transformada no banco de dados MongoDB (a senha não importa).
Na página /dashboard , clique no botão Revisão e envie qualquer conteúdo.
Após o envio, haverá uma espera de cinco minutos na página /loading enquanto as recomendações do produto forem geradas.
Depois que a espera terminar, você será redirecionado para a página /recommendation para visualizar as recomendações de produto gerado.

Observação:

Os arquivos de código -fonte foram escritos especificamente para MacOS Ventura e podem precisar de modificações para garantir a execução adequada em outros sistemas operacionais.

Colaboradores:

Este projeto existe graças às pessoas extraordinárias que contribuíram para ele.

Wajeeh ul hassan ([email protected])
Mohammad Abubakar Siddiq ([email protected])

Referências:

Ni, J., Li, J. e McAuley, J. (2019) 'Recomendações justificativas usando revisões marcadas com distantes e aspectos de granulação fina', métodos empíricos no processamento de linguagem natural (EMNLP) [pré-impressão]. Disponível em: https://cseweb.ucsd.edu//~jmcauley/pdfs/emnlp19a.pdf (acessado: 25 de junho de 2023).
Vabalas, A. et al. (2019) 'Validação do algoritmo de aprendizado de máquina com um tamanho de amostra limitado' , PLOS ONE, 14 (11). doi: 10.1371/journal.pone.0224365.
Filtragem colaborativa (sem data) Google . Disponível em: https://developers.google.com/machine-learning/recommendation/collaborative/basics (acessado: 11 de maio de 2023).

Expandir

Informações adicionais

Versão 1.0.0
Tipo Dados do site
Data da Última Atualização 2025-06-29
tamanho 93.18MB
Vindo de Github

Aplicativos Relacionados

amazon ssm agent

2024-11-03
Sistema de Risco

2022-09-04
Sistema de entretenimento de projeto

2022-08-05
Versão de instalação do sistema Shengxun 1.1

2022-07-04
Código-fonte do sistema Shengxun 1.1

2022-06-29
Sistema de arquivos FPS88

2010-10-23

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Twitter Sentiment Analysis on Flask App

Dados do site

1.0.0
data science app road accident analysis

Dados do site

1.0.0
static web apps cli

Dados do site

v2.0.2
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos