奥利斯特(Olist)是一家巴西的初创公司,主要通过市场运营。它在该国内传播良好。该项目是对综合橄榄数据的详细分析。原始的Olist数据集在2016年至2018年在巴西多个市场上订购了100K订单的信息。它的功能允许从多个维度查看订单:从订单状态,价格,付款和货运绩效到客户位置,产品属性以及最终由客户编写的评论。数据集的模式如下: -

在数据集上进行了多个分析任务,从描述性分析到预测和预测分析。
下面列出和说明了各种分析任务: -
原始数据用于通过连接和操作得出多个数据集。数据操作和组合jupyter笔记本包含逐步的过程和解释。
笔记本初步数据分析包含详细分析。本笔记本可视化并总结原始数据集,以查找趋势,模式或故障。该分析给出了数据集的整体视图。
使用由原始数据集创建的交易数据集,使用频繁的模式算法-FP生长树进行关联规则挖掘。该模型以10%的置信阈值返回频繁的项目集。协会规则挖掘笔记本包含此任务的详细说明。
该分析的目的是在Olist生态系统中找到最受欢迎的产品,受欢迎的产品类别和类别的流行产品。此外,将传递时间和产品特征(例如 - 描述Lenght,照片数量等)与受欢迎程度进行了比较,以找到数据中的相关性。产品分析笔记本包含详细的代码。
对客户提供的评论进行了情感分析。该笔记本包含受监督和无监督的方法进行情感分析,审查情感分析。监督技术使用提供的评级作为情感分析的标签,而无监督的技术词典 - 阿法恩(TextBlob)进行分析。
货运价值是与每个订单相关的运输价值。货运价值预测笔记本包含详细的模型构建步骤,以预测订单的运输价值,鉴于卖方与客户之间的距离,产品的尺寸和权重。此外,该模型还作为Web服务构建和部署。使用Dash Plotly创建WebApp,以查询模型中的货运价值预测。
Web应用程序部署在Heroku上,内置在Dash Plotly中。该应用程序提供了建立在Azureml平台上的货运价值预测模型的前端。 Web应用程序具有以下文件结构。
__ app.py
__ layout.py
__ requirements.txt
__ Procfile
__ Resources
|__ API_key
|__ URL
|__ ship.png
下面的模式是基于Azureml建立的Web服务。
app.py文件包含服务器实例,Layout.py文件包含要渲染的布局。需求.txt文件包含Web应用程序的依赖项
pip freeze > requirements.txt
Procfile用于将应用程序服务器的实例启动到虚拟机上。 pocfile的内容是
web: gunicorn app:server
文件准备好后,将存储库推向Heroku Master
heroku create new_app
git add .
git commit -m "intial push"
git push heroku master
heroku ps:scale web=1
可以通过此链接在Heroku上访问已部署的Web应用程序。 https://olist-freight-app.herokuapp.com/
注意: - 目前不在Azure上的Web服务启动和运行。请在Azure上创建类似的Web服务,然后相应地更改API_KEY和URL文件。
在多个方面分析了olist数据集。每个分析都揭示了笔记本中报道的新信息和见解。有关任何查询