奧利斯特(Olist)是一家巴西的初創公司,主要通過市場運營。它在該國內傳播良好。該項目是對綜合橄欖數據的詳細分析。原始的Olist數據集在2016年至2018年在巴西多個市場上訂購了100K訂單的信息。它的功能允許從多個維度查看訂單:從訂單狀態,價格,付款和貨運績效到客戶位置,產品屬性以及最終由客戶編寫的評論。數據集的模式如下: -

在數據集上進行了多個分析任務,從描述性分析到預測和預測分析。
下面列出和說明了各種分析任務: -
原始數據用於通過連接和操作得出多個數據集。數據操作和組合jupyter筆記本包含逐步的過程和解釋。
筆記本初步數據分析包含詳細分析。本筆記本可視化並總結原始數據集,以查找趨勢,模式或故障。該分析給出了數據集的整體視圖。
使用由原始數據集創建的交易數據集,使用頻繁的模式算法-FP生長樹進行關聯規則挖掘。該模型以10%的置信閾值返回頻繁的項目集。協會規則挖掘筆記本包含此任務的詳細說明。
該分析的目的是在Olist生態系統中找到最受歡迎的產品,受歡迎的產品類別和類別的流行產品。此外,將傳遞時間和產品特徵(例如 - 描述Lenght,照片數量等)與受歡迎程度進行了比較,以找到數據中的相關性。產品分析筆記本包含詳細的代碼。
對客戶提供的評論進行了情感分析。該筆記本包含受監督和無監督的方法進行情感分析,審查情感分析。監督技術使用提供的評級作為情感分析的標籤,而無監督的技術詞典 - 阿法恩(TextBlob)進行分析。
貨運價值是與每個訂單相關的運輸價值。貨運價值預測筆記本包含詳細的模型構建步驟,以預測訂單的運輸價值,鑑於賣方與客戶之間的距離,產品的尺寸和權重。此外,該模型還作為Web服務構建和部署。使用Dash Plotly創建WebApp,以查詢模型中的貨運價值預測。
Web應用程序部署在Heroku上,內置在Dash Plotly中。該應用程序提供了建立在Azureml平台上的貨運價值預測模型的前端。 Web應用程序具有以下文件結構。
__ app.py
__ layout.py
__ requirements.txt
__ Procfile
__ Resources
|__ API_key
|__ URL
|__ ship.png
下面的模式是基於Azureml建立的Web服務。
app.py文件包含服務器實例,Layout.py文件包含要渲染的佈局。需求.txt文件包含Web應用程序的依賴項
pip freeze > requirements.txt
Procfile用於將應用程序服務器的實例啟動到虛擬機上。 pocfile的內容是
web: gunicorn app:server
文件準備好後,將存儲庫推向Heroku Master
heroku create new_app
git add .
git commit -m "intial push"
git push heroku master
heroku ps:scale web=1
可以通過此鏈接在Heroku上訪問已部署的Web應用程序。 https://olist-freight-app.herokuapp.com/
注意: - 目前不在Azure上的Web服務啟動和運行。請在Azure上創建類似的Web服務,然後相應地更改API_KEY和URL文件。
在多個方面分析了olist數據集。每個分析都揭示了筆記本中報導的新信息和見解。有關任何查詢