使用硒和美麗的湯庫在Python中設計了一個網絡刮擦腳本,以提取用戶所有LinkedIn連接的信息,對收集的數據進行了轉換,並對合成數據進行了基本數據分析。然後,使用DASH框架開發了Web應用程序儀表板,以介紹分析的發現。如上所述,該項目分為3個部分:
使用硒和美麗的湯庫來執行網絡刮擦,以從LinkedIn用戶的個人資料中提取信息。使用的3種方法:登錄,Connections_scraper和Profile_scraper。這些分為3個數據范圍:Connections_Data,教育和經驗。
Connections_Data:提取的名稱,標題,位置,配置文件,連接數,項目數,已知語言數量和Connections_Data的頂級技能。
教育:提取的研究所,教育學位和年度範圍。
經驗:提取的個人資料,位置,公司,經驗數據框的持續時間。
收集的數據是原始形式的,必須對其進行清潔和轉換,以便對其進行分析並從中獲得見解。共有3個數據范圍:Connections_Data,經驗和教育。
對於Connections_Data DataFrame,將“位置”列清潔以顯示城市名稱,而無需諸如“區域”之類的單詞,將連接數分為6個類別的範圍,例如0-100、100-200,...到500多個語言,語言數量,項目數量,並創建了每個連接的前3個特色技能的字典,然後是每個人的數量。
對於教育數據框架,根據研究所和學位名稱,將研究領域分為三類(目前為簡單性):科學,管理和藝術,根據特定教育水平的個人資料中的年度範圍發現了教育的狀態。還發現了基於個人資料教育領域中給出的“單身漢”,“大師”等單詞的聯繫的最高教育水平。
對於經驗數據框,將職位列分為3個類別:全職,實習生,學生代表或志願者,在持續時間列以<6個月至20年以上的時間為單位。
DASH是用於構建ML和Data Science Web應用程序的最下載,值得信賴的框架。現在,數據科學家現在可以在數小時內通過DASH構建和部署完整的堆棧應用程序,這些應用程序通常需要前端,後端和開發人員團隊。使用Dash開源,Dash應用程序在您的本地筆記本電腦或工作站上運行,但組織中的其他人無法輕鬆訪問。要閱讀更多並了解DASH,請訪問https://plotly.com/dash/
Plotly的Python圖形庫製作交互式出版物質量圖。 plotly.express模塊(通常以PX的形式導入)包含可以一次創建整個圖形的函數,並被稱為Plotly Express或PX。 Plotly Express是情節庫的內置部分,是創建最常見人物的推薦起點。要了解有關情節的更多信息,請訪問https://plotly.com/python/
由於這是我們第一次使用儀表板,因此儀表板看起來很簡單(由帶有瓷磚和樹地圖的交互式條形圖和餅圖組成),但非常有用。我們計劃在以後的研究/工作水平或工作領域中納入更多關於復雜性的變化。
注意:將資產文件夾放在您實現應用程序的同一文件夾中很重要,因為這是為了穩定的目的。


