使用硒和美丽的汤库在Python中设计了一个网络刮擦脚本,以提取用户所有LinkedIn连接的信息,对收集的数据进行了转换,并对合成数据进行了基本数据分析。然后,使用DASH框架开发了Web应用程序仪表板,以介绍分析的发现。如上所述,该项目分为3个部分:
使用硒和美丽的汤库来执行网络刮擦,以从LinkedIn用户的个人资料中提取信息。使用的3种方法:登录,Connections_scraper和Profile_scraper。这些分为3个数据范围:Connections_Data,教育和经验。
Connections_Data:提取的名称,标题,位置,配置文件,连接数,项目数,已知语言数量和Connections_Data的顶级技能。
教育:提取的研究所,教育学位和年度范围。
经验:提取的个人资料,位置,公司,经验数据框的持续时间。
收集的数据是原始形式的,必须对其进行清洁和转换,以便对其进行分析并从中获得见解。共有3个数据范围:Connections_Data,经验和教育。
对于Connections_Data DataFrame,将“位置”列清洁以显示城市名称,而无需诸如“区域”之类的单词,将连接数分为6个类别的范围,例如0-100、100-200,...到500多个语言,语言数量,项目数量,并创建了每个连接的前3个特色技能的字典,然后是每个人的数量。
对于教育数据框架,根据研究所和学位名称,将研究领域分为三类(目前为简单性):科学,管理和艺术,根据特定教育水平的个人资料中的年度范围发现了教育的状态。还发现了基于个人资料教育领域中给出的“单身汉”,“大师”等单词的联系的最高教育水平。
对于经验数据框,将职位列分为3个类别:全职,实习生,学生代表或志愿者,在持续时间列以<6个月至20年以上的时间为单位。
DASH是用于构建ML和Data Science Web应用程序的最下载,值得信赖的框架。现在,数据科学家现在可以在数小时内通过DASH构建和部署完整的堆栈应用程序,这些应用程序通常需要前端,后端和开发人员团队。使用Dash开源,Dash应用程序在您的本地笔记本电脑或工作站上运行,但组织中的其他人无法轻松访问。要阅读更多并了解DASH,请访问https://plotly.com/dash/
Plotly的Python图形库制作交互式出版物质量图。 plotly.express模块(通常以PX的形式导入)包含可以一次创建整个图形的函数,并被称为Plotly Express或PX。 Plotly Express是情节库的内置部分,是创建最常见人物的推荐起点。要了解有关情节的更多信息,请访问https://plotly.com/python/
由于这是我们第一次使用仪表板,因此仪表板看起来很简单(由带有瓷砖和树地图的交互式条形图和饼图组成),但非常有用。我们计划在以后的研究/工作水平或工作领域中纳入更多关于复杂性的变化。
注意:将资产文件夹放在您实现应用程序的同一文件夹中很重要,因为这是为了稳定的目的。


