拉古工作的数据分析
介绍
该存储库包含用于Lagou的工作数据分析的代码。所包含的主要功能列出如下:
- 从Lagou中爬出工作数据,并获取有关Internet的最新信息。
- 代理是从Xicidaili收集的。
- 数据分析和可视化。
- 爬行工作详细信息信息并生成单词云作为作业印象。
- 为了通过机器学习训练NLP任务,受访者评论的数据将存储在MongoDB中
先决条件
安装第三方库
sudo pip3 install -r requirements.txt
安装MongoDB并启动MongoDB服务[可选]
sudo service mongod start
如何使用
- 从Github克隆这个项目。
- 拉古(Lagou)的反纺纱策略最近经常升级。我建议您运行proxy_crawler.py获取IP代理并使用phantomjs执行代码。
- 运行m_lagou_spider.py到爬网工作数据,它将在
./data目录中生成Excel文件的集合。 - 运行hot_words_generator.py剪切句子,它将返回前30个热门单词和WordCloud图。
分析结果
报告
- 有关技术详细信息,请参阅我在Zhihu的答案。
- 可以从此处下载PDF报告。
更改日志
- [v2.0] - 2019.04。升级为Phantomjs和IP代理。
- [V1.2] -2017.05。重写WordCloud可视化模块。
- [V1.0] -2017.04。升级到移动拉古。
- [V0.8] - 2016.05。完成Lagou PC网络蜘蛛。
执照
Apache-2.0