拉古工作的數據分析
介紹
該存儲庫包含用於Lagou的工作數據分析的代碼。所包含的主要功能列出如下:
- 從Lagou中爬出工作數據,並獲取有關Internet的最新信息。
- 代理是從Xicidaili收集的。
- 數據分析和可視化。
- 爬行工作詳細信息信息並生成單詞云作為作業印象。
- 為了通過機器學習訓練NLP任務,受訪者評論的數據將存儲在MongoDB中
先決條件
安裝第三方庫
sudo pip3 install -r requirements.txt
安裝MongoDB並啟動MongoDB服務[可選]
sudo service mongod start
如何使用
- 從Github克隆這個項目。
- 拉古(Lagou)的反紡紗策略最近經常升級。我建議您運行proxy_crawler.py獲取IP代理並使用phantomjs執行代碼。
- 運行m_lagou_spider.py到爬網工作數據,它將在
./data目錄中生成Excel文件的集合。 - 運行hot_words_generator.py剪切句子,它將返回前30個熱門單詞和WordCloud圖。
分析結果
報告
- 有關技術詳細信息,請參閱我在Zhihu的答案。
- 可以從此處下載PDF報告。
更改日誌
- [v2.0] - 2019.04。升級為Phantomjs和IP代理。
- [V1.2] -2017.05。重寫WordCloud可視化模塊。
- [V1.0] -2017.04。升級到移動拉古。
- [V0.8] - 2016.05。完成Lagou PC網絡蜘蛛。
執照
Apache-2.0