Lagouジョブのデータ分析
導入
このリポジトリには、Lagouのジョブデータ分析のためのコードが保持されます。含まれる主な機能は、次のようにリストされています。
- Lagouからのジョブデータをクロールし、インターネットに関するジョブの最新情報を取得します。
- プロキシはXicidailiから収集されます。
- データ分析と視覚化。
- 仕事の詳細情報をrawう情報と、仕事の印象として単語クラウドを生成します。
- 機械学習でNLPタスクをトレーニングするために、インタビュー対象者のコメントのデータはMongoDBに保存されます
前提条件
サードパーティライブラリをインストールします
sudo pip3 install -r requirements.txt
mongodbをインストールし、Mongodbサービスを開始します[オプション]
sudo service mongod start
使い方
- Githubからこのプロジェクトをクローンします。
- Lagouの反スパイダー戦略は最近頻繁にアップグレードされています。 proxy_crawler.pyを実行してIPプロキシを取得し、phantomjsでコードを実行することをお勧めします。
- m_lagou_spider.pyを実行してジョブデータをクロールすると、
./dataディレクトリにExcelファイルのコレクションが生成されます。 - hot_words_generator.pyを実行して、文章を削減すると、トップ30のホットワードとwordcloudフィギュアを返します。
分析結果
報告
- 技術的な詳細については、Zhihuでの私の回答を参照してください。
- PDFレポートはこちらからダウンロードできます。
ログを変更します
- [V2.0] -2019.04。 PhantomjsおよびIPプロキシにアップグレードしました。
- [v1.2] -2017.05。 WordCloud Visualizationモジュールを書き直します。
- [V1.0] -2017.04。モバイルラゴウにアップグレードしました。
- [V0.8] -2016.05。 lagou pc webスパイダーを完成させます。
ライセンス
Apache-2.0