Análise de dados do trabalho de Lagou
Introdução
Este repositório mantém o código para análise de dados do trabalho do LAGOU. As principais funções incluídas estão listadas da seguinte forma:
- Rastrear dados de trabalho da Lagou e obter as informações mais recentes de empregos sobre a Internet.
- Os proxies são coletados da Xicidaili.
- Análise e visualização de dados.
- Rastrear detalhes do trabalho Informações e gerar a nuvem de palavras como impressão no trabalho .
- Para treinar uma tarefa de PNL com o aprendizado de máquina, os dados dos comentários do entrevistado serão armazenados no MongoDBB
Pré -requisitos
Instale as bibliotecas de terceiros
sudo pip3 install -r requirements.txt
Instale o MongoDB e inicie o serviço MongoDB [opcional]
sudo service mongod start
Como usar
- Clone este projeto do GitHub.
- A estratégia anti-aranha de Lagou tem sido atualizada com frequência recentemente. Sugiro que você execute proxy_crawler.py para obter proxies IP e executar o código com Phantomjs.
- Execute m_lagou_spider.py para rastejar os dados do trabalho, ele gerará uma coleção de arquivos do Excel no diretório
./data . - Execute hot_words_generator.py para cortar frases, ele retornará as 30 palavras quentes e a figura do WordCloud.
Resultados da análise
Relatório
- Para detalhes técnicos, consulte minha resposta em Zhihu.
- O relatório PDF pode ser baixado a partir daqui.
Alterar log
- [V2.0] - 2019.04. Atualizado para fantasmas e proxies IP.
- [V1.2] - 2017.05. Reescrever o módulo de visualização do WordCloud.
- [V1.0] - 2017.04. Atualizado para o Mobile Lagou.
- [V0.8] - 2016.05. Conclua o Lagou PC Web Spider.
LICENÇA
Apache-2.0