Analyse des données de Lagou Job
Introduction
Ce référentiel contient le code pour l'analyse des données du travail de Lagou. Les fonctions principales incluses sont répertoriées comme suit:
- Ramper les données d'emploi de Lagou et obtenir les dernières informations sur les emplois sur Internet.
- Les procurations sont collectées auprès de Xicidaili.
- Analyse et visualisation des données.
- Ramper les informations sur les détails du travail et générer un cloud de mots comme impression d'emploi .
- Afin de former une tâche PNL avec l'apprentissage automatique, les données des commentaires de la personne interrogée seront stockées dans MongoDB
Condition préalable
Installez les bibliothèques tierces
sudo pip3 install -r requirements.txt
Installez MongoDB et Démarrez le service MongoDB [Facultatif]
sudo service mongod start
Comment utiliser
- Clone ce projet de Github.
- La stratégie anti-artisanat de Lagou a été mise à niveau fréquemment récemment. Je vous suggère d'exécuter proxy_crawler.py pour obtenir des proxys IP et exécuter le code avec PhantoMJS.
- Exécutez M_LAGOU_SPIDER.PY pour craquer les données du travail, il générera une collection de fichiers Excel dans le répertoire
./data . - Exécutez hot_words_generator.py Pour couper les phrases, il renverra les mots chauds du top-30 et la figure WordCloud.
Résultats de l'analyse
Rapport
- Pour plus de détails techniques, veuillez vous référer à ma réponse à Zhihu.
- Le rapport PDF peut être téléchargé à partir d'ici.
Modifier le journal
- [V2.0] - 2019.04. Mise à niveau vers PhantoMJS et proxys IP.
- [V1.2] - 2017.05. Réécrivez le module de visualisation WordCloud.
- [V1.0] - 2017.04. Amélioré vers mobile Lagou.
- [V0.8] - 2016.05. Terminez le Webou PC Web Spider.
LICENCE
Apache-2.0