Datenanalyse von Lagou Job
Einführung
Dieses Repository enthält den Code für Jobdatenanalysen von Lagou. Die wichtigsten Funktionen sind wie folgt aufgeführt:
- Crawling -Jobdaten von Lagou und erhalten Sie die neuesten Informationen über Jobs über das Internet.
- Proxys werden von Xicidaili gesammelt.
- Datenanalyse und Visualisierung.
- Crawling -Jobdetails Info und generieren Sie Word Cloud als Jobeindruck .
- Um eine NLP -Aufgabe mit maschinellem Lernen auszubilden, werden die Daten der Kommentare des Befragten in MongoDB gespeichert
Voraussetzungen
Installieren Sie die Bibliotheken der 3. Party
sudo pip3 install -r requirements.txt
Installieren Sie MongoDB und starten Sie den MongoDB -Dienst [optional]
sudo service mongod start
Wie man benutzt
- Klonen Sie dieses Projekt aus GitHub.
- Die Anti-Spinnen-Strategie von Lagou wurde in letzter Zeit häufig aktualisiert. Ich schlage vor, Sie führen proxy_crawler.py aus, um IP -Proxies zu erhalten und den Code mit Phantomjs auszuführen.
- Führen Sie m_lagou_spider.py aus, um Jobdaten zu kriechen. Es generiert eine Sammlung von Excel -Dateien in
./data -Verzeichnis. - run hot_words_generator.py ausführen, um Sätze zu schneiden.
Analyseergebnisse
Bericht
- Für technische Details finden Sie meine Antwort bei Zhihu.
- Der PDF -Bericht kann hier heruntergeladen werden.
Protokoll ändern
- [V2.0] - 2019.04. Verbessert auf Phantomjs und IP -Proxies.
- [V1.2] - 2017.05. Schreiben Sie das Wordcloud -Visualisierungsmodul neu.
- [V1.0] - 2017.04. Auf Mobile Lagou aktualisiert.
- [V0.8] - 2016.05. Beenden Sie die Lagou -PC -Webspinne.
LIZENZ
Apache-2.0