Análisis de datos del trabajo de Lagou
Introducción
Este repositorio contiene el código para el análisis de datos de trabajo de Lagou. Las funciones principales incluidas se enumeran de la siguiente manera:
- Rateo de datos de trabajo de Lagou y obtenga la información más reciente de los trabajos sobre Internet.
- Los proxies se recogen de Xicidaili.
- Análisis y visualización de datos.
- Rateo de detalles del trabajo Información y generar Word Cloud como impresión de trabajo .
- Para capacitar a una tarea de PNL con el aprendizaje automático, los datos de los comentarios del entrevistado se almacenarán en MongoDB
Requisitos previos
Instalar bibliotecas de terceros
sudo pip3 install -r requirements.txt
Instale el servicio MongoDB e inicie MongoDB [opcional]
sudo service mongod start
Cómo usar
- Clon este proyecto de Github.
- La estrategia anti-spider de Lagou se ha actualizado con frecuencia recientemente. Sugiero que ejecute proxy_crawler.py para obtener proxies IP y ejecute el código con PhantomJS.
- Ejecute m_lagou_spider.py para rastrear datos de trabajo, generará una colección de archivos de Excel en el directorio
./data . - Ejecute hot_words_generator.py para cortar oraciones, devolverá las 30 palabras de Hot Top-top y la figura de WordCloud.
Resultados de análisis
Informe
- Para obtener detalles técnicos, consulte mi respuesta en Zhihu.
- El informe PDF se puede descargar desde aquí.
Registro de cambio
- [V2.0] - 2019.04. Actualizado a PhantomJS y proxies IP.
- [V1.2] - 2017.05. Reescribir el módulo de visualización de WordCloud.
- [V1.0] - 2017.04. Actualizado a Mobile Lagou.
- [V0.8] - 2016.05. Termine la araña web de Lagou PC.
LICENCIA
Apache-2.0