Анализ данных работы Lagou
Введение
Этот репозиторий содержит код для анализа данных работы Лагу. Основные включенные функции перечислены следующим образом:
- Ползуние данных о работе от Lagou и получить последнюю информацию о заданиях о Интернете.
- Прокси собираются из Xicidaili.
- Анализ данных и визуализация.
- Полная информация о работе информации и генерируйте Word Cloud в виде впечатления от работы .
- Чтобы обучить задачу НЛП с помощью машинного обучения, данные комментариев интервьюируемого будут сохранены в MongoDB
Предварительные условия
Установить сторонние библиотеки
sudo pip3 install -r requirements.txt
Установите MongoDB и запустите сервис MongoDB [необязательно]
sudo service mongod start
Как использовать
- клонировать этот проект от GitHub.
- Стратегия антисвидеров в Лагу часто была обновлением в последнее время. Я предлагаю вам запустить proxy_crawler.py, чтобы получить IP -прокси и выполнить код с помощью Phantomjs.
- Запустите M_LAGOU_SPIDER.PY Данные задания, он будет генерировать коллекцию файлов Excel в каталоге
./data . - Запустите hot_words_generator.py, чтобы вырезать предложения, он вернет Top-30 Hot Suding и Wordcloud Figure.
Результаты анализа
Отчет
- Для получения технических данных, пожалуйста, обратитесь к моему ответу в Zhihu.
- Отчет PDF может быть загружен отсюда.
Изменить журнал
- [V2.0] - 2019.04. Модернизированы до Phantomjs и IP -прокси.
- [V1.2] - 2017.05. Перепишите модуль визуализации WordCloud.
- [V1.0] - 2017.04. Обновляется до мобильной Лагу.
- [V0.8] - 2016.05. Завершить веб -паук Lagou PC.
ЛИЦЕНЗИЯ
Apache-2.0