Lagou 작업의 데이터 분석
소개
이 저장소는 Lagou의 작업 데이터 분석 코드를 보유합니다. 포함 된 주요 기능은 다음과 같이 나열됩니다.
- Lagou의 작업 데이터를 크롤링하고 인터넷에 대한 최신 정보를 얻습니다.
- 프록시는 Xicidaili에서 수집됩니다.
- 데이터 분석 및 시각화.
- 작업 세부 정보를 크롤링하고 구직 인상 으로 단어 클라우드를 생성합니다.
- 머신 러닝으로 NLP 작업을 훈련시키기 위해 인터뷰 대상자의 의견 데이터는 MongoDB에 저장됩니다.
전제 조건
제 3 자 라이브러리를 설치하십시오
sudo pip3 install -r requirements.txt
MongoDB 설치 및 MongoDB 서비스 시작 [선택 사항]
sudo service mongod start
사용 방법
- Github 에서이 프로젝트를 복제하십시오.
- Lagou의 스파이더 전략은 최근에 업그레이드되었습니다. IP 프록시를 가져 와서 phantomjs로 코드를 실행하려면 proxy_crawler.py를 실행하는 것이 좋습니다.
- 작업 데이터를 크롤링하기 위해 m_lagou_spider.py를 실행하면
./data 디렉토리에서 Excel 파일 모음을 생성합니다. - hot_words_generator.py를 실행하여 문장을 잘라 내면 상위 30 개의 핫 단어와 WordCloud 그림을 반환합니다.
분석 결과
보고서
- 기술적 인 자세한 내용은 Zhihu에서 내 답변을 참조하십시오.
- PDF 보고서는 여기에서 다운로드 할 수 있습니다.
로그 변경
- [v2.0] -2099.04. Phantomjs 및 IP 프록시로 업그레이드되었습니다.
- [v1.2] -2017.05. WordCloud 시각화 모듈을 다시 작성하십시오.
- [v1.0] -2017.04. Mobile Lagou로 업그레이드되었습니다.
- [v0.8] -2016.05. Lagou PC 웹 스파이더를 마무리하십시오.
특허
아파치 -2.0