Analisis Data Pekerjaan Lagou
Perkenalan
Repositori ini memegang kode untuk analisis data pekerjaan Lagou. Fungsi utama yang disertakan terdaftar sebagai berikut:
- Merangkak data pekerjaan dari Lagou, dan dapatkan informasi terbaru tentang pekerjaan tentang internet.
- Proksi dikumpulkan dari Xicidaili.
- Analisis dan Visualisasi Data.
- Merangkak detail pekerjaan info dan menghasilkan cloud kata sebagai kesan pekerjaan .
- Untuk melatih tugas NLP dengan pembelajaran mesin, data komentar yang diwawancarai akan disimpan di MongoDB
Prasyarat
Instal Perpustakaan Pihak ke -3
sudo pip3 install -r requirements.txt
Instal MongoDB dan Mulai Layanan MongoDB [Opsional]
sudo service mongod start
Cara menggunakan
- Klon proyek ini dari GitHub.
- Strategi anti-laba-laba Lagou telah sering ditingkatkan. Saya sarankan Anda menjalankan proxy_crawler.py untuk mendapatkan proksi IP dan menjalankan kode dengan phantomjs.
- Jalankan m_lagou_spider.py untuk merangkak data pekerjaan, itu akan menghasilkan kumpulan file Excel di
./data Directory. - Jalankan hot_words_generator.py untuk memotong kalimat, itu akan mengembalikan figur Hot -30 Top-30 dan figur WordCloud.
Hasil analisa
Laporan
- Untuk detail teknis, silakan merujuk ke jawaban saya di Zhihu.
- Laporan PDF dapat diunduh dari sini.
Ubah log
- [V2.0] - 2019.04. Ditingkatkan ke phantomjs dan proksi IP.
- [V1.2] - 2017.05. Tulis ulang modul visualisasi WordCloud.
- [V1.0] - 2017.04. Ditingkatkan ke seluler lagou.
- [V0.8] - 2016.05. Selesaikan laba web lagou pc.
LISENSI
Apache-2.0