การวิเคราะห์ข้อมูลของงาน Lagou
การแนะนำ
ที่เก็บนี้ถือรหัสสำหรับการวิเคราะห์ข้อมูลงานของ Lagou ฟังก์ชั่นหลักที่รวมอยู่ในรายการดังนี้:
- รวบรวมข้อมูลงานจาก Lagou และรับข้อมูลล่าสุดของงานเกี่ยวกับอินเทอร์เน็ต
- พร็อกซีจะถูกรวบรวมจาก Xicidaili
- การวิเคราะห์ข้อมูลและการสร้างภาพข้อมูล
- รวบรวมข้อมูลรายละเอียดงานและสร้าง Word Cloud เป็น ความประทับใจในงาน
- เพื่อฝึกอบรมงาน NLP ด้วยการเรียนรู้ของเครื่องข้อมูลความคิดเห็นของผู้ให้สัมภาษณ์จะถูกเก็บไว้ใน MongoDB
ข้อกำหนดเบื้องต้น
ติดตั้งไลบรารีบุคคลที่สาม
sudo pip3 install -r requirements.txt
ติดตั้ง MongoDB และเริ่มบริการ MongoDB [ไม่บังคับ]
sudo service mongod start
วิธีใช้
- โคลนโครงการนี้จาก GitHub
- กลยุทธ์การต่อต้านแมงมุมของ Lagou ได้รับการอัพเกรดบ่อยครั้งเมื่อเร็ว ๆ นี้ ฉันขอแนะนำให้คุณเรียกใช้ proxy_crawler.py เพื่อรับพร็อกซี IP และดำเนินการรหัสด้วย PhantomJs
- เรียกใช้ m_lagou_spider.py เพื่อรวบรวมข้อมูลข้อมูลงานมันจะสร้างคอลเลกชันของไฟล์ excel ในไดเรกทอรี
./data - เรียกใช้ hot_words_generator.py เพื่อตัดประโยคมันจะส่งคืนคำศัพท์ยอด นิยม 30 คำ และตัวเลข WordCloud
ผลการวิเคราะห์
รายงาน
- สำหรับรายละเอียดทางเทคนิคโปรดดูคำตอบของฉันที่ Zhihu
- สามารถดาวน์โหลดรายงาน PDF ได้จากที่นี่
เปลี่ยนบันทึก
- [v2.0] - 2019.04 อัพเกรดเป็น phantomjs และพร็อกซี IP
- [v1.2] - 2017.05 เขียนโมดูลการสร้างภาพข้อมูล WordCloud ใหม่
- [v1.0] - 2017.04 อัพเกรดเป็น Mobile Lagou
- [v0.8] - 2016.05 เสร็จสิ้น Lagou PC Web Spider
ใบอนุญาต
Apache-2.0