تحليل بيانات وظيفة لاغو
مقدمة
يحمل هذا المستودع رمز تحليل بيانات الوظائف في لاغو. يتم سرد الوظائف الرئيسية المدرجة على النحو التالي:
- تزحف بيانات الوظيفة من لاغو ، واحصل على أحدث المعلومات عن الوظائف حول الإنترنت.
- يتم جمع الوكلاء من Xicidaili.
- تحليل البيانات والتصور.
- زحف تفاصيل الوظيفة معلومات وإنشاء كلمة سحابة كانطباع عن الوظيفة .
- من أجل تدريب مهمة NLP مع التعلم الآلي ، سيتم تخزين بيانات تعليقات المقابلة في Mongodb
المتطلبات الأساسية
تثبيت مكتبات الطرف الثالث
sudo pip3 install -r requirements.txt
تثبيت mongoDB وبدء خدمة mongodb [اختياري]
sudo service mongod start
كيفية استخدام
- استنساخ هذا المشروع من جيثب.
- تم ترقية استراتيجية لاجو لمكافحة SPIDER في الآونة الأخيرة. أقترح عليك تشغيل proxy_crawler.py للحصول على وكلاء IP وتنفيذ الكود باستخدام phantomjs.
- قم بتشغيل M_LAGOU_SPIDER.PY لزحف بيانات الوظيفة ، وسوف يقوم بإنشاء مجموعة من ملفات Excel في دليل
./data . - قم بتشغيل Hot_words_generator.py لقطع الجمل ، وسيعيد Top-30 Words Hot و WordCloud.
نتائج التحليل
تقرير
- للحصول على التفاصيل الفنية ، يرجى الرجوع إلى إجابتي في Zhihu.
- يمكن تنزيل تقرير PDF من هنا.
تغيير السجل
- [v2.0] - 2019.04. تمت ترقيتها إلى الوزراء الوهمية و IP.
- [v1.2] - 2017.05. أعد كتابة وحدة التصور WordCloud.
- [v1.0] - 2017.04. تمت ترقيتها إلى Mobile Lagou.
- [v0.8] - 2016.05. إنهاء عنكبوت لاجو للكمبيوتر الشخصي.
رخصة
Apache-2.0