صمم برنامج نصي تجريف على شبكة الإنترنت في بيثون باستخدام سيلينيوم ومكتبات حساء جميلة لاستخراج المعلومات من جميع اتصالات LinkedIn للمستخدم ، وحولت البيانات التي تم جمعها وأجريت تحليل البيانات الأساسية على البيانات المريحة. ثم طور لوحة معلومات تطبيق الويب باستخدام Dash Framework لتقديم نتائج التحليل. كما يمكن ملاحظته أعلاه ، ينقسم المشروع إلى 3 أجزاء:
استخدمت المكتبات السيلينية ومكتبات الحساء الجميلة لأداء تجريف الويب لاستخراج المعلومات من ملفات تعريف مستخدمي LinkedIn. استخدام 3 طرق: تسجيل الدخول ، connections_scraper و profile_scraper. تم تقسيم هذه إلى 3 بيانات بيانات: Connections_Data ، التعليم والخبرة.
Connections_data: الاسم المستخرج ، العنوان ، الموقع ، الملف الشخصي ، عدد الاتصالات ، عدد المشاريع ، عدد اللغات المعروفة وأعلى المهارات لـ Connections_Data.
التعليم: معهد مستخلص ، درجة الشهادة والسنة للتعليم.
الخبرة: ملف تعريف مستخرج ، موقف ، الشركة ، مدة DataFrame التجربة.
كانت البيانات التي تم جمعها في شكل خام وكان لا بد من تنظيفها وتحويلها حتى يتم تحليلها واكتساب رؤى منها. هناك 3 بيانات بيانات وهي: connections_data ، الخبرة والتعليم.
بالنسبة إلى Connections_Data DataFrame ، قم بتنظيف عمود الموقع لعرض اسم المدينة فقط بدون كلمات مثل "المنطقة" ، وعدد الاتصالات المقسمة إلى 6 فئات من النطاق مثل 0-100 ، 100-200 ، ... إلى 500+ ، وعدد اللغات ، وعدد المشاريع ، وخلق قاموسًا لأعلى 3 مهارات مميزة في كل من التوصيلات ، ثم يحسب عدد الأشخاص في النهاية.
بالنسبة إلى DataFrame للتعليم ، على أساس المعهد والاسم ، صنفت مجال الدراسة إلى 3 فئات (في الوقت الحالي ، من أجل البساطة): العلم والإدارة والفنون ، اكتشفوا حالة التعليم على أساس نطاق السنة المقدمة في ملف تعريف معين. اكتشف أيضًا أعلى مستوى من التعليم للعلاقات بناءً على عبارة "البكالوريوس" ، "Master’s" ، إلخ في مجال التعليم في الملف الشخصي.
من أجل تجربة DataFrame ، قام بتقسيم عمود الموقف إلى 3 فئات: بدوام كامل ، أو المتدربين ، أو ممثلي الطلاب أو المتطوعين ، صنع 6 فئات تحت عمود المدة بدءًا من أقل من 6 أشهر إلى 20 عامًا.
Dash هو الإطار الأكثر تنزيلًا وموثوقًا ببناء تطبيقات الويب ML و Data Science. يمكن الآن بناء تطبيقات المكدس الكاملة التي تتطلب عادةً فريقًا أماميًا وخلفيًا و DEV OPS ونشرها في ساعات من قبل علماء البيانات مع DASH. مع Dash Open Source ، تعمل تطبيقات Dash على الكمبيوتر المحمول المحلي أو محطة العمل ، ولكن لا يمكن الوصول إليها بسهولة من قبل الآخرين في مؤسستك. لقراءة المزيد وفهم Dash ، تفضل بزيارة https://plotly.com/dash/
تصنع مكتبة الرسوم البيانية Python في Plotly الرسوم البيانية ذات الجودة التفاعلية. تحتوي وحدة Express (عادة ما يتم استيرادها على أنها PX) على وظائف يمكن أن تنشئ أرقامًا كاملة في وقت واحد ، ويشار إليها باسم Express أو PX. Plotly Express هو جزء مدمج من مكتبة Plotly ، وهو نقطة البداية الموصى بها لإنشاء أكثر الأرقام شيوعًا. لمعرفة المزيد عن المؤسسة ، تفضل بزيارة https://plotly.com/python/
نظرًا لأن هذه هي المرة الأولى التي استخدمنا فيها Dash ، تبدو لوحة القيادة بسيطة إلى حد ما (تتكون من مخططات شريطية تفاعلية ومخططات فطيرة مع البلاط وخرائط الأشجار) ، لكنها مفيدة للغاية. نخطط لدمج المزيد من التغييرات فيما يتعلق بالتعقيدات في مستوى أو مجال الدراسة/العمل لاحقًا.
ملاحظة: من المهم أن يكون لديك مجلد الأصول في نفس المجلد الذي تنفذه في التطبيق الخاص بك ، لأنه ضروري لأغراض الصخور.


