In Python wurde ein Web -Scraping -Skript unter Verwendung von Selen- und schönen Suppenbibliotheken entwickelt, um Informationen aller LinkedIn -Verbindungen des Benutzers zu extrahieren, die gesammelten Daten zu transformieren und grundlegende Datenanalysen für die synthetisierten Daten durchzuführen. Anschließend entwickelte ein Webanwendungs -Dashboard mit dem Dash Framework, um die Ergebnisse der Analyse zu präsentieren. Wie oben beobachtet werden, ist das Projekt in 3 Teile unterteilt:
Verwenden Sie die Selen- und schönen Suppenbibliotheken, um Web -Scraping durchzuführen, um Informationen aus den Profilen von LinkedIn -Benutzern zu extrahieren. Verwendet 3 Methoden: Login, Connections_Scraper und Profil_Scraper. Diese wurden in 3 Datenrahmen unterteilt: Connections_Data, Bildung und Erfahrung.
Connections_Data: Extrahierter Name, Titel, Ort, Profil, Anzahl der Verbindungen, Anzahl der Projekte, Anzahl der bekannten Sprachen und Top -Fähigkeiten für die Connections_Data.
Bildung: Extrahiertes Institut, Abschluss und Jahr für Bildung.
Erfahrung: Extrahiertes Profil, Position, Unternehmen, Dauer für den Erfahrungsdatenrahmen.
Die gesammelten Daten bestanden in einer rohen Form und mussten gereinigt und transformiert werden, um analysiert zu werden und Einblicke zu erhalten. Es gibt 3 Datenrahmen nämlich: Connections_Data, Erfahrung und Bildung.
Für den DataFrame von Connections_Data hat die Standortspalte gereinigt, um den Stadtnamen ohne die Wörter wie 'Bereich' anzuzeigen, die Anzahl der Verbindungen in 6 Kategorien von Reichweite wie 0-100, 100-200, ... bis 500+, Anzahl der Sprachen, Anzahl der Projekte zu erstellen und ein Wörterbuch für die Top-3-Fertigkeiten jeder Verbindungen zu erstellen und schließlich die Anzahl der Menschen für jede Fachkenntnisse zu zählen.
Für den Bildungsdatenrahmen klassifizierte auf der Grundlage des Instituts und des Studiennamens das Studiengebiet in drei Kategorien (vorerst aus Einfachheit): Wissenschaft, Management und Kunst, den Status der Bildung auf der Grundlage des Jahresbereichs, das auf dem Profil für eine bestimmte Bildungsebene bereitgestellt wurde. Fand auch das höchste Bildungsniveau für die Verbindungen, die auf den Wörtern "Bachelor's", "Master" usw. im Bildungsbereich des Profils angegeben sind.
Für den Erfahrungsdatenrahmen unterteilte die Positionsspalte in 3 Kategorien: Vollzeit, Praktikanten, Studentenvertreter oder Freiwillige, die 6 Kategorien unter der Dauerspalte beginnend mit <6 Monaten bis 20 Jahren erstellt haben.
Dash ist das am meisten heruntergeladene, vertrauenswürdige Framework zum Erstellen von ML & Data Science Web Apps. Vollständige Stack-Apps, die in der Regel ein Front-End-, Backend- und Dev Ops-Team erfordern, können jetzt in Stunden von Datenwissenschaftlern mit DASH erstellt und bereitgestellt werden. Mit der DASH Open Source werden DASH -Apps auf Ihrem lokalen Laptop oder Ihrer Workstation ausgeführt, können jedoch nicht einfach von anderen in Ihrer Organisation zugreifen. Um mehr zu lesen und Dash zu verstehen, besuchen Sie https://plotly.com/dash/
Plotlys Python Graphing-Bibliothek stellt interaktive, publikationsqualitätsgründige Grafiken her. Das modul (normalerweise als PX importierte Plotly.express) enthält Funktionen, die ganze Figuren gleichzeitig erstellen können und als Plotly Express oder PX bezeichnet werden. Plotly Express ist ein integrierter Bestandteil der Plotly-Bibliothek und der empfohlene Ausgangspunkt für die Erstellung der häufigsten Zahlen. Um mehr über Plotly zu erfahren, besuchen Sie https://plotly.com/python/
Da dies das erste Mal ist, dass das Dashboard das Dashboard verwendet hat, sieht das Dashboard ziemlich einfach aus (bestehend aus interaktiven Balkendiagrammen und Kreisdiagrammen mit Fliesen und Baumkarten) und dennoch sehr informativ. Wir planen, mehr Veränderungen in Bezug auf Feinheiten in der Ebene oder des Gebiets von Studien/Arbeiten zu integrieren.
HINWEIS: Es ist wichtig, dass der Assets -Ordner in demselben Ordner, in dem Sie Ihre Anwendung implementieren,, da er für die festen Zwecke erforderlich ist.


