Dirancang skrip pengikisan web dalam Python menggunakan selenium dan perpustakaan sup yang indah untuk mengekstrak informasi dari semua koneksi LinkedIn dari pengguna, mengubah data yang dikumpulkan dan melakukan analisis data dasar pada data yang disintesis. Kemudian mengembangkan dasbor aplikasi web menggunakan Dash Framework untuk menyajikan temuan analisis. Seperti yang dapat diamati di atas, proyek ini dibagi menjadi 3 bagian:
Menggunakan selenium dan perpustakaan sup yang indah untuk melakukan pengikisan web untuk mengekstrak informasi dari profil pengguna LinkedIn. Digunakan 3 Metode: Login, Connections_scraper dan Profile_scraper. Ini dibagi menjadi 3 DataFrames: Connections_Data, pendidikan dan pengalaman.
Connections_Data: Nama yang diekstraksi, judul, lokasi, profil, jumlah koneksi, jumlah proyek, jumlah bahasa yang diketahui dan keterampilan tertinggi untuk Connections_Data.
Pendidikan: Institut yang Diekstraksi, Gelar dan Kisaran Tahun untuk Pendidikan.
Pengalaman: Profil yang diekstraksi, posisi, perusahaan, durasi untuk pengalaman DataFrame.
Data yang dikumpulkan berada dalam bentuk mentah dan harus dibersihkan dan diubah untuk dianalisis dan mendapatkan wawasan dari. Ada 3 DataFrames yaitu: Connections_Data, Pengalaman dan Pendidikan.
Untuk DataFrame Connections_Data, membersihkan kolom lokasi untuk hanya menampilkan nama kota tanpa kata-kata seperti 'area', terbagi dalam jumlah koneksi menjadi 6 kategori jangkauan seperti 0-100, 100-200, ... hingga 500+, jumlah bahasa, jumlah proyek dan membuat kamus untuk 3 keterampilan unggulan teratas dari masing-masing koneksi dan akhirnya menghitung jumlah hal ini.
Untuk DataFrame Pendidikan, berdasarkan Institut dan Nama Gelar mengklasifikasikan bidang studi ke dalam 3 kategori (untuk saat ini, untuk kesederhanaan): sains, manajemen dan seni, menemukan status pendidikan berdasarkan kisaran tahun yang disediakan pada profil untuk tingkat pendidikan tertentu. Juga menemukan tingkat pendidikan tertinggi untuk koneksi berdasarkan kata 'sarjana', 'master' dll yang diberikan di bidang pendidikan di profil.
Untuk pengalaman DataFrame, membagi kolom posisi menjadi 3 kategori: penuh waktu, magang, perwakilan siswa atau sukarelawan, membuat 6 kategori di bawah kolom durasi dimulai dengan <6 bulan hingga 20+ tahun.
Dash adalah kerangka kerja yang paling diunduh dan tepercaya untuk membangun aplikasi web ML & Data Science. Aplikasi tumpukan penuh yang biasanya membutuhkan tim front-end, backend, dan dev ops sekarang dapat dibangun dan digunakan dalam jam oleh para ilmuwan data dengan Dash. Dengan Dash Open Source, aplikasi DASH berjalan di laptop atau workstation lokal Anda, tetapi tidak dapat dengan mudah diakses oleh orang lain di organisasi Anda. Untuk membaca lebih lanjut dan memahami Dash, kunjungi https://plotly.com/dash/
Perpustakaan Graphing Python Plotly membuat grafik interaktif dan berkualitas publikasi. Modul Plotly.Express (biasanya diimpor sebagai PX) berisi fungsi yang dapat membuat seluruh angka sekaligus, dan disebut sebagai Plotly Express atau PX. Plotly Express adalah bagian built-in dari perpustakaan plotly, dan merupakan titik awal yang disarankan untuk membuat angka yang paling umum. Untuk mengetahui lebih banyak tentang Plotly, kunjungi https://plotly.com/python/
Karena ini adalah pertama kalinya kami menggunakan Dash, dasbor terlihat cukup sederhana (terdiri dari diagram batang interaktif dan diagram lingkaran dengan ubin dan peta pohon), namun sangat informatif. Kami berencana untuk menggabungkan lebih banyak perubahan sehubungan dengan seluk -beluk di level atau bidang studi/pekerjaan nanti.
Catatan: Penting untuk memiliki folder aset di folder yang sama dengan Anda mengimplementasikan aplikasi Anda, karena itu perlu untuk tujuan Stlying.


