ออกแบบสคริปต์ขูดเว็บใน Python โดยใช้ซีลีเนียมและไลบรารีซุปที่สวยงามเพื่อดึงข้อมูลของการเชื่อมต่อ LinkedIn ทั้งหมดของผู้ใช้เปลี่ยนข้อมูลที่รวบรวมและทำการวิเคราะห์ข้อมูลพื้นฐานบนข้อมูลสังเคราะห์ จากนั้นพัฒนาแผงควบคุมเว็บแอปพลิเคชันโดยใช้เฟรมเวิร์ก Dash เพื่อนำเสนอผลการวิเคราะห์ ตามที่สามารถสังเกตได้ข้างต้นโครงการแบ่งออกเป็น 3 ส่วน:
ใช้ไลบรารีซีลีเนียมและซุปที่สวยงามเพื่อทำการขูดเว็บเพื่อแยกข้อมูลจากโปรไฟล์ของผู้ใช้ LinkedIn ใช้ 3 วิธี: เข้าสู่ระบบ, connections_scraper และ profile_scraper สิ่งเหล่านี้แบ่งออกเป็น 3 dataframes: Connections_data, การศึกษาและประสบการณ์
Connections_data: ชื่อ, ชื่อ, ตำแหน่ง, ตำแหน่ง, โปรไฟล์, จำนวนการเชื่อมต่อ, จำนวนโครงการ, จำนวนภาษาที่รู้จักและทักษะสูงสุดสำหรับการเชื่อมต่อ _data
การศึกษา: สถาบันสกัดระดับปริญญาและช่วงการศึกษา
ประสบการณ์: สกัดโปรไฟล์ตำแหน่ง บริษัท ระยะเวลาสำหรับประสบการณ์ DataFrame
ข้อมูลที่รวบรวมอยู่ในรูปแบบดิบและต้องทำความสะอาดและเปลี่ยนเพื่อให้วิเคราะห์และได้รับข้อมูลเชิงลึก มี 3 dataframes คือ: Connections_data, ประสบการณ์และการศึกษา
สำหรับการเชื่อมต่อ _data dataframe ทำความสะอาดคอลัมน์ตำแหน่งเพื่อแสดงชื่อเมืองโดยไม่ต้องใช้คำเช่น 'พื้นที่' แบ่งจำนวนการเชื่อมต่อออกเป็น 6 ประเภทของช่วงเช่น 0-100, 100-200, ... ถึง 500+, จำนวนภาษา, จำนวนโครงการและสร้างพจนานุกรม
สำหรับ DataFrame การศึกษาบนพื้นฐานของสถาบันและชื่อปริญญาแบ่งสาขาการศึกษาออกเป็น 3 หมวดหมู่ (ในขณะนี้เพื่อความเรียบง่าย): วิทยาศาสตร์การจัดการและศิลปะพบสถานะของการศึกษาบนพื้นฐานของช่วงปีที่มีให้ในระดับการศึกษาเฉพาะ นอกจากนี้ยังพบว่าการศึกษาระดับสูงสุดสำหรับการเชื่อมต่อตามคำว่า 'ปริญญาตรี', 'อาจารย์' ฯลฯ ที่ได้รับในสาขาการศึกษาในโปรไฟล์
สำหรับประสบการณ์ DataFrame แบ่งคอลัมน์ตำแหน่งออกเป็น 3 หมวดหมู่: เต็มเวลาฝึกงานตัวแทนนักเรียนหรืออาสาสมัครทำ 6 หมวดหมู่ภายใต้คอลัมน์ระยะเวลาเริ่มต้นด้วย <6 เดือนถึง 20 ปีขึ้นไป
DASH เป็นเฟรมเวิร์กที่เชื่อถือได้มากที่สุดสำหรับการสร้าง ML & Data Science Web Apps แอพสแต็คเต็มรูปแบบซึ่งโดยทั่วไปจะต้องมีทีม Front-End, Backend และ DEV OPS สามารถสร้างและปรับใช้ได้หลายชั่วโมงโดยนักวิทยาศาสตร์ข้อมูลด้วย DASH ด้วย Dash Open Source แอพ Dash ทำงานบนแล็ปท็อปหรือเวิร์กสเตชันในพื้นที่ของคุณ แต่ผู้อื่นไม่สามารถเข้าถึงได้ง่ายในองค์กรของคุณ หากต้องการอ่านเพิ่มเติมและทำความเข้าใจ Dash โปรดไปที่ https://plotly.com/dash/
ไลบรารีกราฟ Python ของ Plotly ทำให้กราฟคุณภาพการตีพิมพ์แบบโต้ตอบ โมดูล plotly.Express (โดยปกติจะนำเข้าเป็น PX) มีฟังก์ชั่นที่สามารถสร้างตัวเลขทั้งหมดในครั้งเดียวและเรียกว่า Plotly Express หรือ PX Plotly Express เป็นส่วนหนึ่งของไลบรารีในตัวและเป็นจุดเริ่มต้นที่แนะนำสำหรับการสร้างตัวเลขที่พบบ่อยที่สุด หากต้องการทราบข้อมูลเพิ่มเติมเกี่ยวกับการวางแผนเยี่ยมชม https://plotly.com/python/
เนื่องจากนี่เป็นครั้งแรกที่เราใช้ Dash แดชบอร์ดจึงดูค่อนข้างง่าย (ประกอบด้วยแผนภูมิแท่งแบบโต้ตอบและแผนภูมิวงกลมที่มีกระเบื้องและแผนที่ต้นไม้) แต่ให้ข้อมูลมาก เราวางแผนที่จะรวมการเปลี่ยนแปลงเพิ่มเติมเกี่ยวกับความซับซ้อนในระดับหรือสาขาการศึกษา/การทำงานในภายหลัง
หมายเหตุ: เป็นสิ่งสำคัญที่จะต้องมีโฟลเดอร์สินทรัพย์ในโฟลเดอร์เดียวกันกับที่คุณใช้แอปพลิเคชันของคุณเนื่องจากจำเป็นสำหรับวัตถุประสงค์ในการเย็บ


