셀레늄과 아름다운 수프 라이브러리를 사용하여 파이썬으로 웹 스크래핑 스크립트를 설계하여 사용자의 모든 링크드 인 연결에 대한 정보를 추출하고 수집 된 데이터를 변환하고 합성 데이터에 대한 기본 데이터 분석을 수행했습니다. 그런 다음 Dash Framework를 사용하여 웹 응용 프로그램 대시 보드를 개발하여 분석 결과를 제시했습니다. 위에서 볼 수 있듯이 프로젝트는 3 가지 부분으로 나뉩니다.
Selenium과 아름다운 수프 라이브러리를 사용하여 Web Scraping을 수행하여 LinkedIn 사용자의 프로필에서 정보를 추출했습니다. 중고 3 가지 방법 : 로그인, Connections_Scraper 및 Profile_Scraper. 이것들은 Connections_data, 교육 및 경험의 3 가지 데이터 프레임으로 나뉩니다.
Connections_Data : 추출 된 이름, 제목, 위치, 프로필, 연결 수, 프로젝트 수, 알려진 언어 수 및 Connections_Data의 최고 기술.
교육 : 추출 된 연구소, 교육 학위 및 연도 범위.
경험 : 경험 데이터 프레임에 대한 추출 프로필, 위치, 회사, 기간.
수집 된 데이터는 원시 형태였으며 분석하고 통찰력을 얻기 위해 청소 및 변환해야했습니다. Connections_Data, 경험 및 교육의 3 가지 데이터 프레임이 있습니다.
Connections_Data Dataframe의 경우 위치 열을 청소하여 '영역'과 같은 단어없이 도시 이름을 표시하고, 연결된 수의 연결 수, 0-100, 100-200, ... 언어 수, 프로젝트 수, 프로젝트 수, 각 스크린의 상위 3 개 특집 기술에 대한 사전을 만들었습니다.
교육 데이터 프레임의 경우, 연구소 및 학위 이름을 기준으로 학습 분야를 연구 분야를 3 가지 범주로 분류했습니다 (당분간 단순성) : 과학, 관리 및 예술은 특정 교육 수준에 대한 프로필에 제공된 연도 범위를 기준으로 교육 상태를 발견했습니다. 또한 프로필의 교육 분야에서 '학사', '마스터'등이라는 단어를 바탕으로 연결에 대한 최고 수준의 교육을 발견했습니다.
Experience Dataframe의 경우 포지션 열을 3 가지 범주로 나누었습니다. 풀 타임, 인턴, 학생 담당자 또는 자원 봉사자는 6 개월에서 20 세 이상으로 시작하는 기간 칼럼에서 6 개의 범주를 만들었습니다.
Dash는 ML 및 Data Science Web Apps를 구축하기위한 가장 다운로드 된 신뢰할 수있는 프레임 워크입니다. 일반적으로 프론트 엔드, 백엔드 및 DEV OPS 팀이 필요한 풀 스택 앱을 DASH를 사용하여 데이터 과학자가 몇 시간 안에 구축하고 배포 할 수 있습니다. 대시 오픈 소스를 사용하면 대시 앱이 로컬 랩톱 또는 워크 스테이션에서 실행되지만 조직의 다른 사람들은 쉽게 액세스 할 수 없습니다. 자세한 내용을 읽고 Dash를 이해하려면 https://plotly.com/dash/를 방문하십시오.
Plotly의 파이썬 그래프 라이브러리는 대화식, 출판 품질 그래프를 만듭니다. plotly.express 모듈 (일반적으로 px로 가져 오기)에는 한 번에 전체 그림을 생성 할 수있는 함수가 포함되어 있으며 Plotly Express 또는 PX라고합니다. Plotly Express는 Plotly 라이브러리의 내장 부분이며 가장 일반적인 수치를 만드는 데 권장되는 시작점입니다. Plotly에 대해 자세히 알아 보려면 https://plotly.com/python/을 방문하십시오.
대시를 처음 사용한 것은 대시 보드가 상당히 간단 해 보입니다 (대화식 막대 차트와 타일과 트리 맵이있는 파이 차트로 구성됨). 우리는 나중에 학습/작업 수준에서 복잡성과 관련하여 더 많은 변화를 통합 할 계획입니다.
참고 : 강성 목적으로 필요하기 때문에 응용 프로그램을 구현하는 것과 동일한 폴더에 자산 폴더를 두는 것이 중요합니다.


