데이터 과학 포트폴리오
학업, 자체 학습 및 취미 목적으로 완료 한 데이터 과학 프로젝트 포트폴리오를 포함하는 저장소. Jupyter Notebooks 및 R Markdown 파일 (RPUBS에 게시 됨) 형태로 제공됩니다.
포트폴리오 탐색에 대한 시각적으로 즐거운 경험을 보려면 sajalsharma.com을 확인하십시오.
R 포트폴리오는 여기에 있습니다.
참고 : 프로젝트에 사용 된 데이터 (데이터 디렉토리에 액세스)는 데모 목적으로 만 사용됩니다.
현지에서 파이썬 노트북을 실행하는 지침
- 요구 사항을 사용하여 종속성을 설치하십시오.
- Jupyter Notebook Server, VSCODE 등을 사용하여 평소와 같이 노트북을 실행하십시오.
내용물
기계 학습
- 보스턴 주택 가격 예측 : 다양한 통계 분석 도구를 사용하여 보스턴 부동산 시장에서 주어진 주택의 가치를 예측하는 모델. 고객이 머신 러닝을 사용하여 집을 판매 할 수있는 최고의 가격을 확인했습니다.
- 감독 학습 : 자선 기부자 찾기 : 개인이 가상의 비영리 단체에 대한 기증자를 식별하기 위해 개인이 5 만 달러 이상을 벌고 있는지 정확하게 예측하는 모델을 구축하기 위해 여러 가지 감독 학습 알고리즘을 테스트합니다.
- 감독되지 않은 학습 : 고객 세그먼트 생성 : 내부 구조, 패턴 및 지식을 발견하기 위해 다양한 고객의 연간 지출 금액 (화폐 단위로보고)에 대한 데이터가 포함 된 데이터 세트 분석.
- 강화 학습 : SmartCAB 훈련 운전 : 목표를 향해 환경을 통해 SmartCAB를 탐색하는 최적화 된 Q- 러닝 주행 에이전트를 만듭니다.
- 딥 러닝 : CNNS를 사용한 숫자 시퀀스 인식 : MNIST의 이미지를 연결하여 생성 된 합성 데이터를 사용하여 일련의 숫자 시퀀스를 인식하는 법을 배우는 컨볼 루션 신경망을 설계하고 구현합니다.
도구 : Scikit-Learn, Pandas, Seaborn, Matplotlib, Pygame
자연어 처리
재난 메시지 분류기 : 재난 메시지의 범주를 예측하는 다중 라벨 분류 모델. 데이터 처리를위한 ETL 파이프 라인, 모델을 교육하기위한 ML 파이프 라인 및 모델을 사용하여 메시지를 분류 할 수있는 시각화와 함께 웹 앱이 포함되어 있습니다. 도구 : NLTK, Scikit-Learn, Xgboost, Flask, Plotly
트윗에 대한 3 방향 감정 분석 : NLTK의 감정 분석 엔진을 사용하지 않고 트윗에 대한 3 방향 극성 (양성, 음성, 중립) 분류 시스템.
크로스 언어 정보 검색 : 독일어로 쿼리가 주어지면 영어로 작성된 텍스트 문서를 검색하는 교차 언어 정보 검색 시스템 (CLIR).
도구 : NLTK, Scikit
데이터 분석 및 시각화
- 파이썬
- 멜버른의 확장 가능한 보행 성 분석 : 멜버른, 빅토리아에서 교외의 보행 성 분석 및 그 의미.
- 타이타닉 데이터 세트 - 탐색 적 분석 : 팬더 및 해상 시각화를 사용하여 RMS 타이타닉에 승객의 탐색 적 분석.
- 기술 주식에 대한 주식 시장 분석 : 시간에 따른 가격 변화, 일일 수익 및 주식 행동 예측을 포함한 기술 주식 분석.
- 2016 US General Election Poll 데이터 분석 : 2016 년 미국 일반 선거 여론 조사 데이터에 대한 매우 간단한 분석.
- 911 통화 - 탐색 적 분석 : Kaggle에서 호스팅 된 911 통화 데이터 세트의 탐색 적 데이터 분석. 다른 변수에서 유용한 기능의 추출을 보여줍니다.
도구 : 팬더, 폴리움, 바닷 전 및 matplotlib
- 아르 자형
- 행동 위험 요소 감시 시스템 (BRFSS) 2013 : 탐색 적 데이터 분석 : BRFSS-2013 데이터 세트의 탐색 적 분석, 교육 및 식습관, 수면 및 정신 건강, 흡연, 음주 및 일반 건강 사이의 관계를 조사하는 데 중점을 둡니다.
- 추론 통계 : 남성이나 여성은 성교육에 반대합니까? : GSS (General Social Survey) 데이터 세트를 사용하여 2012 년에 미국에서 18 세 이상인 남성이 여성보다 공립학교의 성교육에 반대 할 가능성이 더 높습니다.
- 데이터 시각화 : 부패 및 인간 개발 : '인간 개발 지수'와 국가의 '부패 인식 지수'사이의 관계에 대한 산란 플롯.
- Moneyball : 잃어버린 플레이어 분석 및 교체 : 2001 년 오클랜드 A에서 잃어버린 주요 플레이어의 교체를보기 위해 2001 년 야구 데이터 탐색. 책/영화 : Moneyball에서 영감을 얻었습니다.
마이크로 프로젝트 :
파이썬
- 로지스틱 회귀가있는 ML : 로지스틱 회귀를 사용하여 인터넷 사용자가 광고를 클릭했는지 여부를 예측합니다.
- 가장 가까운 이웃을 가진 ML : KNN을 사용하여 가짜 데이터 세트에서 인스턴스를 두 개의 대상 클래스로 분류하는 동시에 팔꿈치 방법을 사용하여 K에 대한 최고의 값을 선택합니다.
- 의사 결정 트리와 임의의 산림이있는 ML : 의사 결정 트리와 임의의 숲을 사용하여 대출 기관이 대출을 돌려받을 것인지 예측합니다. LendingClub.com에서 공개적으로 사용 가능한 데이터를 사용합니다
- 추천 시스템을 사용하는 영화 권장 사항 : 사용자 검토 유사성을 기반으로 영화 권장 사항을 만드는 추천 시스템을 구축하는 마이크로 프로젝트.
아르 자형
- ML 로지스틱 회귀 : 로지스틱 회귀를 사용하는 사람의 급여 클래스 예측.
- ML 의사 결정 트리 및 임의의 숲 : 의사 결정 트리와 임의의 숲을 사용하여 학교를 개인 또는 공개로 분류합니다.
나는 또한 다른 모든 종류의 기술에 덤벼 들었습니다. 여기에서 일반 포트폴리오를 찾을 수 있습니다.
당신이 본 것을 좋아한다면, 포트폴리오, 작업 기회 또는 협업에 대해 나와 대화하고 싶다면 [email protected]으로 이메일을 촬영하십시오.
내 작품을 지원하십시오
이 프로젝트가 당신에게 영감을 주거나, 당신에게 자신의 포트폴리오에 대한 아이디어를 주거나 당신을 도와 주셨다면 커피를 사는 것을 고려하십시오.