MyDatasciencePortfolio는 다음 도구가 후원하고 있습니다. 무료 평가판에 가입하여 우리를 지원하도록 도와주세요?
소개
고객 이탈 연구
중간 블로그 포스트
영화 추천자 시스템
샌프란시스코 범죄 연구
시놉시스 클러스터링
유용한 NLP 라이브러리
미래의 잠재적 프로젝트
충수
My Awesome Data Science Project 포트폴리오에 오신 것을 환영합니다. 내 리포지토리에서는 통계적 방법과 국가의 기계 학습 모델을 사용한 실제 비즈니스 문제에 대한 멋진 솔루션을 찾을 수 있습니다. 내 프로젝트의 대부분은 Jupyter Notebook에서 시행됩니다. Jupyter Notebook은 저의 작품을 세계와 공유하는 훌륭한 방법입니다. Markdown 및 대화식 Python 환경이 제공되며 Databricks 및 Google 공동 작업과 같은 다른 플랫폼에도 휴대 할 수 있습니다.
내 프로젝트 컬렉션은 자연어 처리 , Spark를 사용한 대규모 기계 학습 및 추천 시스템 과 같은 다양한 트렌드 머신 러닝 응용 프로그램을 다룹니다. 앞으로 더 많은 것이 있습니다. 잠재적 인 향후 프로젝트에는 텍스트 요약 , 주가 예측 , 강화 학습을 통한 거래 전략 및 컴퓨터 비전이 포함됩니다.
이탈률은 중요한 비즈니스 메트릭 중 하나입니다. 회사는 이탈과 성장률을 비교하여 전반적인 성장 또는 손실이 있는지 확인할 수 있습니다. 이탈률이 성장률보다 높으면 회사는 고객 기반에서 손실을 경험했습니다.
고객이 회사의 서비스 사용을 중단하고 왜 고객이 멈추는가? 다음 분기의 이탈 금액은 얼마입니까? 위의 두 가지 질문에 대답 할 수 있으면 회사가 현재 어떤 방향으로 향하고 있는지, 회사가 제품과 서비스를 개선하여 상수도를 유지할 수있는 방법에 대한 의미있는 통찰력을 제공 할 수 있습니다.
매체는 엄청난 양의 내용과 텍스트 데이터를 가진 인기있는 블로그 포스트 게시 플랫폼입니다. 사람들이 출판하는 것은 무엇입니까? 그 블로그 포스트의 잠재적 인 주제는 무엇입니까? 블로그 포스트가 인기있는 이유는 무엇입니까? 그리고 오늘날의 기술의 추세는 무엇입니까? 이 프로젝트는 시각화, 분석, 자연어 프로세스 및 기계 학습 기술을 통해 질문에 답변하는 것을 목표로합니다.
구체적으로, 나는 탐색 적 분석을 위해 Seaborn 과 Pandas를 사용합니다. 머신 러닝 모델링의 경우 주제 모델링을 위해 k-means , tsvd 및 latentdirichletallocation을 선택합니다. 나는이 연구를 두 가지 다른 ML 프레임 워크 인 Sklearn and Spark 로 수행 할 것입니다.
Sklearn 은 데이터 과학자를위한 훌륭한 Python Machine Learning Library입니다.
그러나 빅 데이터 시대에 대부분의 데이터 분석은 분산 컴퓨팅을 전제로합니다. Spark 는 클러스터 컴퓨팅 프레임 워크로 분산되며 전체 클러스터를 암시 적 데이터 병렬 처리 및 결함 공차로 프로그래밍하기위한 인터페이스를 제공합니다.
오늘날 우리가 사용하는 대부분의 제품은 권장 엔진으로 구동됩니다. YouTube, Netflix, Amazon, Pinterest 및 기타 데이터 제품의 긴 목록은 모두 권장 엔진에 의존하여 수백만 개의 컨텐츠를 필터링하고 사용자에게 개인화 된 권장 사항을 작성합니다.
추천 시스템을 직접 구축하는 것은 너무 멋질 것입니다. 나는 가족과 함께 시간을 보낼 때 영화를 보는 것을 좋아합니다. 그래서 나는 나 자신을 위해 영화 추천자를 만들기로 결정했습니다. 일반적으로 추천 시스템은 컨텐츠 기반 시스템 , 협업 필터링 시스템 및 하이브리드 시스템 (다른 두 가지의 조합을 사용함)의 세 가지 범주로 느슨하게 분류 될 수 있습니다.
내 프로젝트는 협업 필터링 시스템에 중점을 둡니다. 협업 필터링 기반 시스템은 사용자의 작업을 사용하여 다른 항목을 추천합니다. 일반적으로 사용자 기반 또는 항목 기반 일 수 있습니다. 항목 기반 접근 방식은 일반적으로 사용자 기반 접근 방식보다 선호됩니다. 사용자 기반 접근 방식은 사용자의 동적 특성으로 인해 스케일을 확장하기가 더 어렵지만 항목은 일반적으로 크게 변경되지 않으므로 항목 기반 접근 방식은 종종 오프라인으로 계산할 수 있습니다.
그러나 항목 기반 및 사용자 기반 협업 필터링은 여전히 도전에 직면 해 있습니다.
위의 도전을 극복하기 위해 매트릭스 인수화를 사용하여 잠재적 인 기능과 사용자와 항목 간의 상호 작용을 배우게됩니다.
샌프란시스코는 거주하기에 가장 비싼 도시 중 하나로 발생했습니다. 점점 더 많은 신생 기업과 회사가 도시로 이사하여 점점 더 많은 재능을 도시로 끌어들입니다. 그러나 범죄 사건은 거주자의 평균 소득으로 증가하는 것으로 보입니다. 샌프란시스코에서 자동차 브레이크 인은 '전염병'레벨을 쳤다.
이 연구에서는 Spark를 사용하여 SFPD의 15 년보고 된 사고 데이터 세트를 분석하고 기계 학습 방법을 사용하여 SF의 범죄 패턴 및 분포를 이해합니다. 마지막으로, 나는 범죄율을 예측하기 위해 시계열 예측 모델을 구축 할 것입니다.
오늘날, 우리는 그 어느 때보다도 더 많은 구조화되지 않은 데이터를 수집 할 수 있습니다. 구조화 된 데이터와 달리 비정형 데이터는 사전 정의 된 데이터 모델 또는 스키마를 통해 구성되지 않지만 내부 구조가 있습니다. 구조화되지 않은 데이터의 한 예는 플롯 요약, 영화 개요와 같은 텍스트 데이터입니다.
이 프로젝트에서는 Word Tokenization , Word Stemming , Stopword Removal , TF-IDF 등의 고전적인 NLP 기술을 사용하여 원시 텍스트 데이터를 청소하고 원시 텍스트에서 기능을 추출합니다. 그런 다음 K-Means 및 LatentDirichletallocation 과 같은 감독되지 않은 학습 모델을 사용하여 표지되지 않은 문서를 다른 그룹으로 클러스터하고 결과를 시각화하며 잠재적 인 주제/구조를 식별합니다.
구조화되지 않은 데이터에 클러스터링 기술이 적용되면 데이터 내부의 내부 구조를 발견하고 문서 간 유사성을 식별 할 수 있습니다. 문서 간의 유사성 점수로 인해 모든 문서 저장소에서 문서를 쿼리하고 분석 할 수있는 기능이 시작됩니다.
NLP (Natural Language Processing)는 많은 양의 자연 언어 데이터를 처리하고 분석하고 의미있는 정보를 추출하도록 기계를 프로그래밍하는 방법에 대한 인기있는 영역입니다.
NLP 문제를 해결하기 위해 설계된 많은 도구와 라이브러리가 있습니다. 가장 일반적으로 사용되는 라이브러리는 NLTK (Natrual Language Toolkit) , Spacy , Sklearn NLP Toolkit , Gensim , Poltern , Polyglot 및 기타 여러 가지입니다. 내 노트북은 각 NLP 라이브러리의 기본 사용, 장단점을 소개합니다.