MyDataSciencePortfolio由以下工具贊助。請通過查看並註冊免費試用? ✌️✌️幫助我們提供幫助。
介紹
客戶流失研究
中型博客文章
電影推薦系統
舊金山犯罪研究
概要聚類
有用的NLP庫
未來的潛在項目
附錄
歡迎來到我很棒的數據科學項目組合。在我的存儲庫中,您可以通過統計方法和建立機器學習模型找到一些真實世界業務問題的絕妙和實用解決方案。我的大多數項目都將在Jupyter筆記本中進行演示。 Jupyter Notebook是與世界分享我的作品的絕佳方式。它附帶了Markdown和Interactive Python環境,它也可移植到Databricks和Google Colagoratory等其他平台。
我的項目集合涵蓋了各種流行的機器學習應用程序,例如自然語言處理,帶有火花的大型機器學習和推薦系統。還有更多。潛在的未來項目包括文本摘要,股票價格預測,通過加強學習的交易策略和計算機願景。
流失率是重要的業務指標之一。公司可以比較其流失和增長率,以確定是否存在整體增長或損失。當流失率高於增長率時,該公司的客戶群損失。
為什麼客戶流失並停止使用公司的服務?下一季度流失的估計量是多少?能夠回答以上兩個問題可以提供有意義的見解,了解該公司當前朝著什麼方向發展,以及公司如何改善其產品和服務,以便構造人留下來。
Medium是一個流行的博客發布平台,具有大量內容和文本數據。人們在發表什麼?這些博客文章中的潛在主題是什麼?是什麼使Blogpost流行?當今技術的趨勢是什麼?該項目旨在通過可視化,分析,自然語言過程和機器學習技術來回答問題。
具體來說,我將使用Seaborn和Pandas進行探索性分析。對於機器學習建模,我選擇K-均值, TSVD和litentdirichletallation來進行主題建模。我將使用兩個不同的ML框架進行這項研究: Sklearn和Spark 。
Sklearn是一個很棒的Python機器學習庫,用於數據科學家。
但是,在大數據時代,大多數數據分析都是基於分佈式計算的。 Spark是分佈式集群計算框架,並為編程具有隱式數據並行性和容錯性的整個群集提供了一個接口。
我們今天使用的大多數產品都由推薦引擎提供動力。 YouTube,Netflix,Amazon,Pinterest和其他數據產品均依賴於建議引擎來過濾數百萬個內容,並向其用戶提出個性化建議。
我自己構建推薦系統真是太酷了。當我和家人共度時光時,我喜歡看電影。因此,我決定為自己製作一部推薦電影。總體而言,推薦系統可以鬆散分為三類:基於內容的系統,協作過濾系統和混合系統(使用其他兩個組合)。
我的項目專注於協作過濾系統。基於協作過濾的系統使用用戶推薦其他項目的操作。通常,它們可以基於用戶或基於項目。通常,基於項目的方法比基於用戶的方法優先。由於用戶的動態性質,基於用戶的方法通常很難擴展,而項目通常不會變化太大,因此通常可以離線計算基於項目的方法。
但是,基於項目和基於用戶的協作過濾仍然面臨著以下挑戰:
為了克服上述挑戰,我將使用矩陣分解來學習用戶和項目之間的潛在特徵和互動
舊金山一直是居住最昂貴的城市。越來越多的初創企業和公司在城市中移動,並吸引了越來越多的人才進入城市。但是,犯罪事件似乎也隨著其居民的平均收入而上升。汽車闖入舊金山的“流行病”水平。
在這項研究中,我將使用SPARK分析SFPD的15年報告的事件數據集,並使用機器學習方法來了解SF中的犯罪模式和分佈。最後,我將建立一個時間序列的預測模型,以預測犯罪率
今天,我們可以收集比以往更多的非結構化數據。與結構化數據不同,非結構化數據不是通過預定義的數據模型或模式構建的,而是它具有內部結構。非結構化數據的一個示例是文本數據,例如繪圖摘要,電影的摘要。
在此項目中,我將使用經典的NLP技術:單詞令牌化,單詞詞幹,停止詞刪除, TF-IDF以及更多內容來清潔原始文本數據並從原始文本中提取功能。然後,我將使用無監督的學習模型,例如K-均值和litentdirichletallocation將未標記的文檔分為不同的組,可視化結果並確定其潛在主題/結構。
通過將聚類技術應用於非結構化數據,我們可以開始發現數據內部的內部結構並確定文檔之間的相似性。隨著文檔之間的相似性分數,我們開始具有從任何文檔存儲中查詢和分析文檔的能力。
自然語言處理(NLP)是一個趨勢領域,講述瞭如何編程機器處理和分析大量自然語言數據,並從中提取有意義的信息。
有許多旨在解決NLP問題的工具和庫。最常用的庫是自然語言工具包(NLTK) , Spacy , Sklearn NLP工具包, Gensim , Pattern , Polyglot等。我的筆記本將介紹每個NLP庫的基本用法,優缺點。