
一個開源數據科學存儲庫,以學習和應用於解決現實世界問題。
這是開始研究數據科學的快捷方式。只需按照以下步驟回答問題:“數據科學是什麼,我應該學習什麼才能學習數據科學?”
| 贊助 | 瀝青 |
|---|---|
| --- | 成為第一個贊助商! [email protected] |
^ back to top ^
數據科學是當今計算機和互聯網農田上最熱門的主題之一。人們一直從應用程序和系統收集數據,直到今天,現在是時候分析它們了。接下來的步驟是從數據中產生建議並創建對未來的預測。在這裡,您可以找到數據科學的最大問題以及專家的數百個答案。
| 關聯 | 預覽 |
|---|---|
| 什麼是數據科學 @ O'Reilly | 數據科學家將企業家精神與耐心相結合,願意逐步構建數據產品,探索能力以及在解決方案上迭代的能力。它們本質上是跨學科的。他們可以解決問題的所有方面,從初始數據收集和數據調理到得出結論。他們可以在框外思考,以提出新的方法來查看問題,或者解決非常明確的問題:“這裡有很多數據,您可以從中做出什麼?” |
| 什麼是數據科學 @ quora | 數據科學是數據的多個方面的組合,例如技術,算法開發和數據干預,以研究數據,分析數據並找到解決困難問題的創新解決方案。基本上,數據科學是通過尋找創新方式來分析數據和驅動業務增長的驅動。 |
| 21世紀最性感的工作 | 當今的數據科學家類似於1980年代和1990年代的華爾街“ Quants”。在那些日子裡,具有物理和數學背景的人流向投資銀行和對沖基金,在那裡他們可以設計全新的算法和數據策略。然後,各種大學開發了金融工程領域的碩士課程,該計劃耗盡了第二代人才,這是主流公司更容易獲得的。該模式在1990年代晚些時候與搜索工程師一起重複,搜索工程師很快就在計算機科學計劃中教授了稀有技能。 |
| 維基百科 | 數據科學是一個跨學科領域,使用科學方法,過程,算法和系統來從許多結構和非結構化數據中提取知識和見解。數據科學與數據挖掘,機器學習和大數據有關。 |
| 如何成為數據科學家 | 數據科學家是大數據牧馬人,收集和分析了大量的結構化和非結構化數據。數據科學家的角色結合了計算機科學,統計和數學。他們分析,處理和模型數據,然後解釋結果,以為公司和其他組織創建可行的計劃。 |
| #DataScienciencience的簡短歷史 | 數據科學家如何變得性感的故事主要是關於成熟統計學紀律與非常年輕的單一計算機科學結合的故事。 “數據科學”一詞直到最近才出現,才能專門指定一個新職業,該專業有望理解大量的大數據。但是,了解數據的歷史悠久,多年來,科學家,統計學家,圖書館員,計算機科學家和其他人已經討論了。以下時間表可以追溯“數據科學”一詞及其使用,試圖定義它及相關術語的演變。 |
| 數據科學家的軟件開發資源 | 數據科學家專注於通過探索性分析,統計和模型來理解數據。軟件開發人員使用不同的工具應用一組單獨的知識。儘管他們的重點似乎無關,但數據科學團隊可以從採用軟件開發最佳實踐中受益。版本控制,自動化測試以及其他開發技能有助於創建可重複的,可以生產的代碼和工具。 |
| 數據科學家路線圖 | 數據科學是當今數據驅動的世界中的絕佳職業選擇,每天生成約3.287億噸數據。而且這個數字僅在日常增加,這又增加了對可以利用這些數據來推動業務增長的熟練數據科學家的需求。 |
| 導航成為數據科學家的道路 | _ Data Science是當今最重要的職業之一。隨著企業越來越依靠數據來做出決策,對熟練數據科學家的需求迅速發展。無論是科技公司,醫療保健組織,甚至是政府機構,數據科學家都在將原始數據變成寶貴的見解中發揮著至關重要的作用。但是,您如何成為數據科學家,尤其是如果您剛開始? _ |
^ back to top ^
雖然並非嚴格必要,但是擁有編程語言是作為數據科學家有效的重要技能。目前,最受歡迎的語言是Python ,緊隨其後的是R。 Python是一種通用的腳本語言,可在各種領域中看到應用。 r是一種針對統計範圍的特定域語言,它包含許多開箱即用的常見統計工具。
Python是迄今為止科學中最受歡迎的語言,這在很大程度上是由於它可以輕鬆使用,並且是用戶生成的軟件包的充滿活力的生態系統。要安裝包裹,有兩種主要方法:PIP(調用為pip install ),與Python捆綁在一起的軟件包管理器和Anaconda(調用為conda install ),這是一個強大的軟件包管理器,可以為Python,r安裝包裝,並可以下載像GIT之類的執行能力。
與R不同的是,Python並非從數據科學構建,但是有很多第三方圖書館可以彌補這一點。在本文檔的稍後,可以找到更詳盡的包裝列表,但是這四個包裝是一個很好的選擇,可以通過以下方式啟動您的數據科學之旅:Scikit-Learn是一種通用數據科學包,它實現了最受歡迎的算法 - 它還包括豐富的文檔,教程,教程和模型的示例。即使您更喜歡編寫自己的實施方式,Scikit-Learn也是您發現許多常見算法背後的堅果和螺栓的寶貴參考。使用Pandas,可以將數據收集並分析為方便的表格格式。 Numpy為數學操作提供了非常快速的工具,重點是向量和矩陣。 Seaborn本身基於Matplotlib軟件包,是一種快速生成數據可視化的快速方法,可以開箱即用,並展示瞭如何生成數據的許多常見可視化數據的畫廊。
當您踏上成為數據科學家的旅程時,語言的選擇並不是特別重要,Python和R都具有其優缺點。選擇您喜歡的語言,然後查看我們下面列出的免費課程!
^ back to top ^
數據科學是一種強大的工具,在各個領域都可以通過從復雜數據中提取見解和模式來解決現實世界中的問題。
^ back to top ^
^ back to top ^
您如何學習數據科學?當然,通過進行數據科學!好的,好的 - 當您剛開始時,這可能並不特別有用。在本節中,我們列出了一些學習資源,從最少到最大的承諾 - 教程,大規模開放在線課程(MOOC),密集課程和大學。
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
本節是數據科學界的軟件包,工具,算法和其他有用項目的集合。
^ back to top ^
這些是一些機器學習和數據挖掘算法和模型,可幫助您了解數據並從中獲得含義。
^ back to top ^
^ back to top ^
^ back to top ^
| 關聯 | 描述 |
|---|---|
| 數據科學生命週期過程 | 數據科學生命週期過程是將數據科學團隊從思想中逐漸和可持續價值帶入估算的過程。該過程已在此存儲庫中記錄 |
| 數據科學生命週期模板存儲庫 | 數據科學生命週期項目的模板存儲庫 |
| rexmex | 通用建議指標庫,用於公平評估。 |
| Chemicalx | 一個基於Pytorch的深度學習庫,用於藥物對評分。 |
| pytorch幾何顳 | 在動態圖上的表示學習。 |
| 小皮毛球 | 具有Scikit-Learn等API的網絡X的圖形採樣庫。 |
| 空手道俱樂部 | 一個無監督的機器學習擴展庫,用於網絡X,具有Scikit-Learn之類的API。 |
| ML工作區 | 用於機器學習和數據科學的多合一基於網絡的IDE。該工作空間被部署為Docker容器,並用各種流行的數據科學庫(例如,Tensorflow,Pytorch)和Dev Tools(例如,Jupyter,VS代碼)預裝。 |
| Neptune.ai | 社區友好的平台支持數據科學家創建和共享機器學習模型。海王星促進了團隊合作,基礎設施管理,模型比較和可重複性。 |
| 草原 | 輕量級,Python庫,用於快速且可再現的機器學習實驗。引入非常簡單的接口,可實現清潔的機器學習管道設計。 |
| 草原 - toolkit | 精心策劃的神經網絡,變壓器和模型的收集,使您的機器學習更快,更有效。 |
| 來自Google的Datalab | 使用熟悉的語言(例如Python和SQL)輕鬆探索,可視化,分析和轉換數據。 |
| Hortonworks沙盒 | 是一個個人,便攜式的Hadoop環境,配有十幾個互動Hadoop教程。 |
| r | 是用於統計計算和圖形的免費軟件環境。 |
| 平淡無奇 | 是設計用於數據科學的R軟件包的自以為是的集合。所有軟件包都具有基本的設計理念,語法和數據結構。 |
| rstudio | IDE - R的強大用戶界面。它是免費和開源的,並且可以在Windows,Mac和Linux上使用。 |
| python -Pandas -Anaconda | 完全免費的企業就緒的Python分佈,用於大規模數據處理,預測分析和科學計算 |
| Pandas Gui | Pandas Gui |
| Scikit-Learn | python的機器學習 |
| numpy | Numpy對於使用Python的科學計算是基礎。它支持大型的多維陣列和矩陣,並包括各種高級數學功能以在這些陣列上運行。 |
| VAEX | VAEX是一個Python庫,可讓您可視化大型數據集並高速計算統計信息。 |
| Scipy | Scipy可與Numpy陣列一起使用,並為數值集成和優化提供有效的例程。 |
| 數據科學工具箱 | Coursera課程 |
| 數據科學工具箱 | 部落格 |
| Wolfram數據科學平台 | 進行數值,文本,圖像,GIS或其他數據,並給予Wolfram處理,進行全方位數據科學分析和可視化範圍,並自動生成豐富的互動報告 - 所有這些都由革命性的基於知識的Wolfram語言提供支持。 |
| Datadog | 用於高規模數據科學的解決方案,代碼和DevOps。 |
| 方差 | 在不編寫JavaScript的情況下為網絡構建強大的數據可視化 |
| 風箏開發套件 | 風箏軟件開發套件(Apache許可證,2.0版)或簡稱風箏是一組庫,工具,示例和文檔,重點是使在Hadoop生態系統之上構建系統變得更加易於構建。 |
| 多米諾數據實驗室 | 在沒有任何基礎架構或設置的情況下運行,擴展,共享和部署模型。 |
| apache flink | 一個用於高效,分佈式,通用數據處理的平台。 |
| Apache Hama | Apache Hama是一個Apache頂級開源項目,使您可以在MapReduce之外進行高級分析。 |
| weka | WEKA是用於數據挖掘任務的機器學習算法的集合。 |
| 八度 | GNU八度音量是一種高級解釋的語言,主要用於數值計算。 (Free Matlab) |
| Apache Spark | 閃電群群集計算 |
| 水圈霧 | 用於暴露Apache Spark Analytics工作和機器學習模型的服務,作為實時,批處理或反應性Web服務。 |
| 數據力學 | 一個數據科學和工程平台使Apache Spark Spark更具開發人員友好和成本效益。 |
| 咖啡餅 | 深度學習框架 |
| 火炬 | Luajit的科學計算框架 |
| Nervana的基於Python的深度學習框架 | Intel®Nervana™參考深度學習框架致力於所有硬件的最佳性能。 |
| Skale | 高性能分佈式數據處理 |
| Aerosolve | 為人類建造的機器學習包。 |
| 英特爾框架 | 英特爾®深度學習框架 |
| Datawrapper | 開源數據可視化平台可幫助每個人創建簡單,正確和可嵌入的圖表。也在github.com上 |
| 張量流 | TensorFlow是用於機器智能的開源軟件庫 |
| 自然語言工具包 | 自然語言處理和分類的介紹性但功能強大的工具包 |
| 註釋實驗室 | 免費的端到端無代碼平台,用於文本註釋和DL模型培訓/調整。對指定實體識別,分類,關係提取和斷言狀態的現成支持SPARK NLP模型。對用戶,團隊,項目,文件的無限支持。 |
| NLP-ToolKit用於Node.js | 該模塊涵蓋了一些基本的NLP原理和實現。主要重點是性能。當我們處理NLP中的樣本或培訓數據時,我們很快就用完了內存。因此,將本模塊中的每個實現都寫為流,以僅將這些數據保存在當前在任何步驟中處理的內存中。 |
| 朱莉婭 | 高級,高性能動態編程語言,用於技術計算 |
| ijulia | 朱莉婭語言後端與jupyter互動環境相結合 |
| Apache Zeppelin | 基於Web的筆記本,可以啟用與SQL,Scala等的數據驅動,交互式數據分析和協作文檔 |
| 特色 | 用Python編寫的自動特徵工程的開源框架 |
| 擎天柱 | 清潔,預處理,功能工程,探索性數據分析以及Pyspark Backend的易ML。 |
| 符號 | 快速而框架不可知的圖像增強庫,它實現了多種增強技術。支持開箱即用的分類,細分和檢測。被用來在Kaggle,Topcoder和CVPR研討會的一部分贏得許多深度學習比賽。 |
| DVC | 開源數據科學版本控制系統。它有助於跟踪,組織和使數據科學項目可再現。在非常基本的情況下,它有助於版本控制並共享大型數據和模型文件。 |
| 蘭伯多 | 是一種工作流引擎,通過在一個分析管道中結合(i)功能工程和機器學習(II)模型培訓和預測(III)表人群和列評估來大大簡化數據分析。 |
| 盛宴 | 用於管理,發現和訪問機器學習功能的功能商店。盛宴為模型培訓和模型服務提供了一致的特徵數據視圖。 |
| polyaxon | 一個可再現和可擴展的機器學習和深度學習的平台。 |
| 燈塔 | 團隊的文本註釋工具 |
| ubiai | 具有最全面的自動保管功能的團隊的易於使用的文本註釋工具。支持NER,關係和文檔分類以及發票標籤的OCR註釋 |
| 火車 | AI的自動魔術實驗經理,版本控制和DevOps |
| 啤酒花 | 帶有功能商店的開源數據密集型機器學習平台。攝入並管理在線(MySQL群集)和離線(Apache Hive)訪問,訓練和提供模型的功能。 |
| MINDSDB | MindSDB是開發人員的可解釋的汽車框架。使用MindSDB,您可以在一行代碼中構建,訓練和使用最簡單的ML模型。 |
| 萊特伍德 | 一個基於Pytorch的框架將機器學習問題分解成較小的塊,可以將其無縫地粘合在一起,並具有用一條代碼線構建預測模型的目標。 |
| AWS數據牧馬人 | 一個開源Python軟件包,將PANDAS庫的功能擴展到連接數據范圍和AWS數據相關服務的AWS(Amazon Redshift,AWS Glue,Amazon Athena,Amazon EMR等)。 |
| 亞馬遜重新認知 | AWS重新認知是一項服務,使開發人員可以使用Amazon Web服務將圖像分析添加到其應用程序中。目錄資產,自動化工作流程並從您的媒體和應用程序中提取含義。 |
| 亞馬遜士兵 | 從任何文檔中自動提取印刷文本,手寫和數據。 |
| 亞馬遜的視覺 | 使用計算機視覺來自動化質量檢查的斑點產品缺陷。確定缺少的產品組件,車輛和結構損壞以及違規行為,以進行全面的質量控制。 |
| Amazon Codeguru | 自動化代碼審核並通過ML驅動建議優化應用程序性能。 |
| CML | 用於在數據科學項目中使用連續集成的開源工具包。使用GitHub Action和Gitlab CI自動在類似生產的環境中訓練和測試模型,並在拉/合併請求中自動化視覺報告。 |
| dask | 一個開源Python庫,無需痛苦地將您的分析代碼轉換為分佈式計算系統(大數據) |
| StatsModels | 基於Python的推論統計,假設檢驗和回歸框架 |
| Gensim | 自然語言文本主題建模的開源庫 |
| Spacy | 表演者自然語言處理工具包 |
| 網格工作室 | Grid Studio是一個基於Web的電子表格應用程序,其完整集成了Python編程語言。 |
| Python數據科學手冊 | Python數據科學手冊:Jupyter筆記本中的全文 |
| 沙普利 | 一個數據驅動的框架,用於量化機器學習集合中分類器的價值。 |
| dagshub | 建立在用於數據,模型和管道管理的開源工具上的平台。 |
| 深注 | 一種新型的數據科學筆記本。與Jupyter兼容,並在雲中進行實時協作和運行。 |
| 瓦羅海 | 一個處理機器編排,自動可重複性和部署的MLOP平台。 |
| PYMC3 | 用於概率編程的Python庫(貝葉斯推理和機器學習) |
| Pystan | Python界面到Stan(貝葉斯推斷和建模) |
| 嗯 | 隱藏的馬爾可夫模型的無監督學習和推斷 |
| 混亂的天才 | ML電力分析引擎用於異常/異常檢測和根本原因分析 |
| Nimblebox | 一個全棧MLOPS平台,旨在幫助世界各地的數據科學家和機器學習從業人員從其網絡瀏覽器中發現,創建和啟動多雲應用程序。 |
| 拖曳 | 一個可幫助您將非結構化數據編碼為嵌入的Python庫。 |
| Lineapy | 曾經對清理長而凌亂的木星筆記本感到沮喪嗎?憑藉開源Python庫Lineapy,它僅需兩行代碼即可將混亂的開發代碼轉換為生產管道。 |
| 環境 | ? |
| 探索數據科學庫 | 搜尋引擎?發現和查找流行和新圖書館,頂級作者,流行項目套件,討論,教程和學習資源的工具 |
| mlem | ?版本並按照Gitops原理部署ML模型 |
| MLFLOW | MLOPS框架用於管理其完整生命週期的ML模型 |
| 清潔行 | 以數據為中心AI的Python庫,並自動檢測ML數據集中的各種問題 |
| Autogluon | 汽車可以輕鬆地為圖像,文本,表格,時間序列和多模式數據產生準確的預測 |
| ai | ARIZE AI社區層可觀察性工具,用於監視生產中的機器學習模型和引起根源的問題,例如數據質量和性能漂移。 |
| aureo.io | Aureo.io是一個低音平台,專注於構建人工智能。它為用戶提供了創建管道,自動化並將其與人工智能模型集成在一起的能力,這些功能都與他們的基本數據。 |
| ERD實驗室 | 為開發人員製作的基於雲的免費實體關係圖(ERD)工具。 |
| Arize-phoenix | 筆記本中的MLOP-發現洞察力,表面問題,監視和微調模型。 |
| 彗星 | 一個具有實驗跟踪,模型生產管理,模型註冊表和完整數據譜系的MLOP平台,以支持您從訓練直接到生產的ML工作流程。 |
| OPIK | 在您的開發人員和生產生命週期中評估,測試和運送LLM應用程序。 |
| 合成 | AI驅動的研究協作環境。查找相關論文,創建收集以管理參考書目並總結內容 - 全部在一個地方 |
| teeplot | 自動組織數據可視化輸出的工作流量工具 |
| 簡化 | 機器學習和數據科學項目的應用框架 |
| Gradio | 在機器學習模型周圍創建可自定義的UI組件 |
| 重量和偏見 | 實驗跟踪,數據集版本和模型管理 |
| DVC | 機器學習項目的開源版本控制系統 |
| Optuna | 自動超參數優化軟件框架 |
| Ray Tune | 可擴展的超參數調音庫 |
| Apache氣流 | 編程作者,時間表和監視工作流的平台 |
| 長官 | 現代數據堆棧的工作流管理系統 |
| Kedro | 開源Python框架,用於創建可再現,可維護的數據科學代碼 |
| 漢密爾頓 | 輕巧的庫作者並管理可靠的數據轉換 |
| 塑造 | 遊戲理論方法來解釋任何機器學習模型的輸出 |
| 酸橙 | 解釋任何機器學習分類器的預測 |
| 飛人 | 機器學習的工作流動自動化平台 |
| DBT | 數據構建工具 |
| 塑造 | 遊戲理論方法來解釋任何機器學習模型的輸出 |
| 酸橙 | 解釋任何機器學習分類器的預測 |
^ back to top ^
本節包括一些其他閱讀材料,觀看的頻道和講話。
^ back to top ^
eBook sale - Save up to 45% on eBooks!
Causal Machine Learning
Managing ML Projects
Causal Inference for Data Science
Data for All
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
Below are some Social Media links. Connect with other data scientists!
^ back to top ^
^ back to top ^
| 嘰嘰喳喳 | 描述 |
|---|---|
| Big Data Combine | Rapid-fire, live tryouts for data scientists seeking to monetize their models as trading strategies |
| Big Data Mania | Data Viz Wiz, Data Journalist, Growth Hacker, Author of Data Science for Dummies (2015) |
| Big Data Science | Big Data, Data Science, Predictive Modeling, Business Analytics, Hadoop, Decision and Operations Research. |
| Charlie Greenbacker | Director of Data Science at @ExploreAltamira |
| Chris Said | Data scientist at Twitter |
| Clare Corthell | Dev, Design, Data Science @mattermark #hackerei |
| DADI Charles-Abner | #datascientist @Ekimetrics. , #machinelearning #dataviz #DynamicCharts #Hadoop #R #Python #NLP #Bitcoin #dataenthousiast |
| Data Science Central | Data Science Central is the industry's single resource for Big Data practitioners. |
| Data Science London | Data Science. Big Data. Data Hacks. Data Junkies. Data Startups. Open Data |
| Data Science Renee | Documenting my path from SQL Data Analyst pursuing an Engineering Master's Degree to Data Scientist |
| Data Science Report | Mission is to help guide & advance careers in Data Science & Analytics |
| Data Science Tips | Tips and Tricks for Data Scientists around the world! #datascience #bigdata |
| Data Vizzard | DataViz, Security, Military |
| DataScienceX | |
| deeplearning4j | |
| DJ Patil | White House Data Chief, VP @ RelateIQ. |
| Domino Data Lab | |
| Drew Conway | Data nerd, hacker, student of conflict. |
| Emilio Ferrara | #Networks, #MachineLearning and #DataScience. I work on #Social Media. Postdoc at @IndianaUniv |
| Erin Bartolo | Running with #BigData--enjoying a love/hate relationship with its hype. @iSchoolSU #DataScience Program Mgr. |
| Greg Reda | Working @ GrubHub about data and pandas |
| Gregory Piatetsky | KDnuggets President, Analytics/Big Data/Data Mining/Data Science expert, KDD & SIGKDD co-founder, was Chief Scientist at 2 startups, part-time philosopher. |
| Hadley Wickham | Chief Scientist at RStudio, and an Adjunct Professor of Statistics at the University of Auckland, Stanford University, and Rice University. |
| Hakan Kardas | 數據科學家 |
| Hilary Mason | Data Scientist in Residence at @accel. |
| Jeff Hammerbacher | ReTweeting about data science |
| John Myles White | Scientist at Facebook and Julia developer. Author of Machine Learning for Hackers and Bandit Algorithms for Website Optimization. Tweets reflect my views only. |
| Juan Miguel Lavista | Principal Data Scientist @ Microsoft Data Science Team |
| Julia Evans | Hacker - Pandas - Data Analyze |
| Kenneth Cukier | The Economist's Data Editor and co-author of Big Data (http://www.big-data-book.com/). |
| Kevin Davenport | Organizer of https://www.meetup.com/San-Diego-Data-Science-R-Users-Group/ |
| Kevin Markham | Data science instructor, and founder of Data School |
| Kim Rees | Interactive data visualization and tools. Data flaneur. |
| Kirk Borne | DataScientist, PhD Astrophysicist, Top #BigData Influencer. |
| Linda Regber | Data storyteller, visualizations. |
| Luis Rei | PhD Student. Programming, Mobile, Web. Artificial Intelligence, Intelligent Robotics Machine Learning, Data Mining, Natural Language Processing, Data Science. |
| Mark Stevenson | Data Analytics Recruitment Specialist at Salt (@SaltJobs) Analytics - Insight - Big Data - Data science |
| Matt Harrison | Opinions of full-stack Python guy, author, instructor, currently playing Data Scientist. Occasional fathering, husbanding, organic gardening. |
| Matthew Russell | Mining the Social Web. |
| Mert Nuhoğlu | Data Scientist at BizQualify, Developer |
| Monica Rogati | Data @ Jawbone. Turned data into stories & products at LinkedIn. Text mining, applied machine learning, recommender systems. Ex-gamer, ex-machine coder; namer. |
| Noah Iliinsky | Visualization & interaction designer. Practical cyclist. Author of vis books: https://www.oreilly.com/pub/au/4419 |
| Paul Miller | Cloud Computing/ Big Data/ Open Data Analyst & Consultant. Writer, Speaker & Moderator. Gigaom Research Analyst. |
| Peter Skomoroch | Creating intelligent systems to automate tasks & improve decisions. Entrepreneur, ex-Principal Data Scientist @LinkedIn. Machine Learning, ProductRei, Networks |
| Prash Chan | Solution Architect @ IBM, Master Data Management, Data Quality & Data Governance Blogger. Data Science, Hadoop, Big Data & Cloud. |
| Quora Data Science | Quora's data science topic |
| R-Bloggers | Tweet blog posts from the R blogosphere, data science conferences, and (!) open jobs for data scientists. |
| Rand Hindi | |
| Randy Olson | Computer scientist researching artificial intelligence. Data tinkerer. Community leader for @DataIsBeautiful. #OpenScience advocate. |
| Recep Erol | Data Science geek @ UALR |
| Ryan Orban | Data scientist, genetic origamist, hardware aficionado |
| Sean J. Taylor | Social Scientist.黑客。 Facebook Data Science Team. Keywords: Experiments, Causal Inference, Statistics, Machine Learning, Economics. |
| Silvia K. Spiva | #DataScience at Cisco |
| Harsh B. Gupta | Data Scientist at BBVA Compass |
| Spencer Nelson | Data nerd |
| Talha Oz | Enjoys ABM, SNA, DM, ML, NLP, HI, Python, Java. Top percentile Kaggler/data scientist |
| Tasos Skarlatidis | Complex Event Processing, Big Data, Artificial Intelligence and Machine Learning. Passionate about programming and open-source. |
| Terry Timko | InfoGov; Bigdata; Data as a Service; Data Science; Open, Social & Business Data Convergence |
| Tony Baer | IT analyst with Ovum covering Big Data & data management with some systems engineering thrown in. |
| Tony Ojeda | Data Scientist , Author , Entrepreneur. Co-founder @DataCommunityDC. Founder @DistrictDataLab. #DataScience #BigData #DataDC |
| Vamshi Ambati | Data Science @ PayPal. #NLP, #machinelearning; PhD, Carnegie Mellon alumni (Blog: https://allthingsds.wordpress.com ) |
| Wes McKinney | Pandas (Python Data Analysis library). |
| WileyEd | Senior Manager - @Seagate Big Data Analytics @McKinsey Alum #BigData + #Analytics Evangelist #Hadoop, #Cloud, #Digital, & #R Enthusiast |
| WNYC Data News Team | The data news crew at @WNYC. Practicing data-driven journalism, making it visual, and showing our work. |
| Alexey Grigorev | Data science author |
| İlker Arslan | Data science author. Shares mostly about Julia programming |
| 不可避免的 | AI & Data Science Start-up Company based in England, UK |
^ back to top ^
頂部
Some data mining competition platforms
^ back to top ^
| 預覽 | 描述 |
|---|---|
| Key differences of a data scientist vs. data engineer | |
| A visual guide to Becoming a Data Scientist in 8 Steps by DataCamp (img) | |
| Mindmap on required skills (img) | |
| Swami Chandrasekaran made a Curriculum via Metro map. | |
| by @kzawadz via twitter | |
| By Data Science Central | |
| Data Science Wars: R vs Python | |
| How to select statistical or machine learning techniques | |
| Choosing the Right Estimator | |
| The Data Science Industry: Who Does What | |
| 數據科學 | |
| Different Data Science Skills and Roles from this article by Springboard | |
| A simple and friendly way of teaching your non-data scientist/non-statistician colleagues how to avoid mistakes with data. From Geckoboard's Data Literacy Lessons. |
^ back to top ^
^ back to top ^