
一个开源数据科学存储库,以学习和应用于解决现实世界问题。
这是开始研究数据科学的快捷方式。只需按照以下步骤回答问题:“数据科学是什么,我应该学习什么才能学习数据科学?”
| 赞助 | 沥青 |
|---|---|
| --- | 成为第一个赞助商! [email protected] |
^ back to top ^
数据科学是当今计算机和互联网农田上最热门的主题之一。人们一直从应用程序和系统收集数据,直到今天,现在是时候分析它们了。接下来的步骤是从数据中产生建议并创建对未来的预测。在这里,您可以找到数据科学的最大问题以及专家的数百个答案。
| 关联 | 预览 |
|---|---|
| 什么是数据科学 @ O'Reilly | 数据科学家将企业家精神与耐心相结合,愿意逐步构建数据产品,探索能力以及在解决方案上迭代的能力。它们本质上是跨学科的。他们可以解决问题的所有方面,从初始数据收集和数据调理到得出结论。他们可以在框外思考,以提出新的方法来查看问题,或者解决非常明确的问题:“这里有很多数据,您可以从中做出什么?” |
| 什么是数据科学 @ quora | 数据科学是数据的多个方面的组合,例如技术,算法开发和数据干预,以研究数据,分析数据并找到解决困难问题的创新解决方案。基本上,数据科学是通过寻找创新方式来分析数据和驱动业务增长的驱动。 |
| 21世纪最性感的工作 | 当今的数据科学家类似于1980年代和1990年代的华尔街“ Quants”。在那些日子里,具有物理和数学背景的人流向投资银行和对冲基金,在那里他们可以设计全新的算法和数据策略。然后,各种大学开发了金融工程领域的硕士课程,该计划耗尽了第二代人才,这是主流公司更容易获得的。该模式在1990年代晚些时候与搜索工程师一起重复,搜索工程师很快就在计算机科学计划中教授了稀有技能。 |
| 维基百科 | 数据科学是一个跨学科领域,使用科学方法,过程,算法和系统来从许多结构和非结构化数据中提取知识和见解。数据科学与数据挖掘,机器学习和大数据有关。 |
| 如何成为数据科学家 | 数据科学家是大数据牧马人,收集和分析了大量的结构化和非结构化数据。数据科学家的角色结合了计算机科学,统计和数学。他们分析,处理和模型数据,然后解释结果,以为公司和其他组织创建可行的计划。 |
| #DataScienciencience的简短历史 | 数据科学家如何变得性感的故事主要是关于成熟统计学纪律与非常年轻的单一计算机科学结合的故事。 “数据科学”一词直到最近才出现,才能专门指定一个新职业,该专业有望理解大量的大数据。但是,了解数据的历史悠久,多年来,科学家,统计学家,图书馆员,计算机科学家和其他人已经讨论了。以下时间表可以追溯“数据科学”一词及其使用,试图定义它及相关术语的演变。 |
| 数据科学家的软件开发资源 | 数据科学家专注于通过探索性分析,统计和模型来理解数据。软件开发人员使用不同的工具应用一组单独的知识。尽管他们的重点似乎无关,但数据科学团队可以从采用软件开发最佳实践中受益。版本控制,自动化测试以及其他开发技能有助于创建可重复的,可以生产的代码和工具。 |
| 数据科学家路线图 | 数据科学是当今数据驱动的世界中的绝佳职业选择,每天生成约3.287亿吨数据。而且这个数字仅在日常增加,这又增加了对可以利用这些数据来推动业务增长的熟练数据科学家的需求。 |
| 导航成为数据科学家的道路 | _ Data Science是当今最重要的职业之一。随着企业越来越依靠数据来做出决策,对熟练数据科学家的需求迅速发展。无论是科技公司,医疗保健组织,甚至是政府机构,数据科学家都在将原始数据变成宝贵的见解方面发挥着至关重要的作用。但是,您如何成为数据科学家,尤其是如果您刚开始? _ |
^ back to top ^
虽然并非严格必要,但是拥有编程语言是作为数据科学家有效的重要技能。目前,最受欢迎的语言是Python ,紧随其后的是R。 Python是一种通用的脚本语言,可在各种领域中看到应用。 r是一种针对统计范围的特定域语言,它包含许多开箱即用的常见统计工具。
Python是迄今为止科学中最受欢迎的语言,这在很大程度上是由于它可以轻松使用,并且是用户生成的软件包的充满活力的生态系统。要安装包裹,有两种主要方法:PIP(调用为pip install ),与Python捆绑在一起的软件包管理器和Anaconda(调用为conda install ),这是一个强大的软件包管理器,可以为Python,r安装包装,并可以下载像GIT之类的执行能力。
与R不同的是,Python并非从数据科学构建,但是有很多第三方图书馆可以弥补这一点。在本文档的稍后,可以找到更详尽的包装列表,但是这四个包装是一个很好的选择,可以通过以下方式启动您的数据科学之旅:Scikit-Learn是一种通用数据科学包,它实现了最受欢迎的算法 - 它还包括丰富的文档,教程,教程和模型的示例。即使您更喜欢编写自己的实施方式,Scikit-Learn也是您发现许多常见算法背后的坚果和螺栓的宝贵参考。使用Pandas,可以将数据收集并分析为方便的表格格式。 Numpy为数学操作提供了非常快速的工具,重点是向量和矩阵。 Seaborn本身基于Matplotlib软件包,是一种快速生成数据可视化的快速方法,可以开箱即用,并展示了如何生成数据的许多常见可视化数据的画廊。
当您踏上成为数据科学家的旅程时,语言的选择并不是特别重要,Python和R都具有其优缺点。选择您喜欢的语言,然后查看我们下面列出的免费课程!
^ back to top ^
数据科学是一种强大的工具,在各个领域都可以通过从复杂数据中提取见解和模式来解决现实世界中的问题。
^ back to top ^
^ back to top ^
您如何学习数据科学?当然,通过进行数据科学!好的,好的 - 当您刚开始时,这可能并不特别有用。在本节中,我们列出了一些学习资源,从最少到最大的承诺 - 教程,大规模开放在线课程(MOOC),密集课程和大学。
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
本节是数据科学界的软件包,工具,算法和其他有用项目的集合。
^ back to top ^
这些是一些机器学习和数据挖掘算法和模型,可帮助您了解数据并从中获得含义。
^ back to top ^
^ back to top ^
^ back to top ^
| 关联 | 描述 |
|---|---|
| 数据科学生命周期过程 | 数据科学生命周期过程是将数据科学团队从思想中逐渐和可持续价值带入估算的过程。该过程已在此存储库中记录 |
| 数据科学生命周期模板存储库 | 数据科学生命周期项目的模板存储库 |
| rexmex | 通用建议指标库,用于公平评估。 |
| Chemicalx | 一个基于Pytorch的深度学习库,用于药物对评分。 |
| pytorch几何颞 | 在动态图上的表示学习。 |
| 小皮毛球 | 具有Scikit-Learn等API的网络X的图形采样库。 |
| 空手道俱乐部 | 一个无监督的机器学习扩展库,用于网络X,具有Scikit-Learn之类的API。 |
| ML工作区 | 用于机器学习和数据科学的多合一基于网络的IDE。该工作空间被部署为Docker容器,并用各种流行的数据科学库(例如,Tensorflow,Pytorch)和Dev Tools(例如,Jupyter,VS代码)预装。 |
| Neptune.ai | 社区友好的平台支持数据科学家创建和共享机器学习模型。海王星促进了团队合作,基础设施管理,模型比较和可重复性。 |
| 草原 | 轻量级,Python库,用于快速且可再现的机器学习实验。引入非常简单的接口,可实现清洁的机器学习管道设计。 |
| 草原 - toolkit | 精心策划的神经网络,变压器和模型的收集,使您的机器学习更快,更有效。 |
| 来自Google的Datalab | 使用熟悉的语言(例如Python和SQL)轻松探索,可视化,分析和转换数据。 |
| Hortonworks沙盒 | 是一个个人,便携式的Hadoop环境,配有十几个互动Hadoop教程。 |
| r | 是用于统计计算和图形的免费软件环境。 |
| 平淡无奇 | 是设计用于数据科学的R软件包的自以为是的集合。所有软件包都具有基本的设计理念,语法和数据结构。 |
| rstudio | IDE - R的强大用户界面。它是免费和开源的,并且可以在Windows,Mac和Linux上使用。 |
| python -Pandas -Anaconda | 完全免费的企业就绪的Python分布,用于大规模数据处理,预测分析和科学计算 |
| Pandas Gui | Pandas Gui |
| Scikit-Learn | python的机器学习 |
| numpy | Numpy对于使用Python的科学计算是基础。它支持大型的多维阵列和矩阵,并包括各种高级数学功能以在这些阵列上运行。 |
| VAEX | VAEX是一个Python库,可让您可视化大型数据集并高速计算统计信息。 |
| Scipy | Scipy可与Numpy阵列一起使用,并为数值集成和优化提供有效的例程。 |
| 数据科学工具箱 | Coursera课程 |
| 数据科学工具箱 | 博客 |
| Wolfram数据科学平台 | 进行数值,文本,图像,GIS或其他数据,并给予Wolfram处理,进行全方位数据科学分析和可视化范围,并自动生成丰富的互动报告 - 所有这些都由革命性的基于知识的Wolfram语言提供支持。 |
| Datadog | 用于高规模数据科学的解决方案,代码和DevOps。 |
| 方差 | 在不编写JavaScript的情况下为网络构建强大的数据可视化 |
| 风筝开发套件 | 风筝软件开发套件(Apache许可证,2.0版)或简称风筝是一组库,工具,示例和文档,重点是使在Hadoop生态系统之上构建系统变得更加易于构建。 |
| 多米诺数据实验室 | 在没有任何基础架构或设置的情况下运行,扩展,共享和部署模型。 |
| apache flink | 一个用于高效,分布式,通用数据处理的平台。 |
| Apache Hama | Apache Hama是一个Apache顶级开源项目,使您可以在MapReduce之外进行高级分析。 |
| weka | WEKA是用于数据挖掘任务的机器学习算法的集合。 |
| 八度 | GNU八度音量是一种高级解释的语言,主要用于数值计算。(Free Matlab) |
| Apache Spark | 闪电群群集计算 |
| 水圈雾 | 用于暴露Apache Spark Analytics工作和机器学习模型的服务,作为实时,批处理或反应性Web服务。 |
| 数据力学 | 一个数据科学和工程平台使Apache Spark Spark更具开发人员友好和成本效益。 |
| 咖啡饼 | 深度学习框架 |
| 火炬 | Luajit的科学计算框架 |
| Nervana的基于Python的深度学习框架 | Intel®Nervana™参考深度学习框架致力于所有硬件的最佳性能。 |
| Skale | 高性能分布式数据处理 |
| Aerosolve | 为人类建造的机器学习包。 |
| 英特尔框架 | 英特尔®深度学习框架 |
| Datawrapper | 开源数据可视化平台可帮助每个人创建简单,正确和可嵌入的图表。也在github.com上 |
| 张量流 | TensorFlow是用于机器智能的开源软件库 |
| 自然语言工具包 | 自然语言处理和分类的介绍性但功能强大的工具包 |
| 注释实验室 | 免费的端到端无代码平台,用于文本注释和DL模型培训/调整。对指定实体识别,分类,关系提取和断言状态的现成支持SPARK NLP模型。对用户,团队,项目,文件的无限支持。 |
| NLP-ToolKit用于Node.js | 该模块涵盖了一些基本的NLP原理和实现。主要重点是性能。当我们处理NLP中的样本或培训数据时,我们很快就用完了内存。因此,将本模块中的每个实现都写为流,以仅将这些数据保存在当前在任何步骤中处理的内存中。 |
| 朱莉娅 | 高级,高性能动态编程语言,用于技术计算 |
| ijulia | 朱莉娅语言后端与jupyter互动环境相结合 |
| Apache Zeppelin | 基于Web的笔记本,可以启用与SQL,Scala等的数据驱动,交互式数据分析和协作文档 |
| 特色 | 用Python编写的自动特征工程的开源框架 |
| 擎天柱 | 清洁,预处理,功能工程,探索性数据分析以及Pyspark Backend的易ML。 |
| 符号 | 快速而框架不可知的图像增强库,它实现了多种增强技术。支持开箱即用的分类,细分和检测。被用来在Kaggle,Topcoder和CVPR研讨会的一部分赢得许多深度学习比赛。 |
| DVC | 开源数据科学版本控制系统。它有助于跟踪,组织和使数据科学项目可再现。在非常基本的情况下,它有助于版本控制并共享大型数据和模型文件。 |
| 兰伯多 | 是一种工作流引擎,通过在一个分析管道中结合(i)功能工程和机器学习(II)模型培训和预测(III)表人群和列评估来大大简化数据分析。 |
| 盛宴 | 用于管理,发现和访问机器学习功能的功能商店。盛宴为模型培训和模型服务提供了一致的特征数据视图。 |
| polyaxon | 一个可再现和可扩展的机器学习和深度学习的平台。 |
| 灯塔 | 团队的文本注释工具 |
| ubiai | 具有最全面的自动保管功能的团队的易于使用的文本注释工具。支持NER,关系和文档分类以及发票标签的OCR注释 |
| 火车 | AI的自动魔术实验经理,版本控制和DevOps |
| 啤酒花 | 带有功能商店的开源数据密集型机器学习平台。摄入并管理在线(MySQL群集)和离线(Apache Hive)访问,训练和提供模型的功能。 |
| MINDSDB | MindSDB是开发人员的可解释的汽车框架。使用MindSDB,您可以在一行代码中构建,训练和使用最简单的ML模型。 |
| 莱特伍德 | 一个基于Pytorch的框架将机器学习问题分解成较小的块,可以将其无缝地粘合在一起,并具有用一条代码线构建预测模型的目标。 |
| AWS数据牧马人 | 一个开源Python软件包,将PANDAS库的功能扩展到连接数据范围和AWS数据相关服务的AWS(Amazon Redshift,AWS Glue,Amazon Athena,Amazon EMR等)。 |
| 亚马逊重新认知 | AWS重新认知是一项服务,使开发人员可以使用Amazon Web服务将图像分析添加到其应用程序中。目录资产,自动化工作流程并从您的媒体和应用程序中提取含义。 |
| 亚马逊士兵 | 从任何文档中自动提取印刷文本,手写和数据。 |
| 亚马逊的视觉 | 使用计算机视觉来自动化质量检查的斑点产品缺陷。确定缺少的产品组件,车辆和结构损坏以及违规行为,以进行全面的质量控制。 |
| Amazon Codeguru | 自动化代码审核并通过ML驱动建议优化应用程序性能。 |
| CML | 用于在数据科学项目中使用连续集成的开源工具包。使用GitHub Action和Gitlab CI自动在类似生产的环境中训练和测试模型,并在拉/合并请求中自动化视觉报告。 |
| dask | 一个开源Python库,无需痛苦地将您的分析代码转换为分布式计算系统(大数据) |
| StatsModels | 基于Python的推论统计,假设检验和回归框架 |
| Gensim | 自然语言文本主题建模的开源库 |
| Spacy | 表演者自然语言处理工具包 |
| 网格工作室 | Grid Studio是一个基于Web的电子表格应用程序,其完整集成了Python编程语言。 |
| Python数据科学手册 | Python数据科学手册:Jupyter笔记本中的全文 |
| 沙普利 | 一个数据驱动的框架,用于量化机器学习集合中分类器的价值。 |
| dagshub | 建立在用于数据,模型和管道管理的开源工具上的平台。 |
| 深注 | 一种新型的数据科学笔记本。与Jupyter兼容,并在云中进行实时协作和运行。 |
| 瓦罗海 | 一个处理机器编排,自动可重复性和部署的MLOP平台。 |
| PYMC3 | 用于概率编程的Python库(贝叶斯推理和机器学习) |
| Pystan | Python界面到Stan(贝叶斯推断和建模) |
| 嗯 | 隐藏的马尔可夫模型的无监督学习和推断 |
| 混乱的天才 | ML电力分析引擎用于异常/异常检测和根本原因分析 |
| Nimblebox | 一个全栈MLOPS平台,旨在帮助世界各地的数据科学家和机器学习从业人员从其网络浏览器中发现,创建和启动多云应用程序。 |
| 拖曳 | 一个可帮助您将非结构化数据编码为嵌入的Python库。 |
| Lineapy | 曾经对清理长而凌乱的木星笔记本感到沮丧吗?凭借开源Python库Lineapy,它仅需两行代码即可将混乱的开发代码转换为生产管道。 |
| 环境 | ? |
| 探索数据科学库 | 搜索引擎?发现和查找流行和新图书馆,顶级作者,流行项目套件,讨论,教程和学习资源的工具 |
| mlem | ?版本并按照Gitops原理部署ML模型 |
| MLFLOW | MLOPS框架用于管理其完整生命周期的ML模型 |
| 清洁行 | 以数据为中心AI的Python库,并自动检测ML数据集中的各种问题 |
| Autogluon | 汽车可以轻松地为图像,文本,表格,时间序列和多模式数据产生准确的预测 |
| ai | ARIZE AI社区层可观察性工具,用于监视生产中的机器学习模型和引起根源的问题,例如数据质量和性能漂移。 |
| aureo.io | Aureo.io是一个低音平台,专注于构建人工智能。它为用户提供了创建管道,自动化并将其与人工智能模型集成在一起的能力,这些功能都与他们的基本数据。 |
| ERD实验室 | 为开发人员制作的基于云的免费实体关系图(ERD)工具。 |
| Arize-phoenix | 笔记本中的MLOP-发现洞察力,表面问题,监视和微调模型。 |
| 彗星 | 一个具有实验跟踪,模型生产管理,模型注册表和完整数据谱系的MLOP平台,以支持您从训练直接到生产的ML工作流程。 |
| OPIK | 在您的开发人员和生产生命周期中评估,测试和运送LLM应用程序。 |
| 合成 | AI驱动的研究协作环境。查找相关论文,创建收集以管理参考书目并总结内容 - 全部在一个地方 |
| teeplot | 自动组织数据可视化输出的工作流量工具 |
| 简化 | 机器学习和数据科学项目的应用框架 |
| Gradio | 在机器学习模型周围创建可自定义的UI组件 |
| 重量和偏见 | 实验跟踪,数据集版本和模型管理 |
| DVC | 机器学习项目的开源版本控制系统 |
| Optuna | 自动超参数优化软件框架 |
| Ray Tune | 可扩展的超参数调音库 |
| Apache气流 | 编程作者,时间表和监视工作流的平台 |
| 长官 | 现代数据堆栈的工作流管理系统 |
| Kedro | 开源Python框架,用于创建可再现,可维护的数据科学代码 |
| 汉密尔顿 | 轻巧的库作者并管理可靠的数据转换 |
| 塑造 | 游戏理论方法来解释任何机器学习模型的输出 |
| 酸橙 | 解释任何机器学习分类器的预测 |
| 飞人 | 机器学习的工作流动自动化平台 |
| DBT | 数据构建工具 |
| 塑造 | 游戏理论方法来解释任何机器学习模型的输出 |
| 酸橙 | 解释任何机器学习分类器的预测 |
^ back to top ^
本节包括一些其他阅读材料,观看的频道和讲话。
^ back to top ^
eBook sale - Save up to 45% on eBooks!
Causal Machine Learning
Managing ML Projects
Causal Inference for Data Science
Data for All
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
Below are some Social Media links. Connect with other data scientists!
^ back to top ^
^ back to top ^
| 叽叽喳喳 | 描述 |
|---|---|
| Big Data Combine | Rapid-fire, live tryouts for data scientists seeking to monetize their models as trading strategies |
| Big Data Mania | Data Viz Wiz, Data Journalist, Growth Hacker, Author of Data Science for Dummies (2015) |
| Big Data Science | Big Data, Data Science, Predictive Modeling, Business Analytics, Hadoop, Decision and Operations Research. |
| Charlie Greenbacker | Director of Data Science at @ExploreAltamira |
| Chris Said | Data scientist at Twitter |
| Clare Corthell | Dev, Design, Data Science @mattermark #hackerei |
| DADI Charles-Abner | #datascientist @Ekimetrics. , #machinelearning #dataviz #DynamicCharts #Hadoop #R #Python #NLP #Bitcoin #dataenthousiast |
| Data Science Central | Data Science Central is the industry's single resource for Big Data practitioners. |
| Data Science London | Data Science. Big Data. Data Hacks. Data Junkies. Data Startups. Open Data |
| Data Science Renee | Documenting my path from SQL Data Analyst pursuing an Engineering Master's Degree to Data Scientist |
| Data Science Report | Mission is to help guide & advance careers in Data Science & Analytics |
| Data Science Tips | Tips and Tricks for Data Scientists around the world! #datascience #bigdata |
| Data Vizzard | DataViz, Security, Military |
| DataScienceX | |
| deeplearning4j | |
| DJ Patil | White House Data Chief, VP @ RelateIQ. |
| Domino Data Lab | |
| Drew Conway | Data nerd, hacker, student of conflict. |
| Emilio Ferrara | #Networks, #MachineLearning and #DataScience. I work on #Social Media. Postdoc at @IndianaUniv |
| Erin Bartolo | Running with #BigData--enjoying a love/hate relationship with its hype. @iSchoolSU #DataScience Program Mgr. |
| Greg Reda | Working @ GrubHub about data and pandas |
| Gregory Piatetsky | KDnuggets President, Analytics/Big Data/Data Mining/Data Science expert, KDD & SIGKDD co-founder, was Chief Scientist at 2 startups, part-time philosopher. |
| Hadley Wickham | Chief Scientist at RStudio, and an Adjunct Professor of Statistics at the University of Auckland, Stanford University, and Rice University. |
| Hakan Kardas | 数据科学家 |
| Hilary Mason | Data Scientist in Residence at @accel. |
| Jeff Hammerbacher | ReTweeting about data science |
| John Myles White | Scientist at Facebook and Julia developer. Author of Machine Learning for Hackers and Bandit Algorithms for Website Optimization. Tweets reflect my views only. |
| Juan Miguel Lavista | Principal Data Scientist @ Microsoft Data Science Team |
| Julia Evans | Hacker - Pandas - Data Analyze |
| Kenneth Cukier | The Economist's Data Editor and co-author of Big Data (http://www.big-data-book.com/). |
| Kevin Davenport | Organizer of https://www.meetup.com/San-Diego-Data-Science-R-Users-Group/ |
| Kevin Markham | Data science instructor, and founder of Data School |
| Kim Rees | Interactive data visualization and tools. Data flaneur. |
| Kirk Borne | DataScientist, PhD Astrophysicist, Top #BigData Influencer. |
| Linda Regber | Data storyteller, visualizations. |
| Luis Rei | PhD Student. Programming, Mobile, Web. Artificial Intelligence, Intelligent Robotics Machine Learning, Data Mining, Natural Language Processing, Data Science. |
| Mark Stevenson | Data Analytics Recruitment Specialist at Salt (@SaltJobs) Analytics - Insight - Big Data - Data science |
| Matt Harrison | Opinions of full-stack Python guy, author, instructor, currently playing Data Scientist. Occasional fathering, husbanding, organic gardening. |
| Matthew Russell | Mining the Social Web. |
| Mert Nuhoğlu | Data Scientist at BizQualify, Developer |
| Monica Rogati | Data @ Jawbone. Turned data into stories & products at LinkedIn. Text mining, applied machine learning, recommender systems. Ex-gamer, ex-machine coder; namer. |
| Noah Iliinsky | Visualization & interaction designer. Practical cyclist. Author of vis books: https://www.oreilly.com/pub/au/4419 |
| Paul Miller | Cloud Computing/ Big Data/ Open Data Analyst & Consultant. Writer, Speaker & Moderator. Gigaom Research Analyst. |
| Peter Skomoroch | Creating intelligent systems to automate tasks & improve decisions. Entrepreneur, ex-Principal Data Scientist @LinkedIn. Machine Learning, ProductRei, Networks |
| Prash Chan | Solution Architect @ IBM, Master Data Management, Data Quality & Data Governance Blogger. Data Science, Hadoop, Big Data & Cloud. |
| Quora Data Science | Quora's data science topic |
| R-Bloggers | Tweet blog posts from the R blogosphere, data science conferences, and (!) open jobs for data scientists. |
| Rand Hindi | |
| Randy Olson | Computer scientist researching artificial intelligence. Data tinkerer. Community leader for @DataIsBeautiful. #OpenScience advocate. |
| Recep Erol | Data Science geek @ UALR |
| Ryan Orban | Data scientist, genetic origamist, hardware aficionado |
| Sean J. Taylor | 社会科学家。黑客。 Facebook Data Science Team. Keywords: Experiments, Causal Inference, Statistics, Machine Learning, Economics. |
| Silvia K. Spiva | #DataScience at Cisco |
| Harsh B. Gupta | Data Scientist at BBVA Compass |
| Spencer Nelson | Data nerd |
| Talha Oz | Enjoys ABM, SNA, DM, ML, NLP, HI, Python, Java. Top percentile Kaggler/data scientist |
| Tasos Skarlatidis | Complex Event Processing, Big Data, Artificial Intelligence and Machine Learning. Passionate about programming and open-source. |
| Terry Timko | InfoGov; Bigdata; Data as a Service; Data Science; Open, Social & Business Data Convergence |
| Tony Baer | IT analyst with Ovum covering Big Data & data management with some systems engineering thrown in. |
| Tony Ojeda | Data Scientist , Author , Entrepreneur. Co-founder @DataCommunityDC. Founder @DistrictDataLab. #DataScience #BigData #DataDC |
| Vamshi Ambati | Data Science @ PayPal. #NLP, #machinelearning; PhD, Carnegie Mellon alumni (Blog: https://allthingsds.wordpress.com ) |
| Wes McKinney | Pandas (Python Data Analysis library). |
| WileyEd | Senior Manager - @Seagate Big Data Analytics @McKinsey Alum #BigData + #Analytics Evangelist #Hadoop, #Cloud, #Digital, & #R Enthusiast |
| WNYC Data News Team | The data news crew at @WNYC. Practicing data-driven journalism, making it visual, and showing our work. |
| Alexey Grigorev | Data science author |
| İlker Arslan | Data science author. Shares mostly about Julia programming |
| 不可避免的 | AI & Data Science Start-up Company based in England, UK |
^ back to top ^
顶部
Some data mining competition platforms
^ back to top ^
| 预览 | 描述 |
|---|---|
| Key differences of a data scientist vs. data engineer | |
| A visual guide to Becoming a Data Scientist in 8 Steps by DataCamp (img) | |
| Mindmap on required skills (img) | |
| Swami Chandrasekaran made a Curriculum via Metro map. | |
| by @kzawadz via twitter | |
| By Data Science Central | |
| Data Science Wars: R vs Python | |
| How to select statistical or machine learning techniques | |
| Choosing the Right Estimator | |
| The Data Science Industry: Who Does What | |
| 数据科学 | |
| Different Data Science Skills and Roles from this article by Springboard | |
| A simple and friendly way of teaching your non-data scientist/non-statistician colleagues how to avoid mistakes with data. From Geckoboard's Data Literacy Lessons. |
^ back to top ^
^ back to top ^