MyDataSciencePortfolio由以下工具赞助。请通过查看并注册免费试用?✌️✌️帮助我们提供帮助。
介绍
客户流失研究
中型博客文章
电影推荐系统
旧金山犯罪研究
概要聚类
有用的NLP库
未来的潜在项目
附录
欢迎来到我很棒的数据科学项目组合。在我的存储库中,您可以通过统计方法和建立机器学习模型找到一些真实世界业务问题的绝妙和实用解决方案。我的大多数项目都将在Jupyter笔记本中进行演示。 Jupyter Notebook是与世界分享我的作品的绝佳方式。它附带了Markdown和Interactive Python环境,它也可移植到Databricks和Google Colagoratory等其他平台。
我的项目集合涵盖了各种流行的机器学习应用程序,例如自然语言处理,带有火花的大型机器学习和推荐系统。还有更多。潜在的未来项目包括文本摘要,股票价格预测,通过加强学习的交易策略和计算机愿景。
流失率是重要的业务指标之一。公司可以比较其流失和增长率,以确定是否存在整体增长或损失。当流失率高于增长率时,该公司的客户群损失。
为什么客户流失并停止使用公司的服务?下一季度流失的估计量是多少?能够回答以上两个问题可以提供有意义的见解,了解该公司当前朝着什么方向发展,以及公司如何改善其产品和服务,以便构造人留下来。
Medium是一个流行的博客发布平台,具有大量内容和文本数据。人们在发表什么?这些博客文章中的潜在主题是什么?是什么使Blogpost流行?当今技术的趋势是什么?该项目旨在通过可视化,分析,自然语言过程和机器学习技术来回答问题。
具体来说,我将使用Seaborn和Pandas进行探索性分析。对于机器学习建模,我选择K-均值, TSVD和litentdirichletallation来进行主题建模。我将使用两个不同的ML框架进行这项研究: Sklearn和Spark 。
Sklearn是一个很棒的Python机器学习库,用于数据科学家。
但是,在大数据时代,大多数数据分析都是基于分布式计算的。 Spark是分布式集群计算框架,并为编程具有隐式数据并行性和容错性的整个群集提供了一个接口。
我们今天使用的大多数产品都由推荐引擎提供动力。 YouTube,Netflix,Amazon,Pinterest和其他数据产品均依赖于建议引擎来过滤数百万个内容,并向其用户提出个性化建议。
我自己构建推荐系统真是太酷了。当我和家人共度时光时,我喜欢看电影。因此,我决定为自己制作一部推荐电影。总体而言,推荐系统可以松散分为三类:基于内容的系统,协作过滤系统和混合系统(使用其他两个组合)。
我的项目专注于协作过滤系统。基于协作过滤的系统使用用户推荐其他项目的操作。通常,它们可以基于用户或基于项目。通常,基于项目的方法比基于用户的方法优先。由于用户的动态性质,基于用户的方法通常很难扩展,而项目通常不会变化太大,因此通常可以离线计算基于项目的方法。
但是,基于项目和基于用户的协作过滤仍然面临着以下挑战:
为了克服上述挑战,我将使用矩阵分解来学习用户和项目之间的潜在特征和互动
旧金山一直是居住最昂贵的城市。越来越多的初创企业和公司在城市中移动,并吸引了越来越多的人才进入城市。但是,犯罪事件似乎也随着其居民的平均收入而上升。汽车闯入旧金山的“流行病”水平。
在这项研究中,我将使用SPARK分析SFPD的15年报告的事件数据集,并使用机器学习方法来了解SF中的犯罪模式和分布。最后,我将建立一个时间序列的预测模型,以预测犯罪率
今天,我们可以收集比以往更多的非结构化数据。与结构化数据不同,非结构化数据不是通过预定义的数据模型或模式构建的,而是它具有内部结构。非结构化数据的一个示例是文本数据,例如绘图摘要,电影的摘要。
在此项目中,我将使用经典的NLP技术:单词令牌化,单词词干,停止词删除, TF-IDF以及更多内容来清洁原始文本数据并从原始文本中提取功能。然后,我将使用无监督的学习模型,例如K-均值和litentdirichletallocation将未标记的文档分为不同的组,可视化结果并确定其潜在主题/结构。
通过将聚类技术应用于非结构化数据,我们可以开始发现数据内部的内部结构并确定文档之间的相似性。随着文档之间的相似性分数,我们开始具有从任何文档存储中查询和分析文档的能力。
自然语言处理(NLP)是一个趋势领域,讲述了如何编程机器处理和分析大量自然语言数据,并从中提取有意义的信息。
有许多旨在解决NLP问题的工具和库。最常用的库是自然语言工具包(NLTK) , Spacy , Sklearn NLP工具包, Gensim , Pattern , Polyglot等。我的笔记本将介绍每个NLP库的基本用法,优缺点。