数据科学黑客是由分析Vidhya为数据科学界创建和维护的。
它包括与数据科学,机器学习有关的各种技巧,技巧和黑客
这些骇客是针对所有数据科学家的。无论您是初学者还是高级专业人士都没关系,这些黑客肯定会使您效率高!
随时在这里贡献自己的数据科学黑客。确保您的黑客遵循贡献指南
该存储库是Analytics Vidhya的自由课程的一部分。要了解更多如此出色的黑客访问数据科学黑客,提示和技巧
如何一次点击直接从Chrome中提取图像数据?想象一下,您想制定自己的机器学习项目,但是您没有足够的数据,这成为一项艰巨的任务担心,不是您可以使用ResourceAver扩展名直接下载数据!让我们看看如何!
步骤:
PANDAS APPRAPT是播放数据和创建新变量的最常用功能之一。它在传递数据框的每一行/列后,它返回一些功能。该函数可以是默认或用户定义的。
它有助于根据数据框中的数据值选择数据子集
它用于创建MS Excel样式电子表格。枢轴表中的级别将存储在结果dataFrame的索引和列上的多索引对象(层次索引)中。
pd.crosstab()函数用于获得数据的初始“感觉”(视图)。
它用于在PANDAS DataFrame列上应用矢量化的字符串函数。假设您想将数据框列中的名称拆分为名称和姓氏。 pandas.series.str和split()可用于执行此任务。
这是一个有趣的黑客,可以通过使用正则表达式在Python中使用2行代码来提取长片文本中存在的电子邮件ID。从社交媒体帖子和网站上提取信息已成为数据分析中的一种常见实践,但有时我们最终尝试使用复杂的方法来实现可以通过使用正确的技术轻松解决的事物。
线性和逻辑回归中最重要的假设之一是我们的数据必须遵循正态分布,但我们都知道在现实生活中通常并非如此。我们通常需要将数据转换为正常/高斯分布。
预处理是改善模型性能的关键步骤之一。文本预处理的主要原因之一是从标点符号,表情符号,链接等文本中删除不需要的字符,而我们的问题陈述不需要。
肘方法用于识别k-北端邻居中K的值。这是k个不同值的错误图,我们选择具有最小错误的k值!
数据分析的重要部分是预处理。很多时候,我们需要扩展我们的功能,例如在K-NN的情况下,我们总是需要在构建模型之前扩展数据,否则会带来虚假的结果。
今天收集的大多数数据都保留日期和时间变量。您可以从这些功能中提取很多信息,您可以在分析中使用它!
深度学习模型通常需要大量#DATA进行培训。但是,获取大量数据带有其自身的挑战。您可以使用图像增强技术,而不是手动收集数据。这是生成新图像的过程。这些新图像是使用现有培训图像生成的,因此我们不必手动收集它们。
构建词汇时,令牌化是主要任务。 Huggingface最近创建了一个用于令牌化的库,该图书馆提供了当今最常用的象征器的实现,重点是性能和多功能性。关键特征:超快速:它们可以在标准服务器的CPU上编码〜20sec中的1GB文本
您可以在仅1行代码中将分类和数字功能提取到单独的数据范围中!可以使用select_dtypes函数完成此操作。
您是否想对数据框进行快速数据分析?您可以使用PANDAS PROPILING在仅1行代码中生成数据集的配置文件报告!
将宽形式的数据框架转换为仅在1行代码中的长表单数据框架!在pd. -melt()中,另外一列用作标识符。 “ unmelt the数据”,使用pivot()函数
您知道如何获得Jupyter笔记本中所有命令的历史记录吗?使用%历史记录,Jupyter Notebook的内置魔术功能!注意 - 即使您在笔记本中切了单元格,百分比历史记录也会打印这些命令!
使用Seaborn在Pandas DataFrame上创建热图!它可以帮助您了解一瞥的完整值范围。
Scikit-Learn发布了其稳定的0.22.1版本,具有新功能和错误修复。一个新功能是plot_confusion_matrix函数,它为分类器生成了极其直观且可自定义的混淆矩阵。奖励提示:您可以使用values_format参数(整数'n',for for for float等)指定框中出现的数字格式
如果您在Jupyter笔记本的单个单元格中运行以下命令,输出将是什么? df.形状df.head()当然它将是您数据框架的前五行。我们可以在同一单元格中获得两个命令的输出吗?您可以使用InteractiveShell进行。
你们中的大多数人都听说过图书馆TQDM,您可能正在使用它跟踪永远运行的进度进行循环。在大多数情况下,我们编写具有嵌套的复杂函数。 #TQDM也允许跟踪。这是您可以在Python中使用TDQM跟踪嵌套环的方法。
深度学习模型通常需要大量的培训数据。但是,获取大量数据带有其自身的挑战。您可以使用图像增强技术,而不是手动收集数据。这是生成新图像的过程。这些新图像是使用现有培训图像生成的,因此我们不必手动收集它们。
Jupyter-主题提供了一种简单的方法来更改主题,字体等,并在Jupyter笔记本中提供更多内容。
步骤 -
conda install -c conda-forge jupyterthemes
pip install jupyterthemes
jt - l
jt -t chesterish
jt -r
为此,我们使用jupyter-Themes,它提供了一种简单的方法来更改主题,字体和更多内容。
步骤 -
安装jupyter-主题 -
conda install -c conda-forge jupyterthemes
conda install -c pip install jupyterthemes
更改主题,单元格宽度,单元高度
jt -t chesterish -cellw 100% lineh 170
当您需要将列的数据类型更改为DateTime时,该怎么办?我们可以在使用parse_dates参数读取数据时直接执行此操作。
您可以非常轻松地与非程序员共享Jupyter笔记本,最好的方法是使用Jupyter Nbviewer。专业提示 - 您可以使用活页夹在计算机上执行NBViewer的代码!
您知道如何仅用1行代码绘制决策树吗? Sklearn提供了一个简单的函数plot_tree()来完成此任务。您可以根据要求调整超参数。
您知道如何在Python中倒词字典吗?字典是一个无序,可变和索引的集合。它在日常编程和机器学习任务中被广泛使用。
CuffLinks直接绑定到Pandas DataFrames!因此,您可以制作交互式图表,而无需任何麻烦或长期代码。
此hack是关于使用魔术命令%% writefile将单元格的内容保存到.py文件,然后使用魔术命令%运行在另一个jupyter笔记本中运行该文件
打印一些数据结构时,您是否会感到困惑?不用担心,这很常见。漂亮的印刷模块提供了一种以视觉令人愉悦的方式打印数据结构的简便方法!
此代码允许您将任何格式的日期转换为指定格式。很多时候,我们在数据中收到各种格式的日期。该黑客将帮助您将所有这些格式转换为指定格式。
执行特征选择的方法之一是使用基本估计器的feature_importance_属性。使用selectfrommodel函数,您可以指定估计器和feature_importance_的阈值,此hack使用“均值”作为阈值。您可以调整阈值以获得最佳结果。要了解更多信息,请访问文档
将字符串转换为字符的最简单方法是什么?这是一个简单的黑客,在使用文本数据时派上用场
在使用深度学习构建图像分类模型时,所有图像都应具有相同的大小。但是,由于数据来自不同的来源,图像可能具有不同的形状。因此,为了将它们转换为相同的形状,我们可以使用开放式CV的调整大小函数。该黑客将帮助您将任何形状的图像转换为指定形状。
在PANDAS DataFrame上执行操作需要时间吗? Pandarallel是一种简单有效的工具,可以在所有可用的CPU上并行化Pandas操作!
发电机一次产生一个项目,仅在需求时生成它们。发电机的内存效率要高得多。该黑客将生成器表达式与列表综合进行比较。
您是否避免正则是因为它们很难读写和写作,并且棘手是正确的吗?此骇客可帮助您正确的正则表达式。 Regex101是一家在线正则测试仪,调试器,PHP,PCRE,PYTHON,GOLANG和JAVASCRIPT的重点
有时,数据可以以嵌套列表的形式。例如,数据可以是特定产品的日期交易记录。但是,您可能只需要一个维度。该黑客将帮助您将列表列表列入单个列表。
我们经常将打印语句用于调试目的。该黑客将帮助您关闭代码特定部分中的打印语句,以使调试更加容易。
该黑客将帮助您将单个PDF文档分为多页。
该黑客将帮助您将多个PDF文档组合到一个文档中。此黑客是黑客#42拆分PDF文档的倒数
有时,您将需要一个功能,而Keras Imagedatagenerator无法直接提供。您可以在其周围轻松创建包装器以适应您的需求。

(即一个神经网络,从多个数据源中获取输入,并对此数据进行组合培训),并且您希望数据生成器应该能够即时处理数据准备,您可以在Imagedatagenerator类中创建包装器,以提供所需的输出以提供所需的输出。此笔记本对此USECase说明了一个简单的解决方案。