Data Science Hacks下载 - Data Science Hacks源代码下载

Data Science Hacks

其他源码

1.0.0

下载

数据科学骇客，提示和技巧

数据科学黑客是由分析Vidhya为数据科学界创建和维护的。

它包括与数据科学，机器学习有关的各种技巧，技巧和黑客

这些骇客是针对所有数据科学家的。无论您是初学者还是高级专业人士都没关系，这些黑客肯定会使您效率高！

随时在这里贡献自己的数据科学黑客。确保您的黑客遵循贡献指南

该存储库是Analytics Vidhya的自由课程的一部分。要了解更多如此出色的黑客访问数据科学黑客，提示和技巧

数据科学黑客＃1-资源下载器

如何一次点击直接从Chrome中提取图像数据？想象一下，您想制定自己的机器学习项目，但是您没有足够的数据，这成为一项艰巨的任务担心，不是您可以使用ResourceAver扩展名直接下载数据！让我们看看如何！

步骤：

从给定的URL安装Chrome Extension。
转到您要保存数据的地方的Google图像或任何网页。
打开检查元素，然后单击ResourcesAver选项卡
单击按钮保存所有资源，将创建一个邮政编码。
解开文件和打开文件夹加密tbn0.gstatic.com
您可以在这里找到图像。

数据科学黑客＃2 Pandas适用

PANDAS APPRAPT是播放数据和创建新变量的最常用功能之一。它在传递数据框的每一行/列后，它返回一些功能。该函数可以是默认或用户定义的。

数据科学黑客＃3 Pandas Boolean索引

它有助于根据数据框中的数据值选择数据子集

数据科学黑客＃4熊猫枢轴表

它用于创建MS Excel样式电子表格。枢轴表中的级别将存储在结果dataFrame的索引和列上的多索引对象（层次索引）中。

数据科学黑客＃5 Pandas Crosstab

pd.crosstab（）函数用于获得数据的初始“感觉”（视图）。

数据科学黑客＃6 Pandas Str.Split

它用于在PANDAS DataFrame列上应用矢量化的字符串函数。假设您想将数据框列中的名称拆分为名称和姓氏。 pandas.series.str和split（）可用于执行此任务。

数据科学黑客＃7从文本中提取电子邮件

这是一个有趣的黑客，可以通过使用正则表达式在Python中使用2行代码来提取长片文本中存在的电子邮件ID。从社交媒体帖子和网站上提取信息已成为数据分析中的一种常见实践，但有时我们最终尝试使用复杂的方法来实现可以通过使用正确的技术轻松解决的事物。

数据科学黑客＃8正态分布

线性和逻辑回归中最重要的假设之一是我们的数据必须遵循正态分布，但我们都知道在现实生活中通常并非如此。我们通常需要将数据转换为正常/高斯分布。

数据科学黑客＃9从文本中删除表情符号

预处理是改善模型性能的关键步骤之一。文本预处理的主要原因之一是从标点符号，表情符号，链接等文本中删除不需要的字符，而我们的问题陈述不需要。

数据科学黑客＃10分类器肘法

肘方法用于识别k-北端邻居中K的值。这是k个不同值的错误图，我们选择具有最小错误的k值！

数据科学黑客＃11 Minmax Scaler

数据分析的重要部分是预处理。很多时候，我们需要扩展我们的功能，例如在K-NN的情况下，我们总是需要在构建模型之前扩展数据，否则会带来虚假的结果。

数据科学黑客＃12功能工程时间序列数据

今天收集的大多数数据都保留日期和时间变量。您可以从这些功能中提取很多信息，您可以在分析中使用它！

数据科学黑客＃13线性回归的虚拟数据

深度学习模型通常需要大量#DATA进行培训。但是，获取大量数据带有其自身的挑战。您可以使用图像增强技术，而不是手动收集数据。这是生成新图像的过程。这些新图像是使用现有培训图像生成的，因此我们不必手动收集它们。

数据科学黑客＃14拥抱面象征化

构建词汇时，令牌化是主要任务。 Huggingface最近创建了一个用于令牌化的库，该图书馆提供了当今最常用的象征器的实现，重点是性能和多功能性。关键特征：超快速：它们可以在标准服务器的CPU上编码〜20sec中的1GB文本

数据科学黑客＃15划分连续和分类数据

您可以在仅1行代码中将分类和数字功能提取到单独的数据范围中！可以使用select_dtypes函数完成此操作。

数据科学黑客＃16熊猫分析

您是否想对数据框进行快速数据分析？您可以使用PANDAS PROPILING在仅1行代码中生成数据集的配置文件报告！

数据科学黑客＃17数据框架的格式

将宽形式的数据框架转换为仅在1行代码中的长表单数据框架！在pd. -melt（）中，另外一列用作标识符。 “ unmelt the数据”，使用pivot（）函数

数据科学黑客＃18魔术功能 - ％历史

您知道如何获得Jupyter笔记本中所有命令的历史记录吗？使用％历史记录，Jupyter Notebook的内置魔术功能！注意 - 即使您在笔记本中切了单元格，百分比历史记录也会打印这些命令！

数据科学黑客＃19熊猫数据框架上的热图

使用Seaborn在Pandas DataFrame上创建热图！它可以帮助您了解一瞥的完整值范围。

数据科学黑客＃20情节混乱矩阵

Scikit-Learn发布了其稳定的0.22.1版本，具有新功能和错误修复。一个新功能是plot_confusion_matrix函数，它为分类器生成了极其直观且可自定义的混淆矩阵。奖励提示：您可以使用values_format参数（整数'n'，for for for float等）指定框中出现的数字格式

数据科学黑客＃21 ipython Interactive shell

如果您在Jupyter笔记本的单个单元格中运行以下命令，输出将是什么？ df.形状df.head（）当然它将是您数据框架的前五行。我们可以在同一单元格中获得两个命令的输出吗？您可以使用InteractiveShell进行。

数据科学黑客＃22 Python TQDM

你们中的大多数人都听说过图书馆TQDM，您可能正在使用它跟踪永远运行的进度进行循环。在大多数情况下，我们编写具有嵌套的复杂函数。 #TQDM也允许跟踪。这是您可以在Python中使用TDQM跟踪嵌套环的方法。

数据科学黑客＃23图像增强

深度学习模型通常需要大量的培训数据。但是，获取大量数据带有其自身的挑战。您可以使用图像增强技术，而不是手动收集数据。这是生成新图像的过程。这些新图像是使用现有培训图像生成的，因此我们不必手动收集它们。

数据科学黑客＃24设置深色jupyter笔记本主题

Jupyter-主题提供了一种简单的方法来更改主题，字体等，并在Jupyter笔记本中提供更多内容。

步骤 -

安装jupyter-主题 -
- 使用Anaconda
  conda install -c conda-forge jupyterthemes
- 使用PIP
  pip install jupyterthemes
检查主题清单 -
jt - l
选择一个主题
jt -t chesterish
还原为默认主题 -
jt -r

数据科学黑客＃25更改木星笔记本中的单元格宽度

为此，我们使用jupyter-Themes，它提供了一种简单的方法来更改主题，字体和更多内容。

步骤 -

安装jupyter-主题 -
- 使用Anaconda
  conda install -c conda-forge jupyterthemes
- 使用PIP
  conda install -c pip install jupyterthemes
更改主题，单元格宽度，单元高度
jt -t chesterish -cellw 100% lineh 170

数据科学黑客＃26 parse_dates在read_csv（）中以将数据类型更改为dateTime

当您需要将列的数据类型更改为DateTime时，该怎么办？我们可以在使用parse_dates参数读取数据时直接执行此操作。

数据科学黑客27使用NBViewer共享Jupyter笔记本

您可以非常轻松地与非程序员共享Jupyter笔记本，最好的方法是使用Jupyter Nbviewer。专业提示 - 您可以使用活页夹在计算机上执行NBViewer的代码！

数据科学黑客＃28绘图决策树

您知道如何仅用1行代码绘制决策树吗？ Sklearn提供了一个简单的函数plot_tree（）来完成此任务。您可以根据要求调整超参数。

数据科学黑客＃29反转字典

您知道如何在Python中倒词字典吗？字典是一个无序，可变和索引的集合。它在日常编程和机器学习任务中被广泛使用。

数据科学黑客＃30互动图使用绘图

CuffLinks直接绑定到Pandas DataFrames！因此，您可以制作交互式图表，而无需任何麻烦或长期代码。

数据科学hack＃31直接从jupyter笔记本单元中写入python文件

此hack是关于使用魔术命令%% writefile将单元格的内容保存到.py文件，然后使用魔术命令％运行在另一个jupyter笔记本中运行该文件

数据科学黑客＃32漂亮的印刷数据结构

打印一些数据结构时，您是否会感到困惑？不用担心，这很常见。漂亮的印刷模块提供了一种以视觉令人愉悦的方式打印数据结构的简便方法！

数据科学黑客＃33日期解析器

此代码允许您将任何格式的日期转换为指定格式。很多时候，我们在数据中收到各种格式的日期。该黑客将帮助您将所有这些格式转换为指定格式。

数据科学黑客＃34使用Selectfrombelel的功能选择

执行特征选择的方法之一是使用基本估计器的feature_importance_属性。使用selectfrommodel函数，您可以指定估计器和feature_importance_的阈值，此hack使用“均值”作为阈值。您可以调整阈值以获得最佳结果。要了解更多信息，请访问文档

数据科学黑客＃35将字符串转换为字符

将字符串转换为字符的最简单方法是什么？这是一个简单的黑客，在使用文本数据时派上用场

数据科学黑客＃36调整图像大小

在使用深度学习构建图像分类模型时，所有图像都应具有相同的大小。但是，由于数据来自不同的来源，图像可能具有不同的形状。因此，为了将它们转换为相同的形状，我们可以使用开放式CV的调整大小函数。该黑客将帮助您将任何形状的图像转换为指定形状。

数据科学黑客＃37并行应用大熊猫

在PANDAS DataFrame上执行操作需要时间吗？ Pandarallel是一种简单有效的工具，可以在所有可用的CPU上并行化Pandas操作！

数据科学黑客＃38发电机表达与列表理解

发电机一次产生一个项目，仅在需求时生成它们。发电机的内存效率要高得多。该黑客将生成器表达式与列表综合进行比较。

数据科学黑客＃39测试您的正则

您是否避免正则是因为它们很难读写和写作，并且棘手是正确的吗？此骇客可帮助您正确的正则表达式。 Regex101是一家在线正则测试仪，调试器，PHP，PCRE，PYTHON，GOLANG和JAVASCRIPT的重点

数据科学黑客＃40转换列表列表列表

有时，数据可以以嵌套列表的形式。例如，数据可以是特定产品的日期交易记录。但是，您可能只需要一个维度。该黑客将帮助您将列表列表列入单个列表。

数据科学黑客＃41隐藏打印语句

我们经常将打印语句用于调试目的。该黑客将帮助您关闭代码特定部分中的打印语句，以使调试更加容易。

数据科学黑客＃42拆分pdf文档在页面上

该黑客将帮助您将单个PDF文档分为多页。

数据科学黑客＃43合并PDF文档

该黑客将帮助您将多个PDF文档组合到一个文档中。此黑客是黑客＃42拆分PDF文档的倒数

数据科学黑客＃44在keras中创建自定义图像数据机器

有时，您将需要一个功能，而Keras Imagedatagenerator无法直接提供。您可以在其周围轻松创建包装器以适应您的需求。

例如，您的用户酶是您拥有这样的多输入深度学习模型

（即一个神经网络，从多个数据源中获取输入，并对此数据进行组合培训），并且您希望数据生成器应该能够即时处理数据准备，您可以在Imagedatagenerator类中创建包装器，以提供所需的输出以提供所需的输出。此笔记本对此USECase说明了一个简单的解决方案。

另一个用例可能是您想将图像从形状说明150x150调整到形状224x224（通常是由验证的型号使用），您可以自定义Imagedatagenerator，而无需从接地上编码自己的数据生成器（示例笔记本）。

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-04-16
大小 1.82MB
来自于 Github

Data Science Hacks

数据科学骇客，提示和技巧

数据科学黑客＃1-资源下载器

数据科学黑客＃2 Pandas适用

数据科学黑客＃3 Pandas Boolean索引

数据科学黑客＃4熊猫枢轴表

数据科学黑客＃5 Pandas Crosstab

数据科学黑客＃6 Pandas Str.Split

数据科学黑客＃7从文本中提取电子邮件

数据科学黑客＃8正态分布

数据科学黑客＃9从文本中删除表情符号

数据科学黑客＃10分类器肘法

数据科学黑客＃11 Minmax Scaler

数据科学黑客＃12功能工程时间序列数据

数据科学黑客＃13线性回归的虚拟数据

数据科学黑客＃14拥抱面象征化

数据科学黑客＃15划分连续和分类数据

数据科学黑客＃16熊猫分析

数据科学黑客＃17数据框架的格式

数据科学黑客＃18魔术功能 - ％历史

数据科学黑客＃19熊猫数据框架上的热图

数据科学黑客＃20情节混乱矩阵

数据科学黑客＃21 ipython Interactive shell

数据科学黑客＃22 Python TQDM

数据科学黑客＃23图像增强

数据科学黑客＃24设置深色jupyter笔记本主题

数据科学黑客＃25更改木星笔记本中的单元格宽度

数据科学黑客＃26 parse_dates在read_csv（）中以将数据类型更改为dateTime

数据科学黑客27使用NBViewer共享Jupyter笔记本

数据科学黑客＃28绘图决策树

数据科学黑客＃29反转字典

数据科学黑客＃30互动图使用绘图

数据科学hack＃31直接从jupyter笔记本单元中写入python文件

数据科学黑客＃32漂亮的印刷数据结构

数据科学黑客＃33日期解析器

数据科学黑客＃34使用Selectfrombelel的功能选择

数据科学黑客＃35将字符串转换为字符

数据科学黑客＃36调整图像大小

数据科学黑客＃37并行应用大熊猫

数据科学黑客＃38发电机表达与列表理解

数据科学黑客＃39测试您的正则

数据科学黑客＃40转换列表列表列表

数据科学黑客＃41隐藏打印语句

数据科学黑客＃42拆分pdf文档在页面上

数据科学黑客＃43合并PDF文档

数据科学黑客＃44在keras中创建自定义图像数据机器