kaggle_downloader_package
1.0.0
KaggleDownloader是一个Python类,旨在与Kaggle进行交互,使用户能够对数据集进行身份验证,搜索,下载和提取数据集。该类可以在Jupyter笔记本电脑中或通过命令行进行交互式使用。
在使用KaggleDownloader类之前,请确保您有:
您可以直接在Jupyter笔记本中导入并使用KaggleDownloader 。以下是使用类方法对数据集进行身份验证和下载数据集的逐步指南。
import kaggle_downloader as kd # Assuming you've saved the class in kaggle_downloader.py
import pandas as pd
# Initialize KaggleDownloader
downloader = kd . KaggleDownloader ( api_token_path = "./kaggle.json" )
# Authenticate with Kaggle API
downloader . authenticate_kaggle ()
# Search for datasets related to a theme
downloader . search_datasets ( "netflix" )
# Download a specific dataset by its slug
downloader . download_dataset ( "shivamb/netflix-shows" )
df = pd . read_csv ( "./netflix_titles.csv" , delimiter = ',' , encoding = "utf-8" , encoding_errors = "replace" )
df . head ()get_api_token_path() :返回到主Kaggle API代币文件的路径。get_alternative_token_path() :返回替代Kaggle API代币文件的路径。get_path_downloads() :返回下载目录路径。set_api_token_path(new_path) :设置Kaggle API令牌的新路径。set_alternative_token_path(new_path) :为替代Kaggle API令牌设置新路径。set_path_downloads(new_path) :设置下载数据集的新路径。authenticate_kaggle() :通过从令牌文件中加载凭据,使用Kaggle API进行身份验证。authenticate_with_credentials() :提示用户手动输入Kaggle凭据并将其保存到文件中。search_datasets(dataset_theme) :搜索与给定关键字或主题相匹配的数据集。download_dataset(dataset_slug) :从kaggle下载到指定目录的数据集。extract_zip(zip_file) :将下载的zip文件提取到下载目录。check_kaggle_json() :检查Kaggle API令牌文件是否存在于主路径或替代路径上。create_download_directory(path) :创建将保存数据集的目录(如果尚不存在)。 另外,您可以通过命令行使用KaggleDownloader类。 main()方法允许用户通过将数据集slug作为参数指定来运行类并下载数据集。
首先,确保您的脚本可执行:
chmod +x kaggle_downloader.py使用以下命令从Kaggle下载数据集:
python kaggle_downloader_package/kaggle_downloader.py benroshan/ecommerce-data这将使用Kaggle(基于您的kaggle.json令牌文件)进行身份验证,然后将数据集下载到path_downloads中指定的目录(或默认情况下的当前工作目录)。
dataset_slug :您要下载的Kaggle DataSet标识符(SLUG),例如benroshan/ecommerce-data 。 kaggle.json )。kaggle_downloader.py替换为实际文件名。from kaggle_downloader import KaggleDownloader )。 随意通过在GitHub上提交问题,功能请求或提取请求来为该项目做出贡献。
该项目已根据MIT许可获得许可。有关详细信息,请参见LICENSE文件。
Mariano Gobea Alcoba
电子邮件:[email protected]