kaggle_downloader_package
1.0.0
KaggleDownloader是一個Python類,旨在與Kaggle進行交互,使用戶能夠對數據集進行身份驗證,搜索,下載和提取數據集。該類可以在Jupyter筆記本電腦中或通過命令行進行交互式使用。
在使用KaggleDownloader類之前,請確保您有:
您可以直接在Jupyter筆記本中導入並使用KaggleDownloader 。以下是使用類方法對數據集進行身份驗證和下載數據集的逐步指南。
import kaggle_downloader as kd # Assuming you've saved the class in kaggle_downloader.py
import pandas as pd
# Initialize KaggleDownloader
downloader = kd . KaggleDownloader ( api_token_path = "./kaggle.json" )
# Authenticate with Kaggle API
downloader . authenticate_kaggle ()
# Search for datasets related to a theme
downloader . search_datasets ( "netflix" )
# Download a specific dataset by its slug
downloader . download_dataset ( "shivamb/netflix-shows" )
df = pd . read_csv ( "./netflix_titles.csv" , delimiter = ',' , encoding = "utf-8" , encoding_errors = "replace" )
df . head ()get_api_token_path() :返回到主Kaggle API代幣文件的路徑。get_alternative_token_path() :返回替代Kaggle API代幣文件的路徑。get_path_downloads() :返回下載目錄路徑。set_api_token_path(new_path) :設置Kaggle API令牌的新路徑。set_alternative_token_path(new_path) :為替代Kaggle API令牌設置新路徑。set_path_downloads(new_path) :設置下載數據集的新路徑。authenticate_kaggle() :通過從令牌文件中加載憑據,使用Kaggle API進行身份驗證。authenticate_with_credentials() :提示用戶手動輸入Kaggle憑據並將其保存到文件中。search_datasets(dataset_theme) :搜索與給定關鍵字或主題相匹配的數據集。download_dataset(dataset_slug) :從kaggle下載到指定目錄的數據集。extract_zip(zip_file) :將下載的zip文件提取到下載目錄。check_kaggle_json() :檢查Kaggle API令牌文件是否存在於主路徑或替代路徑上。create_download_directory(path) :創建將保存數據集的目錄(如果尚不存在)。 另外,您可以通過命令行使用KaggleDownloader類。 main()方法允許用戶通過將數據集slug作為參數指定來運行類並下載數據集。
首先,確保您的腳本可執行:
chmod +x kaggle_downloader.py使用以下命令從Kaggle下載數據集:
python kaggle_downloader_package/kaggle_downloader.py benroshan/ecommerce-data這將使用Kaggle(基於您的kaggle.json令牌文件)進行身份驗證,然後將數據集下載到path_downloads中指定的目錄(或默認情況下的當前工作目錄)。
dataset_slug :您要下載的Kaggle DataSet標識符(SLUG),例如benroshan/ecommerce-data 。 kaggle.json )。kaggle_downloader.py替換為實際文件名。from kaggle_downloader import KaggleDownloader )。 隨意通過在GitHub上提交問題,功能請求或提取請求來為該項目做出貢獻。
該項目已根據MIT許可獲得許可。有關詳細信息,請參見LICENSE文件。
Mariano Gobea Alcoba
電子郵件:[email protected]