KaggleDownloader es una clase de Python diseñada para interactuar con Kaggle, lo que permite a los usuarios autenticar, buscar, descargar y extraer conjuntos de datos. La clase se puede usar tanto interactivamente en los cuadernos Jupyter o a través de la línea de comandos.
Antes de usar la clase KaggleDownloader , asegúrese de tener:
Puede importar y usar KaggleDownloader directamente dentro de un cuaderno Jupyter. A continuación se muestra una guía paso a paso para autenticar y descargar conjuntos de datos utilizando los métodos de clase.
import kaggle_downloader as kd # Assuming you've saved the class in kaggle_downloader.py
import pandas as pd
# Initialize KaggleDownloader
downloader = kd . KaggleDownloader ( api_token_path = "./kaggle.json" )
# Authenticate with Kaggle API
downloader . authenticate_kaggle ()
# Search for datasets related to a theme
downloader . search_datasets ( "netflix" )
# Download a specific dataset by its slug
downloader . download_dataset ( "shivamb/netflix-shows" )
df = pd . read_csv ( "./netflix_titles.csv" , delimiter = ',' , encoding = "utf-8" , encoding_errors = "replace" )
df . head ()get_api_token_path() : Devuelve la ruta al archivo de token API Kaggle primario.get_alternative_token_path() : Devuelve la ruta al archivo de token API Kaggle alternativo.get_path_downloads() : Devuelve la ruta de directorio de descarga.set_api_token_path(new_path) : establece una nueva ruta para el token de la API Kaggle.set_alternative_token_path(new_path) : establece una nueva ruta para el token API Kaggle alternativo.set_path_downloads(new_path) : establece una nueva ruta para conjuntos de datos descargados.authenticate_kaggle() : Authentices con la API de Kaggle cargando credenciales desde el archivo token.authenticate_with_credentials() : solicita al usuario que ingrese manualmente las credenciales de Kaggle y las guarde en un archivo.search_datasets(dataset_theme) : busca Kaggle para conjuntos de datos que coincidan con una palabra clave o tema determinado.download_dataset(dataset_slug) : descarga un conjunto de datos de Kaggle al directorio especificado.extract_zip(zip_file) : extrae un archivo zip descargado al directorio de descarga.check_kaggle_json() : verifica si el archivo de token de la API Kaggle existe en la ruta primaria o alternativa.create_download_directory(path) : crea el directorio donde se guardarán los conjuntos de datos, si aún no existe. Alternativamente, puede usar la clase KaggleDownloader a través de la línea de comando. El método main() permite a los usuarios ejecutar la clase y descargar conjuntos de datos especificando el conjunto de datos como argumento.
Primero, asegúrese de que su script sea ejecutable:
chmod +x kaggle_downloader.pyUse el siguiente comando para descargar un conjunto de datos de Kaggle:
python kaggle_downloader_package/kaggle_downloader.py benroshan/ecommerce-data Esto se autenticará con Kaggle (basado en su archivo token kaggle.json ) y descargará el conjunto de datos al directorio especificado en path_downloads (o el directorio de trabajo actual de forma predeterminada).
dataset_slug : el identificador de conjunto de datos Kaggle (Slug) que desea descargar, por ejemplo, benroshan/ecommerce-data . kaggle.json ).kaggle_downloader.py con el nombre de archivo real si es diferente.from kaggle_downloader import KaggleDownloader ) si organiza su código de manera diferente. Siéntase libre de contribuir a este proyecto enviando problemas, solicitudes de funciones o solicitudes de extraer en GitHub.
Este proyecto tiene licencia bajo la licencia MIT. Consulte el archivo LICENSE para obtener más detalles.
Mariano Gobea Alcoba
Correo electrónico: [email protected]