KaggleDownloader - это класс Python, предназначенный для взаимодействия с Kaggle, позволяя пользователям аутентифицировать, поиск, загрузку и извлечение наборов данных. Класс может использоваться как интерактивно в ноутбуках Jupyter, либо через командную строку.
Перед использованием класса KaggleDownloader , убедитесь, что у вас есть:
Вы можете импортировать и использовать KaggleDownloader непосредственно в ноутбуке Jupyter. Ниже приведено пошаговое руководство по аутентификации и загрузке наборов данных с использованием методов класса.
import kaggle_downloader as kd # Assuming you've saved the class in kaggle_downloader.py
import pandas as pd
# Initialize KaggleDownloader
downloader = kd . KaggleDownloader ( api_token_path = "./kaggle.json" )
# Authenticate with Kaggle API
downloader . authenticate_kaggle ()
# Search for datasets related to a theme
downloader . search_datasets ( "netflix" )
# Download a specific dataset by its slug
downloader . download_dataset ( "shivamb/netflix-shows" )
df = pd . read_csv ( "./netflix_titles.csv" , delimiter = ',' , encoding = "utf-8" , encoding_errors = "replace" )
df . head ()get_api_token_path() : возвращает путь к первичному файлу токена API Kaggle.get_alternative_token_path() : возвращает путь к альтернативному файлу токена API kaggle.get_path_downloads() : возвращает путь каталога загрузки.set_api_token_path(new_path) : устанавливает новый путь для токена API Kaggle.set_alternative_token_path(new_path) : устанавливает новый путь для альтернативного токена API Kaggle.set_path_downloads(new_path) : устанавливает новый путь для загруженных наборов данных.authenticate_kaggle() : аутентификации с API Kaggle, загрузив учетные данные из файла токена.authenticate_with_credentials() : побуждает пользователя вручную ввести учетные данные Kaggle и сохраняет их в файл.search_datasets(dataset_theme) : Поиск Kaggle для наборов данных, соответствующих данному ключевому слову или теме.download_dataset(dataset_slug) : загружает набор данных от Kaggle в указанный каталог.extract_zip(zip_file) : извлекает загруженный ZIP -файл в каталог загрузки.check_kaggle_json() : проверяет, существует ли файл токена API kaggle API либо на первичном или альтернативном пути.create_download_directory(path) : создает каталог, где будут сохранены наборы данных, если его еще не существует. В качестве альтернативы, вы можете использовать класс KaggleDownloader через командную строку. Метод main() позволяет пользователям запускать наборы данных класса и загружать, указав наборы данных в качестве аргумента.
Во -первых, убедитесь, что ваш сценарий исполняется:
chmod +x kaggle_downloader.pyИспользуйте следующую команду, чтобы загрузить набор данных из Kaggle:
python kaggle_downloader_package/kaggle_downloader.py benroshan/ecommerce-data Это будет аутентифицировать с Kaggle (на основе вашего файла токена kaggle.json ) и загрузить набор данных в каталог, указанный в path_downloads (или текущий рабочий каталог по умолчанию).
dataset_slug : идентификатор набора данных Kaggle (SLUG), который вы хотите скачать, например, benroshan/ecommerce-data . kaggle.json ).kaggle_downloader.py с фактическим именем файла, если отличается.from kaggle_downloader import KaggleDownloader ), если вы организуете свой код по -разному. Не стесняйтесь внести свой вклад в этот проект, отправив проблемы, запросы на функции или запросы на Github.
Этот проект лицензирован по лицензии MIT. Смотрите файл LICENSE для получения подробной информации.
Мариано Гобея Алкоба
Электронная почта: [email protected]