KaggleDownloader adalah kelas Python yang dirancang untuk berinteraksi dengan Kaggle, memungkinkan pengguna untuk mengotentikasi, mencari, mengunduh, dan mengekstrak dataset. Kelas dapat digunakan baik secara interaktif dalam buku catatan Jupyter atau melalui baris perintah.
Sebelum menggunakan kelas KaggleDownloader , pastikan Anda memiliki:
Anda dapat mengimpor dan menggunakan KaggleDownloader langsung dalam buku catatan Jupyter. Di bawah ini adalah panduan langkah demi langkah untuk mengotentikasi dan mengunduh dataset menggunakan metode kelas.
import kaggle_downloader as kd # Assuming you've saved the class in kaggle_downloader.py
import pandas as pd
# Initialize KaggleDownloader
downloader = kd . KaggleDownloader ( api_token_path = "./kaggle.json" )
# Authenticate with Kaggle API
downloader . authenticate_kaggle ()
# Search for datasets related to a theme
downloader . search_datasets ( "netflix" )
# Download a specific dataset by its slug
downloader . download_dataset ( "shivamb/netflix-shows" )
df = pd . read_csv ( "./netflix_titles.csv" , delimiter = ',' , encoding = "utf-8" , encoding_errors = "replace" )
df . head ()get_api_token_path() : Mengembalikan jalur ke file token API Kaggle utama.get_alternative_token_path() : Mengembalikan jalur ke file token Kaggle API alternatif.get_path_downloads() : Mengembalikan jalur direktori unduhan.set_api_token_path(new_path) : Mengatur jalur baru untuk token API Kaggle.set_alternative_token_path(new_path) : Mengatur jalur baru untuk token API Kaggle alternatif.set_path_downloads(new_path) : Mengatur jalur baru untuk dataset yang diunduh.authenticate_kaggle() : Mengotentikasi dengan Kaggle API dengan memuat kredensial dari file token.authenticate_with_credentials() : meminta pengguna untuk secara manual memasukkan kredensial kaggle dan menyimpannya ke file.search_datasets(dataset_theme) : Cari kaggle untuk dataset yang cocok dengan kata kunci atau tema yang diberikan.download_dataset(dataset_slug) : Unduh dataset dari kaggle ke direktori yang ditentukan.extract_zip(zip_file) : Mengekstrak file zip yang diunduh ke direktori unduhan.check_kaggle_json() : Memeriksa apakah file token API Kaggle ada di jalur primer atau alternatif.create_download_directory(path) : Membuat direktori di mana dataset akan disimpan, jika belum ada. Atau, Anda dapat menggunakan kelas KaggleDownloader melalui baris perintah. Metode main() memungkinkan pengguna untuk menjalankan kelas dan mengunduh dataset dengan menentukan dataset slug sebagai argumen.
Pertama, pastikan skrip Anda dapat dieksekusi:
chmod +x kaggle_downloader.pyGunakan perintah berikut untuk mengunduh dataset dari Kaggle:
python kaggle_downloader_package/kaggle_downloader.py benroshan/ecommerce-data Ini akan mengotentikasi dengan Kaggle (berdasarkan file token kaggle.json Anda) dan mengunduh dataset ke direktori yang ditentukan dalam path_downloads (atau direktori kerja saat ini secara default).
dataset_slug : Kaggle Dataset Identifier (Slug) yang ingin Anda unduh, misalnya, benroshan/ecommerce-data . kaggle.json ).kaggle_downloader.py dengan nama file yang sebenarnya jika berbeda.from kaggle_downloader import KaggleDownloader ) jika Anda mengatur kode Anda secara berbeda. Jangan ragu untuk berkontribusi pada proyek ini dengan mengirimkan masalah, permintaan fitur, atau permintaan tarik di GitHub.
Proyek ini dilisensikan di bawah lisensi MIT. Lihat file LICENSE untuk detailnya.
Mariano Gobea Alcoba
Email: [email protected]