KaggleDownloader เป็นคลาส Python ที่ออกแบบมาเพื่อโต้ตอบกับ Kaggle ช่วยให้ผู้ใช้สามารถตรวจสอบสิทธิ์ค้นหาดาวน์โหลดและแยกชุดข้อมูล คลาสสามารถใช้ทั้งแบบโต้ตอบในสมุดบันทึก Jupyter หรือผ่านบรรทัดคำสั่ง
ก่อนที่จะใช้คลาส KaggleDownloader ตรวจสอบให้แน่ใจว่าคุณมี:
คุณสามารถนำเข้าและใช้ KaggleDownloader โดยตรงภายในสมุดบันทึก Jupyter ด้านล่างเป็นคู่มือทีละขั้นตอนในการตรวจสอบสิทธิ์และดาวน์โหลดชุดข้อมูลโดยใช้วิธีการเรียน
import kaggle_downloader as kd # Assuming you've saved the class in kaggle_downloader.py
import pandas as pd
# Initialize KaggleDownloader
downloader = kd . KaggleDownloader ( api_token_path = "./kaggle.json" )
# Authenticate with Kaggle API
downloader . authenticate_kaggle ()
# Search for datasets related to a theme
downloader . search_datasets ( "netflix" )
# Download a specific dataset by its slug
downloader . download_dataset ( "shivamb/netflix-shows" )
df = pd . read_csv ( "./netflix_titles.csv" , delimiter = ',' , encoding = "utf-8" , encoding_errors = "replace" )
df . head ()get_api_token_path() : ส่งคืนเส้นทางไปยังไฟล์โทเค็น Kaggle API หลักget_alternative_token_path() : ส่งคืนเส้นทางไปยังไฟล์โทเค็น Kaggle API ทางเลือกget_path_downloads() : ส่งคืนเส้นทางการดาวน์โหลดไดเรกทอรีset_api_token_path(new_path) : ตั้งค่าเส้นทางใหม่สำหรับโทเค็น Kaggle APIset_alternative_token_path(new_path) : ตั้งเส้นทางใหม่สำหรับโทเค็น Kaggle API ทางเลือกset_path_downloads(new_path) : ตั้งค่าเส้นทางใหม่สำหรับชุดข้อมูลที่ดาวน์โหลดauthenticate_kaggle() : รับรองความถูกต้องกับ Kaggle API โดยการโหลดข้อมูลรับรองจากไฟล์โทเค็นauthenticate_with_credentials() : แจ้งให้ผู้ใช้ป้อนข้อมูลรับรอง Kaggle ด้วยตนเองและบันทึกไว้ในไฟล์ด้วยตนเองsearch_datasets(dataset_theme) : ค้นหา kaggle สำหรับชุดข้อมูลที่ตรงกับคำหลักหรือธีมที่กำหนดdownload_dataset(dataset_slug) : ดาวน์โหลดชุดข้อมูลจาก Kaggle ไปยังไดเรกทอรีที่ระบุextract_zip(zip_file) : แยกไฟล์ซิปที่ดาวน์โหลดไปยังไดเรกทอรีดาวน์โหลดcheck_kaggle_json() : ตรวจสอบว่าไฟล์โทเค็น Kaggle API มีอยู่ที่เส้นทางหลักหรือทางเลือกหรือไม่create_download_directory(path) : สร้างไดเรกทอรีที่ชุดข้อมูลจะถูกบันทึกหากไม่มีอยู่แล้ว หรือคุณสามารถใช้คลาส KaggleDownloader ผ่านบรรทัดคำสั่ง วิธีการ main() อนุญาตให้ผู้ใช้เรียกใช้คลาสและดาวน์โหลดชุดข้อมูลโดยการระบุชุดข้อมูลเป็นอาร์กิวเมนต์
ก่อนอื่นให้แน่ใจว่าสคริปต์ของคุณสามารถดำเนินการได้:
chmod +x kaggle_downloader.pyใช้คำสั่งต่อไปนี้เพื่อดาวน์โหลดชุดข้อมูลจาก Kaggle:
python kaggle_downloader_package/kaggle_downloader.py benroshan/ecommerce-data สิ่งนี้จะรับรองความถูกต้องด้วย kaggle (ขึ้นอยู่กับไฟล์ kaggle.json token ของคุณ) และดาวน์โหลดชุดข้อมูลไปยังไดเรกทอรีที่ระบุใน path_downloads (หรือไดเรกทอรีการทำงานปัจจุบันโดยค่าเริ่มต้น)
dataset_slug : ตัวระบุชุดข้อมูล Kaggle (Slug) ที่คุณต้องการดาวน์โหลดเช่น benroshan/ecommerce-data kaggle.json )kaggle_downloader.py ด้วยชื่อไฟล์จริงหากแตกต่างกันfrom kaggle_downloader import KaggleDownloader ) หากคุณจัดระเบียบรหัสของคุณแตกต่างกัน อย่าลังเลที่จะมีส่วนร่วมในโครงการนี้โดยการส่งปัญหาการร้องขอคุณสมบัติหรือดึงคำขอบน GitHub
โครงการนี้ได้รับใบอนุญาตภายใต้ใบอนุญาต MIT ดูไฟล์ LICENSE สำหรับรายละเอียด
Mariano Gobea Alcoba
อีเมล: [email protected]