KaggleDownloader هي فئة Python مصممة للتفاعل مع Kaggle ، وتمكين المستخدمين من مصادقة مجموعات البيانات والبحث عنها وتنزيلها واستخراجها. يمكن استخدام الفئة بشكل تفاعلي في دفاتر Jupyter أو عبر سطر الأوامر.
قبل استخدام فئة KaggleDownloader ، تأكد من أن لديك:
يمكنك استيراد واستخدام KaggleDownloader مباشرة داخل دفتر Jupyter. فيما يلي دليل خطوة بخطوة لمصادقة مجموعات البيانات وتنزيلها باستخدام أساليب الفصل.
import kaggle_downloader as kd # Assuming you've saved the class in kaggle_downloader.py
import pandas as pd
# Initialize KaggleDownloader
downloader = kd . KaggleDownloader ( api_token_path = "./kaggle.json" )
# Authenticate with Kaggle API
downloader . authenticate_kaggle ()
# Search for datasets related to a theme
downloader . search_datasets ( "netflix" )
# Download a specific dataset by its slug
downloader . download_dataset ( "shivamb/netflix-shows" )
df = pd . read_csv ( "./netflix_titles.csv" , delimiter = ',' , encoding = "utf-8" , encoding_errors = "replace" )
df . head ()get_api_token_path() : إرجاع المسار إلى ملف الرمز المميز لـ Kaggle API الأساسي.get_alternative_token_path() : إرجاع المسار إلى ملف الرمز المميز لـ Kaggle API البديل.get_path_downloads() : إرجاع مسار دليل التنزيل.set_api_token_path(new_path) : يعين مسارًا جديدًا لرمز api api kaggle.set_alternative_token_path(new_path) : يعين مسارًا جديدًا لرمز api api البديل.set_path_downloads(new_path) : يعين مسارًا جديدًا لمجموعات البيانات التي تم تنزيلها.authenticate_kaggle() : مصادقة باستخدام API Kaggle عن طريق تحميل بيانات الاعتماد من ملف الرمز المميز.authenticate_with_credentials() : يطالب المستخدم بإدخال بيانات اعتماد Kaggle يدويًا وحفظها في ملف.search_datasets(dataset_theme) : يبحث عن kaggle لمجموعات البيانات التي تتطابق مع كلمة رئيسية أو موضوع معين.download_dataset(dataset_slug) : تنزيل مجموعة بيانات من kaggle إلى الدليل المحدد.extract_zip(zip_file) : يستخرج ملف zip تم تنزيله إلى دليل التنزيل.check_kaggle_json() : يتحقق مما إذا كان ملف الرمز المميز لـ Kaggle API موجودًا في المسار الأساسي أو البديل.create_download_directory(path) : إنشاء الدليل حيث سيتم حفظ مجموعات البيانات ، إذا لم يكن موجودًا بالفعل. بدلاً من ذلك ، يمكنك استخدام فئة KaggleDownloader عبر سطر الأوامر. تتيح الطريقة main() للمستخدمين تشغيل الفصل وتنزيل مجموعات البيانات عن طريق تحديد Slug Slug كوسيطة.
أولاً ، تأكد من أن البرنامج النصي قابل للتنفيذ:
chmod +x kaggle_downloader.pyاستخدم الأمر التالي لتنزيل مجموعة بيانات من Kaggle:
python kaggle_downloader_package/kaggle_downloader.py benroshan/ecommerce-data سيؤدي ذلك إلى المصادقة باستخدام Kaggle (استنادًا إلى ملف Token kaggle.json ) وتنزيل مجموعة البيانات على الدليل المحدد في path_downloads (أو دليل العمل الحالي افتراضيًا).
dataset_slug : معرف مجموعة بيانات Kaggle (Slug) الذي تريد تنزيله ، على سبيل المثال ، benroshan/ecommerce-data . kaggle.json ).kaggle_downloader.py باسم الملف الفعلي إذا كان مختلفًا.from kaggle_downloader import KaggleDownloader ) إذا قمت بتنظيم الكود الخاص بك بشكل مختلف. لا تتردد في المساهمة في هذا المشروع من خلال تقديم المشكلات أو طلبات الميزات أو سحب طلبات GitHub.
هذا المشروع مرخص بموجب ترخيص معهد ماساتشوستس للتكنولوجيا. انظر ملف LICENSE للحصول على التفاصيل.
ماريانو جوبيا ألكوبا
البريد الإلكتروني: [email protected]