kaggle_downloader_package تنزيل - kaggle_downloader_package تنزيل رمز المصدر

kaggle_downloader_package

كود الذكاء الاصطناعي

1.0.0

تنزيل

Kaggledownloader

KaggleDownloader هي فئة Python مصممة للتفاعل مع Kaggle ، وتمكين المستخدمين من مصادقة مجموعات البيانات والبحث عنها وتنزيلها واستخراجها. يمكن استخدام الفئة بشكل تفاعلي في دفاتر Jupyter أو عبر سطر الأوامر.

المتطلبات الأساسية

قبل استخدام فئة KaggleDownloader ، تأكد من أن لديك:

رمز API Kaggle ، متوفر من حساب Kaggle الخاص بك ضمن "API" (https://www.kaggle.com/settings).
Python 3.x مثبت.

القسم 1: استخدام kaggledownloader في دفتر ملاحظات Jupyter

يمكنك استيراد واستخدام KaggleDownloader مباشرة داخل دفتر Jupyter. فيما يلي دليل خطوة بخطوة لمصادقة مجموعات البيانات وتنزيلها باستخدام أساليب الفصل.

1.1 مثال رمز

 import kaggle_downloader as kd  # Assuming you've saved the class in kaggle_downloader.py
import pandas as pd

# Initialize KaggleDownloader
downloader = kd . KaggleDownloader ( api_token_path = "./kaggle.json" )

# Authenticate with Kaggle API
downloader . authenticate_kaggle ()

# Search for datasets related to a theme
downloader . search_datasets ( "netflix" )

# Download a specific dataset by its slug
downloader . download_dataset ( "shivamb/netflix-shows" )

df = pd . read_csv ( "./netflix_titles.csv" , delimiter = ',' , encoding = "utf-8" , encoding_errors = "replace" )
df . head ()

1.2 الطرق المتاحة

get_api_token_path() : إرجاع المسار إلى ملف الرمز المميز لـ Kaggle API الأساسي.
get_alternative_token_path() : إرجاع المسار إلى ملف الرمز المميز لـ Kaggle API البديل.
get_path_downloads() : إرجاع مسار دليل التنزيل.
set_api_token_path(new_path) : يعين مسارًا جديدًا لرمز api api kaggle.
set_alternative_token_path(new_path) : يعين مسارًا جديدًا لرمز api api البديل.
set_path_downloads(new_path) : يعين مسارًا جديدًا لمجموعات البيانات التي تم تنزيلها.
authenticate_kaggle() : مصادقة باستخدام API Kaggle عن طريق تحميل بيانات الاعتماد من ملف الرمز المميز.
authenticate_with_credentials() : يطالب المستخدم بإدخال بيانات اعتماد Kaggle يدويًا وحفظها في ملف.
search_datasets(dataset_theme) : يبحث عن kaggle لمجموعات البيانات التي تتطابق مع كلمة رئيسية أو موضوع معين.
download_dataset(dataset_slug) : تنزيل مجموعة بيانات من kaggle إلى الدليل المحدد.
extract_zip(zip_file) : يستخرج ملف zip تم تنزيله إلى دليل التنزيل.
check_kaggle_json() : يتحقق مما إذا كان ملف الرمز المميز لـ Kaggle API موجودًا في المسار الأساسي أو البديل.
create_download_directory(path) : إنشاء الدليل حيث سيتم حفظ مجموعات البيانات ، إذا لم يكن موجودًا بالفعل.

القسم 2: استخدام kaggledownloader عبر واجهة سطر الأوامر (CLI)

بدلاً من ذلك ، يمكنك استخدام فئة KaggleDownloader عبر سطر الأوامر. تتيح الطريقة main() للمستخدمين تشغيل الفصل وتنزيل مجموعات البيانات عن طريق تحديد Slug Slug كوسيطة.

2.1 مثال على استخدام CLI

أولاً ، تأكد من أن البرنامج النصي قابل للتنفيذ:
```
chmod +x kaggle_downloader.py
```
استخدم الأمر التالي لتنزيل مجموعة بيانات من Kaggle:
```
python kaggle_downloader_package/kaggle_downloader.py benroshan/ecommerce-data
```

سيؤدي ذلك إلى المصادقة باستخدام Kaggle (استنادًا إلى ملف Token kaggle.json ) وتنزيل مجموعة البيانات على الدليل المحدد في path_downloads (أو دليل العمل الحالي افتراضيًا).

2.2 حجج CLI

dataset_slug : معرف مجموعة بيانات Kaggle (Slug) الذي تريد تنزيله ، على سبيل المثال ، benroshan/ecommerce-data .

ملحوظات

تأكد من أن لديك رمز Kaggle API في مكانه ( kaggle.json ).
يمكنك تحديد مسارات رمزية بديلة في حالة عدم استخدام المسار الافتراضي.
إذا كنت تفضل تحميل اسم مستخدم Kaggle ومفتاحك يدويًا ، فسيطلب من KaggleDownloader الخاص بهم أنه لا يمكن العثور على ملف kaggle.json.
سيتم إلغاء ضغط مجموعات البيانات الكبيرة تلقائيًا إذا تم تنزيلها كملفات مضغوطة.
ستقوم واجهة CLI بتحليل الحجج وتستدعي الوظائف اللازمة لتجربة سلسة.

التخصيص:

استبدل kaggle_downloader.py باسم الملف الفعلي إذا كان مختلفًا.
اضبط مسار استيراد الفئة ( from kaggle_downloader import KaggleDownloader ) إذا قمت بتنظيم الكود الخاص بك بشكل مختلف.