يتم إنشاء اختراقات علوم البيانات والاحتفاظ بها بواسطة Analytics Vidhya لمجتمع علوم البيانات.
ويشمل مجموعة متنوعة من النصائح والحيل والخارقة المتعلقة بعلم البيانات والتعلم الآلي
هذه الاختراقات هي لجميع علماء البيانات هناك. لا يهم إذا كنت مبتدئًا أو محترفًا متقدمًا ، فإن هذه الاختراقات ستجعلك بالتأكيد فعالة!
لا تتردد في المساهمة باختراقات علوم البيانات الخاصة بك هنا. تأكد من أن الاختراق الخاص بك يتبع إرشادات المساهمة
هذا المستودع هو جزء من الدورة الحرة من قبل التحليلات vidhya. لمعرفة المزيد من هؤلاء الاختراقات الرائعة ، تفضل بزيارة اختراقات علوم البيانات والنصائح والحيل
كيف يمكنك استخراج بيانات الصورة مباشرة من Chrome بنقرة واحدة؟ تخيل أنك ترغب في جعل مشروع التعلم الآلي الخاص بك ولكن ليس لديك بيانات كافية ، فإنه يصبح مهمة شاقة لا يمكنك استخدام ملحق ResourcesAver لتنزيل البيانات مباشرة! دعونا نرى كيف!
خطوات:
تعتبر Pandas Apply واحدة من الوظائف الأكثر استخدامًا للعب مع البيانات وإنشاء متغيرات جديدة. يعيد بعض القيمة بعد تمرير كل صف/عمود من إطار البيانات مع بعض الوظائف. يمكن أن تكون الوظيفة افتراضية أو محددة المستخدم.
يساعد على تحديد مجموعة فرعية من البيانات بناءً على قيمة البيانات في DataFrame
يتم استخدامه لإنشاء جدول بيانات نمط MS Excel. سيتم تخزين المستويات في الجدول المحوري في كائنات متعددة (الفهارس الهرمية) على الفهرس والأعمدة من DataFrame النتيجة.
يتم استخدام وظيفة pd.crosstab () للحصول على "إحساس" أولي (عرض) للبيانات.
يتم استخدامه لتطبيق وظائف السلسلة المتقدمة على عمود DataFrame Pandas. لنفترض أنك تريد تقسيم الأسماء في عمود DataFrame إلى الاسم الأول والاسم الأخير. يمكن استخدام pandas.series.str جنبا إلى جنب مع split () لأداء هذه المهمة.
فيما يلي اختراق مثير للاهتمام لاستخراج معرفات البريد الإلكتروني الموجودة في نص طويل من النص من خلال استخدام سطرين من التعليمات البرمجية في بيثون باستخدام تعبيرات منتظمة. أصبح استخراج المعلومات من منشورات وسائل التواصل الاجتماعي ومواقع الويب ممارسة شائعة في تحليلات البيانات ، لكن في بعض الأحيان ينتهي بنا المطاف بمحاولة أساليب معقدة لتحقيق الأشياء التي يمكن حلها بسهولة باستخدام التقنية الصحيحة.
أحد أهم الافتراضات في الانحدار الخطي واللوجستي هو أن بياناتنا يجب أن تتبع التوزيع الطبيعي ، لكننا نعلم جميعًا أن هذا ليس هو الحال في الحياة الحقيقية. غالبًا ما نحتاج إلى تحويل بياناتنا إلى توزيع طبيعي/ غاوسي.
المعالجة المسبقة هي واحدة من الخطوات الرئيسية لتحسين أداء النموذج. أحد الأسباب الرئيسية للمعالجة المسبقة النصية هو إزالة الأحرف غير المرغوب فيها من نص مثل علامات الترقيم والروابط والروابط وما إلى ذلك غير مطلوبة لبيان مشكلتنا.
يتم استخدام طريقة الكوع لتحديد قيمة k في جيران K-Nearest. إنها مؤامرة من الأخطاء في قيم مختلفة من k ونختار قيمة K لها خطأ أقل!
جزء مهم من تحليل البيانات هو المعالجة المسبقة. في كثير من الأحيان نحتاج إلى توسيع نطاق ميزاتنا كما هو الحال في حالة K-NN ، نحتاج دائمًا إلى توسيع نطاق البيانات قبل إنشاء نموذج وإلا فإنها ستعطي نتائج زائفة.
معظم البيانات التي تم جمعها اليوم ، عقد المتغيرات التاريخ والوقت. هناك الكثير من المعلومات التي يمكنك استخراجها من هذه الميزات ويمكنك استخدامها في تحليلك!
عادة ما تتطلب نماذج Deeplearning الكثير من #Data للتدريب. لكن الحصول على كميات هائلة من البيانات يأتي مع تحدياتها الخاصة. بدلاً من قضاء أيام في جمع البيانات يدويًا ، يمكنك الاستفادة من تقنيات تكبير الصور. إنها عملية إنشاء صور جديدة. يتم إنشاء هذه الصور الجديدة باستخدام صور التدريب الحالية ، وبالتالي لا يتعين علينا جمعها يدويًا.
الرمز المميز هو المهمة الأساسية أثناء بناء المفردات. أنشأت Huggingface مؤخرًا مكتبة للرمز المميز الذي يوفر تنفيذًا لمجموعات اليوم المستخدمة اليوم ، مع التركيز على الأداء والتنوع. الميزات الرئيسية: فائقة السرعة: يمكنها تشفير 1 جيجابايت من النص في ~ 20sec على وحدة المعالجة المركزية لخادم قياسي
يمكنك استخراج الميزات الفئوية والرقمية في إطارات البيانات المنفصلة في سطر واحد فقط من التعليمات البرمجية! يمكن القيام بذلك باستخدام دالة Select_dtypes.
هل تريد إجراء تحليل سريع للبيانات على نظام البيانات الخاص بك؟ يمكنك استخدام Pandas Perfiling لإنشاء تقرير ملف تعريف لمجموعة البيانات الخاصة بك في سطر واحد فقط من التعليمات البرمجية!
قم بتحويل Fore Form DataFrame إلى Form Form DataFrame في سطر واحد فقط من التعليمات البرمجية! في pd.melt () ، يتم استخدام أعمدة أخرى كمعرفات. "قم بإلغاء اتباع البيانات" ، استخدم وظيفة PIVOT ()
هل تعرف كيف يمكنك الحصول على تاريخ جميع الأوامر التي تعمل داخل دفتر Jupyter الخاص بك؟ استخدم ٪ History ، وظيفة السحر المدمجة في Jupyter Notebook! ملاحظة - حتى لو كنت قد قطعت الخلايا في دفتر ملاحظاتك ، فإن تاريخ ٪ سيطبع تلك الأوامر أيضًا!
قم بإنشاء خريطة حرارة على Pandas DataFrame باستخدام Seaborn! يساعدك على فهم النطاق الكامل للقيم في لمحة.
أصدرت Scikit-Learn إصدارها 0.22.1 مستقر مع ميزات جديدة وإصلاحات الأخطاء. وظيفة واحدة جديدة هي وظيفة plot_confusion_matrix التي تولد مصفوفة ارتباك بديهية للغاية وقابلة للتخصيص للمصنف الخاص بك. نصيحة المكافأة: يمكنك تحديد تنسيق الأرقام التي تظهر في المربعات باستخدام معلمة Design_Format ("N" للأرقام الكاملة ".2F" للعائمة ، إلخ)
ماذا سيكون الإخراج إذا قمت بتشغيل الأوامر التالية في خلية واحدة من دفتر Jupyter الخاص بك؟ df.shape df.head () Ofcourse سيكون أول خمسة صفوف من بيانات البيانات الخاصة بك. هل يمكننا الحصول على إخراج كل من الأمر تشغيل في نفس الخلية؟ يمكنك القيام بذلك باستخدام Interactiveshell.
لقد سمع معظمكم عن مكتبة TQDM وقد تستخدمها تتبع تقدمًا في تشغيل الحلقات إلى الأبد. في معظم الأوقات ، نكتب وظائف معقدة مع متداخلة للحلقات. #TQDM يسمح بتتبع ذلك أيضًا. إليك كيف يمكنك تتبع الحلقات المتداخلة باستخدام TDQM في Python.
عادة ما تتطلب نماذج التعميق الكثير من البيانات للتدريب. لكن الحصول على كميات هائلة من البيانات يأتي مع تحدياتها الخاصة. بدلاً من قضاء أيام في جمع البيانات يدويًا ، يمكنك الاستفادة من تقنيات تكبير الصور. إنها عملية إنشاء صور جديدة. يتم إنشاء هذه الصور الجديدة باستخدام صور التدريب الحالية ، وبالتالي لا يتعين علينا جمعها يدويًا.
يوفر Jupyter-themes طريقة سهلة لتغيير الموضوع والخطوط وأكثر من ذلك بكثير في دفتر Jupyter الخاص بك.
الخطوات -
conda install -c conda-forge jupyterthemes
pip install jupyterthemes
jt - l
jt -t chesterish
jt -r
للقيام بذلك ، نستخدم jupyter-themes ، فهو يوفر طريقة سهلة لتغيير السمة والخطوط وأكثر من ذلك بكثير في دفتر Jupyter الخاص بك.
الخطوات -
تثبيت Jupyter -themes -
conda install -c conda-forge jupyterthemes
conda install -c pip install jupyterthemes
تغيير السمة ، عرض الخلية ، ارتفاع الخلية
jt -t chesterish -cellw 100% lineh 170
ماذا تفعل عندما تحتاج إلى تغيير نوع البيانات للعمود إلى DateTime؟ يمكننا القيام بذلك مباشرة في وقت قراءة البيانات باستخدام وسيطة parse_dates.
يمكنك مشاركة دفتر Jupyter الخاص بك مع غير المبرمجين بسهولة شديدة وأفضل طريقة للقيام بذلك هي استخدام Jupyter NBViewer. نصيحة للمحترفين - يمكنك استخدام Binder لتنفيذ الرمز من NBViewer على جهازك!
هل تعرف كيفية رسم شجرة قرار في سطر واحد فقط من الكود؟ يوفر Sklearn دالة بسيطة plot_tree () للقيام بهذه المهمة. يمكنك تعديل المقاييس المفرطة حسب متطلباتك.
هل تعرف كيف يمكنك عكس قاموس في بيثون؟ القاموس عبارة عن مجموعة غير مطلوبة وقابلة للتغيير وفهرسة. يستخدم على نطاق واسع في البرمجة اليومية ، ومهام التعلم الآلي.
تربط أزرار أكمام أزرار أكمام مؤلفة مباشرة إلى Pandas DataFrames! لذلك يمكنك عمل مخططات تفاعلية دون أي متاعب أو رموز طويلة.
هذا الاختراق يدور حول حفظ محتويات الخلية إلى ملف .py باستخدام Magic Command ٪٪ الكتابة ثم تشغيل الملف في دفتر Jupyter آخر باستخدام Magic Command Run
هل تشعر بالارتباك أثناء طباعة بعض هياكل البيانات؟ لا تقلق ، إنه أمر شائع جدًا. توفر الوحدة النمطية المطبوعة الجميلة طريقة سهلة لطباعة هياكل البيانات بطريقة ممتعة بصريًا!
يتيح لك هذا الرمز تحويل تاريخ أي تنسيق إلى تنسيق محدد. في كثير من الأحيان ، نتلقى تواريخ مختلفة من التنسيقات في بياناتنا. سيساعدك هذا الاختراق على تحويل كل هذه التنسيقات إلى تنسيق محدد.
تتمثل إحدى الطرق اللازمة في اختيار الميزات في استخدام سمة Deftern_importance_ لمقدري الأساس. باستخدام وظيفة SelectFrommedel ، يمكنك تحديد المقدر والعتبة الخاصة بـ Deftern_importance_ ، يستخدم هذا الاختراق "يعني" كحدث. يمكنك تعديل العتبة للحصول على نتائج مثالية. لمعرفة المزيد ، قم بزيارة الوثائق
ما الذي يمكن أن يكون أسهل طريقة لتحويل سلسلة إلى أحرف؟ فيما يلي اختراق بسيط يأتي في متناول يديك أثناء العمل مع البيانات النصية
أثناء إنشاء نموذج تصنيف الصور باستخدام التعلم العميق ، يجب أن تكون جميع الصور ذات حجم نفس الحجم. ومع ذلك ، نظرًا لأن البيانات تأتي من مصادر مختلفة ، فقد تحتوي الصور على أشكال مختلفة. لذلك ، لتحويلهم إلى نفس الشكل ، يمكننا استخدام وظيفة تغيير الحجم من السيرة الذاتية المفتوحة. سيساعدك هذا الاختراق على تحويل صور أي شكل إلى شكل محدد.
هل يستغرق الأمر بعض الوقت لأداء العمليات على DataFrame Pandas؟ Pandaralled هي أداة بسيطة وفعالة لتوازن عمليات Pandas على جميع وحدات المعالجة المركزية المتاحة!
يعطي المولد عنصرًا واحدًا في وقت واحد ولا ينشئه إلا عند الطلب. المولدات أكثر كفاءة الذاكرة. يقارن هذا الاختراق تعبيرات المولدات مع اختصارات القائمة.
هل تتجنب regex لأنه من الصعب القراءة والكتابة وكذلك صعبة للحصول على صواب؟ يساعدك هذا الاختراق على تصحيح regex الخاص بك. Regex101 هو اختبار Regex عبر الإنترنت ، مصحح مع تسليط الضوء على PHP و PCRE و Python و Golang و JavaScript
في بعض الأحيان يمكن أن تكون البيانات في شكل قائمة متداخلة. على سبيل المثال ، يمكن أن تكون البيانات سجلات معاملات مناسبة لمنتج معين. ومع ذلك ، قد تحتاج فقط في بعد واحد. سيساعدك هذا الاختراق على تسطيح قائمة القوائم في قائمة واحدة.
غالبًا ما نستخدم عبارات الطباعة لأغراض تصحيح الأخطاء. سيساعدك هذا الاختراق على إيقاف تشغيل بيانات الطباعة في قسم معين من الكود بحيث يجعل تصحيح الأخطاء أسهل.
سيساعدك هذا الاختراق على تقسيم مستند PDF واحد إلى صفحات متعددة.
سيساعدك هذا الاختراق على الجمع بين مستندات PDF متعددة في وثيقة واحدة. هذا الاختراق هو عكس Hack #42 Plce PDF صفحة الحكم
في بعض الأحيان ، قد تحتاج إلى وظيفة لا توفرها مباشرة من قبل Imagedatagenerator Keras. يمكنك بسهولة إنشاء غلاف حوله لتناسب احتياجاتك.

(أي شبكة عصبية تأخذ مدخلات من مصادر بيانات متعددة ، وتقوم بتدريب مشترك على هذه البيانات) ، وتريد أن يكون مولد البيانات قادرًا على التعامل مع إعداد البيانات أثناء الطيران ، يمكنك إنشاء غلاف حول فئة Imagedatagenerator لإعطاء الإخراج المطلوب.