يمتد DataFrame Pandas بطريقة جديدة للعمل مع القيم المفقودة
مقدمة
تمتد هذه الحزمة إلى Pandas DataFrame مع طرق جديدة للعمل مع القيم المفقودة. تعيش الطريقة الجديدة في فئة التمديد المفقودة ويطلق عليها مفقودة. تسمح هذه الطرق بالعمل مع القيم المفقودة بطريقة أكثر سهولة.
يوفر هذا الفئة عدة طرق للتعامل مع القيم المفقودة في إطار البيانات. إليك شرح موجز لكل طريقة:
- number_missing : إرجاع العدد الإجمالي للقيم المفقودة في DataFrame.
- number_missing_by_column : إرجاع عدد القيم المفقودة لكل عمود.
- number_complete : إرجاع العدد الإجمالي للقيم الكاملة (غير المفوض) في DataFrame.
- number_complete_by_column : إرجاع عدد القيم الكاملة لكل عمود.
- impute_mean إدخال قيمة في القيم المفقودة ل dataframe باستخدام متوسط كل عمود.
- Impute_median إدخال قيمة في القيم المفقودة من DataFrame باستخدام متوسط كل عمود.
- Impute_mode قم بإدخال قيمة في القيم المفقودة من DataFrame باستخدام وضع كل عمود.
- impute_knn (n_neighbors = 5) إدخال قيمة في القيم المفقودة ل dataframe باستخدام خوارزمية k-nearest nealbors.
- مفقود _value_heatmap يولد خريطة حرارة توضح توزيع القيم المفقودة في DataFrame.
- drop_missing_rows (عتبة = 0.5) يحذف الصفوف التي تحتوي على قيم مفقودة أعلى من النسبة المئوية المحددة.
- drop_missing_columns (عتبة = 0.5) يحذف الأعمدة التي تحتوي على قيم مفقودة أعلى من النسبة المئوية المحددة.
- Missing_variable_summary : يولد جدول ملخص يوضح العدد والنسبة المئوية للقيم المفقودة لكل متغير (عمود).
- Missing_case_summary : يولد جدول ملخص يوضح العدد والنسبة المئوية للقيم المفقودة لكل حالة (صف).
- Missing_variable_table : يقوم بإنشاء جدول يوضح توزيع القيم المفقودة عبر المتغيرات.
- Missing_case_table : يولد جدولًا يوضح توزيع القيم المفقودة عبر الحالات.
- Missing_variable_span : يحلل القيم المفقودة في متغير على مدى محدد ويعيد إطار بيانات يلخص النسبة المئوية للقيم المفقودة والكاملة.
- Missing_variable_run : يحدد تشغيل القيم المفقودة والكاملة في متغير محدد ويعيد جهاز بيانات يلخص أطوالها.
- sort_variables_by_missingness : قم بفرز أعمدة DataFrame استنادًا إلى عدد القيم المفقودة في كل عمود.
- Create_shadow_matrix : إنشاء مصفوفة الظل تشير إلى القيم المفقودة بسلسلة محددة.
- Bind_shadow_matrix : يربط DataFrame الأصلي مع مصفوفة الظل التي تشير إلى القيم المفقودة.
- Missing_scan_count : تُحدث حوادث القيم المحددة في DataFrame وإرجاع التهم لكل متغير.
- Missing_variable_plot : يرسم مخطط شريط أفقي يوضح عدد القيم المفقودة لكل متغير.
- Missing_case_plot : يرسم رسم بياني يوضح توزيع القيم المفقودة عبر الحالات.
- Missing_variable_span_plot : يرسم مخطط شريط مكدسة يوضح النسبة المئوية للقيم المفقودة والكاملة على مدى تكرار متغير محدد.
- Missing_upsetPlot : يولد مؤامرة مستاءة لتصور مجموعات القيم المفقودة عبر المتغيرات.
توفر هذه الطرق أدوات شاملة لتحليل وتصور القيم المفقودة في إطار البيانات. يمكن استخدامها لاكتساب نظرة ثاقبة على أنماط وتوزيع القيم المفقودة ، وكذلك لإبلاغ استراتيجيات تنظيف البيانات وضغطها.
تثبيت
لتثبيت الحزمة ، يمكنك استخدام PIP:
الاستخدام
لاستخدام الحزمة ، تحتاج إلى استيراد فئة MissingMethods من وحدة Pandas_Missing:
import missing_mga as missing
بعد ذلك ، يمكنك إنشاء نظام بيانات واستخدام الطريقة المفقودة للوصول إلى طرق معالجة القيمة المفقودة:
import pandas as pd
# Create a DataFrame
data = {
'A' : [ 1 , 2 , None , 4 , 5 ],
'B' : [ None , 2 , 3 , 4 , 5 ],
'C' : [ 1 , 2 , 3 , 4 , 5 ],
'D' : [ 1 , 2 , 3 , 4 , 5 ],
}
df = pd . DataFrame ( data )
# Use the missing method to access the missing value handling methods
df . missing . number_missing () سيؤدي ذلك إلى إرجاع العدد الإجمالي للقيم المفقودة في DataFrame.
المساهمة
إذا كان لديك أي اقتراحات أو تقارير الأخطاء أو طلبات الميزات ، فيرجى فتح مشكلة على مستودع GitHub. نرحب بالمساهمات من المجتمع ، ويتم تقدير طلبات السحب دائمًا.
رخصة
هذه الحزمة مرخصة بموجب ترخيص معهد ماساتشوستس للتكنولوجيا. انظر الترخيص
شكر وتقدير
استلهمت هذه الحزمة من الحزمة naniar في R ، والتي توفر وظائف مماثلة للعمل مع القيم المفقودة في إطارات البيانات. نود أن نشكر مؤلفي Naniar على عملهم وتوفير مورد قيّم لمجتمع علوم البيانات.
مراجع
- Naniar: هياكل البيانات ، والملخصات ، والتصور للبيانات المفقودة
- التعامل مع البيانات المفقودة في الباندا
- العمل مع البيانات المفقودة في الباندا
المقاييس
يمكنك العثور على مقاييس هذه الحزمة في الرابط التالي: المقاييس
اتصال
إذا كان لديك أي أسئلة أو تحتاج إلى مزيد من المساعدة ، فيرجى الاتصال بمحافظ الحزمة: [email protected]