Memperluas DataFrame PANDAS dengan metode baru untuk bekerja dengan nilai yang hilang
Perkenalan
Paket ini memperluas DataFrame PANDAS dengan metode baru untuk bekerja dengan nilai yang hilang. Metode baru ini hidup di kelas ekstensi yang hilang. Metode ini memungkinkan untuk bekerja dengan nilai yang hilang dengan cara yang lebih intuitif.
Kelas ini menyediakan beberapa metode untuk menangani nilai -nilai yang hilang di DataFrame. Berikut penjelasan singkat dari setiap metode:
- number_missing : Mengembalikan jumlah total nilai yang hilang di DataFrame.
- number_missing_by_column : Mengembalikan jumlah nilai yang hilang untuk setiap kolom.
- Number_Complete : Mengembalikan jumlah total nilai lengkap (non-missing) di DataFrame.
- Number_Complete_by_column : Mengembalikan jumlah nilai lengkap untuk setiap kolom.
- Impute_mean memasukkan nilai dalam nilai yang hilang dari bangka data menggunakan rata -rata setiap kolom.
- Impute_median input nilai dalam nilai yang hilang dari dataframe menggunakan median setiap kolom.
- Impute_mode input nilai dalam nilai yang hilang dari DataFrame menggunakan mode setiap kolom.
- Impute_knn (n_neighbors = 5) Masukkan nilai dalam nilai yang hilang dari DataFrame menggunakan algoritma tetangga K-Nearest.
- Missing_value_heatmap menghasilkan heatmap yang menunjukkan distribusi nilai yang hilang di DataFrame.
- drop_missing_rows (thresh = 0,5) menghapus baris yang berisi nilai yang hilang di atas persentase yang ditentukan.
- drop_missing_columns (thresh = 0,5) menghapus kolom yang berisi nilai yang hilang di atas persentase yang ditentukan.
- Hilang_variable_summary : Menghasilkan tabel ringkasan yang menunjukkan jumlah dan persentase nilai yang hilang untuk setiap variabel (kolom).
- Hilang_Case_summary : Menghasilkan tabel ringkasan yang menunjukkan jumlah dan persentase nilai yang hilang untuk setiap kasus (baris).
- Hilang_variable_table : Menghasilkan tabel yang menunjukkan distribusi nilai yang hilang di seluruh variabel.
- Hilang_Case_table : Menghasilkan tabel yang menunjukkan distribusi nilai yang hilang di seluruh kasus.
- Hilang_variable_span : Menganalisis nilai -nilai yang hilang dalam variabel selama rentang yang ditentukan dan mengembalikan DataFrame yang merangkum persentase nilai yang hilang dan lengkap.
- Hilang_variable_run : Mengidentifikasi menjalankan nilai yang hilang dan lengkap dalam variabel yang ditentukan dan mengembalikan DataFrame yang merangkum panjangnya.
- sort_variables_by_missingness : mengurutkan kolom DataFrame berdasarkan jumlah nilai yang hilang di setiap kolom.
- create_shadow_matrix : Membuat matriks bayangan yang menunjukkan nilai yang hilang dengan string yang ditentukan.
- Bind_shadow_matrix : mengikat DataFrame asli dengan matriks bayangannya yang menunjukkan nilai yang hilang.
- Hilang_scan_count : menghitung kejadian nilai -nilai yang ditentukan dalam DataFrame dan mengembalikan jumlah per variabel.
- Hilang_variable_plot : Plot grafik batang horizontal yang menunjukkan jumlah nilai yang hilang untuk setiap variabel.
- Missing_Case_plot : Plot histogram yang menunjukkan distribusi nilai yang hilang di seluruh kasus.
- Hilang_variable_span_plot : Plot grafik batang bertumpuk yang menunjukkan persentase nilai yang hilang dan lengkap selama rentang berulang untuk variabel yang ditentukan.
- Hilang_UpsetPlot : Menghasilkan plot kesal untuk memvisualisasikan kombinasi nilai yang hilang di seluruh variabel.
Metode -metode ini menyediakan alat yang komprehensif untuk menganalisis dan memvisualisasikan nilai -nilai yang hilang di DataFrame. Mereka dapat digunakan untuk mendapatkan wawasan tentang pola dan distribusi nilai -nilai yang hilang, serta untuk menginformasikan strategi pembersihan data dan imputasi.
Instalasi
Untuk menginstal paket, Anda dapat menggunakan PIP:
Penggunaan
Untuk menggunakan paket ini, Anda perlu mengimpor kelas Methods yang hilang dari modul PANDAS_MISSING:
import missing_mga as missing
Kemudian, Anda dapat membuat DataFrame dan menggunakan metode yang hilang untuk mengakses metode penanganan nilai yang hilang:
import pandas as pd
# Create a DataFrame
data = {
'A' : [ 1 , 2 , None , 4 , 5 ],
'B' : [ None , 2 , 3 , 4 , 5 ],
'C' : [ 1 , 2 , 3 , 4 , 5 ],
'D' : [ 1 , 2 , 3 , 4 , 5 ],
}
df = pd . DataFrame ( data )
# Use the missing method to access the missing value handling methods
df . missing . number_missing () Ini akan mengembalikan jumlah total nilai yang hilang di DataFrame.
Berkontribusi
Jika Anda memiliki saran, laporan bug, atau permintaan fitur, silakan buka masalah di repositori GitHub. Kami menyambut kontribusi dari komunitas, dan permintaan menarik selalu dihargai.
Lisensi
Paket ini dilisensikan di bawah lisensi MIT. Lihat lisensi
Ucapan Terima Kasih
Paket ini terinspirasi oleh paket naniar di R, yang menyediakan fungsionalitas serupa untuk bekerja dengan nilai yang hilang dalam bingkai data. Kami ingin mengucapkan terima kasih kepada penulis Naniar atas pekerjaan mereka dan untuk menyediakan sumber daya yang berharga untuk komunitas sains data.
Referensi
- Naniar: Struktur Data, Ringkasan, dan Visualisasi untuk Data Hilang
- Menangani data yang hilang dalam panda
- Bekerja dengan data yang hilang dalam panda
Metrik
Anda dapat menemukan metrik paket ini di tautan berikut: Metrik
Kontak
Jika Anda memiliki pertanyaan atau memerlukan bantuan lebih lanjut, silakan hubungi Paket Paket: [email protected]