ขยาย pandas dataframe ด้วยวิธีการใหม่ในการทำงานกับค่าที่ขาดหายไป
การแนะนำ
แพ็คเกจนี้ขยาย DataFrame Pandas ด้วยวิธีการใหม่ในการทำงานกับค่าที่ขาดหายไป วิธีการใหม่อาศัยอยู่ในชั้นเรียนส่วนขยายที่หายไปและเรียกว่าหายไป วิธีนี้ช่วยให้สามารถทำงานกับค่าที่ขาดหายไปในวิธีที่ใช้งานง่ายมากขึ้น
คลาสนี้มีหลายวิธีในการจัดการค่าที่หายไปใน DataFrame นี่คือคำอธิบายสั้น ๆ ของแต่ละวิธี:
- number_missing : ส่งคืนจำนวนทั้งหมดของค่าที่หายไปใน dataframe
- number_missing_by_column : ส่งคืนจำนวนของค่าที่หายไปสำหรับแต่ละคอลัมน์
- number_complete : ส่งคืนจำนวนทั้งหมดของค่าที่สมบูรณ์ (ไม่พลาด) ใน dataframe
- number_complete_by_column : ส่งคืนจำนวนของค่าที่สมบูรณ์สำหรับแต่ละคอลัมน์
- impute_mean ป้อนค่าในค่าที่หายไปของ dataframe โดยใช้ค่าเฉลี่ยของแต่ละคอลัมน์
- Impute_median อินพุตค่าในค่าที่หายไปของ dataframe โดยใช้ค่ามัธยฐานของแต่ละคอลัมน์
- impute_mode ป้อนค่าในค่าที่หายไปของ dataframe โดยใช้โหมดของแต่ละคอลัมน์
- impute_knn (n_neighbors = 5) ป้อนค่าในค่าที่หายไปของ dataframe โดยใช้อัลกอริทึมเพื่อนบ้าน K-nearest
- Missing_value_Heatmap สร้างความร้อนที่แสดงการกระจายของค่าที่หายไปใน dataframe
- drop_missing_rows (thresh = 0.5) ลบแถวที่มีค่าที่หายไปเหนือเปอร์เซ็นต์ที่ระบุ
- drop_missing_columns (thresh = 0.5) ลบคอลัมน์ที่มีค่าที่หายไปเหนือเปอร์เซ็นต์ที่ระบุ
- Missing_variable_summary : สร้างตารางสรุปแสดงการนับและเปอร์เซ็นต์ของค่าที่หายไปสำหรับแต่ละตัวแปร (คอลัมน์)
- Missing_case_summary : สร้างตารางสรุปที่แสดงการนับและเปอร์เซ็นต์ของค่าที่หายไปสำหรับแต่ละกรณี (แถว)
- Missing_variable_table : สร้างตารางที่แสดงการกระจายของค่าที่หายไปในตัวแปร
- Missing_case_Table : สร้างตารางที่แสดงการกระจายของค่าที่หายไปในกรณี
- Missing_variable_span : วิเคราะห์ค่าที่หายไปในตัวแปรผ่านช่วงที่ระบุและส่งคืน dataframe สรุปเปอร์เซ็นต์ของค่าที่หายไปและสมบูรณ์
- Missing_variable_run : ระบุการทำงานของค่าที่หายไปและสมบูรณ์ในตัวแปรที่ระบุและส่งคืน dataframe สรุปความยาวของพวกเขา
- sort_variables_by_missingness : เรียงลำดับคอลัมน์ DataFrame ตามจำนวนของค่าที่หายไปในแต่ละคอลัมน์
- create_shadow_matrix : สร้างเงาเมทริกซ์ที่ระบุค่าที่หายไปด้วยสตริงที่ระบุ
- bind_shadow_matrix : ผูก dataframe ดั้งเดิมด้วยเมทริกซ์เงาที่ระบุค่าที่หายไป
- Missing_scan_count : นับการเกิดขึ้นของค่าที่ระบุใน dataframe และส่งคืนจำนวนต่อตัวแปร
- Missing_variable_plot : แปลงแผนภูมิแถบแนวนอนแสดงจำนวนค่าที่หายไปสำหรับแต่ละตัวแปร
- Missing_case_plot : แปลงฮิสโตแกรมที่แสดงการกระจายของค่าที่หายไปในกรณี
- Missing_variable_span_plot : แปลงแผนภูมิแท่งซ้อนกันแสดงเปอร์เซ็นต์ของค่าที่หายไปและสมบูรณ์ผ่านช่วงการทำซ้ำสำหรับตัวแปรที่ระบุ
- Missing_upsetPlot : สร้างพล็อตที่ไม่พอใจเพื่อให้เห็นภาพการรวมกันของค่าที่หายไปในตัวแปร
วิธีการเหล่านี้ให้เครื่องมือที่ครอบคลุมสำหรับการวิเคราะห์และแสดงภาพค่าที่ขาดหายไปใน dataframe พวกเขาสามารถใช้เพื่อรับข้อมูลเชิงลึกเกี่ยวกับรูปแบบและการกระจายของค่าที่ขาดหายไปรวมทั้งเพื่อแจ้งกลยุทธ์การทำความสะอาดและใส่ข้อมูล
การติดตั้ง
ในการติดตั้งแพ็คเกจคุณสามารถใช้ PIP:
การใช้งาน
ในการใช้แพ็คเกจคุณต้องนำเข้าคลาส MissingMethods จากโมดูล PANDAS_MISSING:
import missing_mga as missing
จากนั้นคุณสามารถสร้าง dataframe และใช้วิธีการที่หายไปเพื่อเข้าถึงวิธีการจัดการค่าที่หายไป:
import pandas as pd
# Create a DataFrame
data = {
'A' : [ 1 , 2 , None , 4 , 5 ],
'B' : [ None , 2 , 3 , 4 , 5 ],
'C' : [ 1 , 2 , 3 , 4 , 5 ],
'D' : [ 1 , 2 , 3 , 4 , 5 ],
}
df = pd . DataFrame ( data )
# Use the missing method to access the missing value handling methods
df . missing . number_missing () สิ่งนี้จะส่งคืนจำนวนทั้งหมดของค่าที่หายไปใน dataframe
การบริจาค
หากคุณมีข้อเสนอแนะรายงานข้อผิดพลาดหรือคำขอคุณสมบัติโปรดเปิดปัญหาเกี่ยวกับที่เก็บ GitHub เรายินดีต้อนรับการมีส่วนร่วมจากชุมชนและการร้องขอการดึงจะได้รับการชื่นชมเสมอ
ใบอนุญาต
แพ็คเกจนี้ได้รับใบอนุญาตภายใต้ใบอนุญาต MIT ดูใบอนุญาต
กิตติกรรมประกาศ
แพ็คเกจนี้ได้รับแรงบันดาลใจจากแพ็คเกจ Naniar ใน R ซึ่งให้ฟังก์ชั่นที่คล้ายกันสำหรับการทำงานกับค่าที่ขาดหายไปในเฟรมข้อมูล เราขอขอบคุณผู้เขียน Naniar สำหรับการทำงานของพวกเขาและสำหรับการจัดหาทรัพยากรที่มีค่าสำหรับชุมชนวิทยาศาสตร์ข้อมูล
การอ้างอิง
- Naniar: โครงสร้างข้อมูลบทสรุปและภาพสำหรับข้อมูลที่ขาดหายไป
- การจัดการข้อมูลที่ขาดหายไปในแพนด้า
- ทำงานกับข้อมูลที่ขาดหายไปในแพนด้า
ตัวชี้วัด
คุณสามารถค้นหาตัวชี้วัดของแพ็คเกจนี้ได้ในลิงค์ต่อไปนี้: ตัวชี้วัด
ติดต่อ
หากคุณมีคำถามใด ๆ หรือต้องการความช่วยเหลือเพิ่มเติมโปรดติดต่อผู้ดูแลแพ็คเกจ: [email protected]