사장과 함께 작동하는 새로운 방법으로 Pandas Dataframe을 확장합니다.
소개
이 패키지는 Pandas Dataframe을 사송으로 작업 할 수있는 새로운 방법으로 확장합니다. 새로운 메소드는 확장 클래스 MissingMethods에 거주하며 누락이라고합니다. 이 방법을 사용하면 더 직관적 인 방식으로 결 측값으로 작업 할 수 있습니다.
이 클래스는 데이터 프레임에서 결 측값을 처리하는 몇 가지 방법을 제공합니다. 다음은 각 방법에 대한 간단한 설명입니다.
- 번호_missing : 데이터 프레임에서 총 결 측값 수를 반환합니다.
- 번호_MISSING_BY_COLUMN : 각 열의 결 측값 수를 반환합니다.
- Number_Complete : 데이터 프레임에서 전체 (비 이동) 값의 총 수를 반환합니다.
- 숫자 _complete_by_column : 각 열의 전체 값 수를 반환합니다.
- impute_mean 각 열의 평균을 사용하여 데이터 프레임의 결 측값에서 값을 입력하십시오.
- impute_median 입력 각 열의 중앙값을 사용하여 데이터 프레임의 결 측값에서 값을 입력하십시오.
- impute_mode 각 열의 모드를 사용하여 데이터 프레임의 결 측값에서 값을 입력하십시오.
- impute_knn (n_neighbors = 5) k-nearest neighbors 알고리즘을 사용하여 데이터 프레임의 결 측값에 값을 입력하십시오.
- missing_value_heatmap dataframe에서 결 측값 분포를 보여주는 히트 맵을 생성합니다.
- drop_missing_rows (thresh = 0.5)는 지정된 백분율 이상의 결 측값을 포함하는 행을 삭제합니다.
- drop_missing_columns (thresh = 0.5) 지정된 백분율 이상의 결 측값을 포함하는 열을 삭제합니다.
- missing_variable_summary : 각 변수 (열)에 대한 결 측값의 수와 백분율을 보여주는 요약 테이블을 생성합니다.
- missing_case_summary : 각 경우 (행)의 결 측값의 수와 백분율을 보여주는 요약 테이블을 생성합니다.
- missing_variable_table : 변수에 걸쳐 결 측값의 분포를 보여주는 테이블을 생성합니다.
- Missing_case_table : 사례에 대한 결 측값 분포를 보여주는 테이블을 생성합니다.
- missing_variable_span : 지정된 스팬에 대한 변수의 결 측값을 분석하고 누락 된 값의 백분율을 요약 한 데이터 프레임을 반환합니다.
- missing_variable_run : 지정된 변수에서 누락 된 값의 실행 및 완전한 값을 식별하고 길이를 요약하는 데이터 프레임을 반환합니다.
- Sort_variables_by_missingness : 각 열의 결 측값 수에 따라 DataFrame 열을 정렬합니다.
- create_shadow_matrix : 지정된 문자열로 결 측값을 나타내는 그림자 행렬을 만듭니다.
- bind_shadow_matrix : 원래 데이터 프레임을 섀도우 매트릭스와 결 측값을 나타내는 바인딩합니다.
- Missing_Scan_Count : 데이터 프레임에서 지정된 값의 발생 및 변수 당 계수를 반환합니다.
- missing_variable_plot : 각 변수의 결 측값 수를 보여주는 수평 막대 차트를 표시합니다.
- Missing_case_plot : 케이스에서 결 측값의 분포를 보여주는 히스토그램을 표시합니다.
- missing_variable_span_plot : 지정된 변수에 대한 반복 범위에 대한 누락 및 완전한 값의 백분율을 보여주는 스택 막대 차트를 플롯합니다.
- Missing_upsetPlot : 변수에 걸친 결 측값의 조합을 시각화하기 위해 화난 플롯을 생성합니다.
이 방법은 데이터 프레임에서 결 측값을 분석하고 시각화하기위한 포괄적 인 도구를 제공합니다. 사송의 패턴과 분포에 대한 통찰력을 얻는 데 사용될 수 있으며 데이터 청소 및 대치 전략을 알리는 데 사용할 수 있습니다.
설치
패키지를 설치하려면 PIP를 사용할 수 있습니다.
용법
패키지를 사용하려면 pandas_missing 모듈에서 MissingMethods 클래스를 가져와야합니다.
import missing_mga as missing
그런 다음 데이터 프레임을 생성하고 누락 된 메소드를 사용하여 결 측값 처리 방법에 액세스 할 수 있습니다.
import pandas as pd
# Create a DataFrame
data = {
'A' : [ 1 , 2 , None , 4 , 5 ],
'B' : [ None , 2 , 3 , 4 , 5 ],
'C' : [ 1 , 2 , 3 , 4 , 5 ],
'D' : [ 1 , 2 , 3 , 4 , 5 ],
}
df = pd . DataFrame ( data )
# Use the missing method to access the missing value handling methods
df . missing . number_missing () 이것은 데이터 프레임의 총 결 측값 수를 반환합니다.
기여
제안, 버그 보고서 또는 기능 요청이 있으면 Github 저장소에 문제를여십시오. 우리는 커뮤니티의 기여를 환영하며 풀 요청은 항상 감사합니다.
특허
이 패키지는 MIT 라이센스에 따라 라이센스가 부여됩니다. 라이센스를 참조하십시오
감사의 말
이 패키지는 R의 Naniar 패키지에서 영감을 얻었으며 데이터 프레임에서 결 측값 작업을위한 유사한 기능을 제공합니다. 우리는 Naniar의 저자들에게 그들의 작업과 데이터 과학 커뮤니티에 귀중한 자원을 제공해 주셔서 감사합니다.
참조
- Naniar : 누락 된 데이터에 대한 데이터 구조, 요약 및 시각화
- 팬더에서 누락 된 데이터 처리
- 팬더에서 누락 된 데이터로 작업합니다
메트릭
다음 링크 에서이 패키지의 메트릭을 찾을 수 있습니다.
연락하다
궁금한 점이 있거나 추가 지원이 필요한 경우 패키지 관리자에게 문의하십시오 : [email protected].