Extiende Pandas DataFrame con un nuevo método para trabajar con valores faltantes
Introducción
Este paquete extiende el Pandas DataFrame con un nuevo métodos para trabajar con valores faltantes. El nuevo método vive en la clase de extensión que faltan modos y se llama desaparición. Estos métodos permiten funcionar con valores faltantes de una manera más intuitiva.
Esta clase proporciona varios métodos para manejar los valores faltantes en un marco de datos. Aquí hay una breve explicación de cada método:
- Number_missing : Devuelve el número total de valores faltantes en DataFrame.
- Number_missing_by_column : devuelve el número de valores faltantes para cada columna.
- Number_complete : Devuelve el número total de valores completos (sin falta) en DataFrame.
- Number_complete_by_column : devuelve el número de valores completos para cada columna.
- Impute_mean Ingrese un valor en los valores faltantes del marco de datos utilizando la media de cada columna.
- Entrada imputada_media Un valor en los valores faltantes del marco de datos utilizando la mediana de cada columna.
- Impute_mode Ingrese un valor en los valores faltantes del marco de datos utilizando el modo de cada columna.
- Impute_knn (n_neighbors = 5) Ingrese un valor en los valores faltantes del marco de datos utilizando el algoritmo de vecinos K-Nearsest.
- fallas_value_heatmap genera un mapa de calor que muestra la distribución de los valores faltantes en el marco de datos.
- Drop_missing_rows (Thresh = 0.5) elimina las filas que contienen valores faltantes por encima del porcentaje especificado.
- drop_missing_columns (Thresh = 0.5) elimina las columnas que contienen valores faltantes por encima del porcentaje especificado.
- fallan_variable_summary : genera una tabla resumida que muestra el recuento y el porcentaje de valores faltantes para cada variable (columna).
- falt_case_mummary : genera una tabla resumida que muestra el recuento y el porcentaje de valores faltantes para cada caso (fila).
- fallan_variable_table : genera una tabla que muestra la distribución de los valores faltantes en las variables.
- falt_case_table : genera una tabla que muestra la distribución de los valores faltantes en los casos.
- fallan_variable_span : analiza los valores faltantes en una variable en un tramo especificado y devuelve un marcado de datos que resume el porcentaje de valores faltantes y completos.
- fallan_variable_run : identifica ejecuciones de valores faltantes y completos en una variable especificada y devuelve un marco de datos que resume sus longitudes.
- sort_variables_by_missingness : Ordena las columnas de DataFrame en función del número de valores faltantes en cada columna.
- create_shadow_matrix : crea una matriz de sombra que indica valores faltantes con una cadena especificada.
- bind_shadow_matrix : ata el marco de datos original con su matriz de sombra que indica valores faltantes.
- falt_scan_count : cuenta ocurrencias de valores especificados en el marco de datos y devuelve los recuentos por variable.
- fallan_variable_plot : traza un gráfico de barras horizontal que muestra el número de valores faltantes para cada variable.
- falt_case_plot : traza un histograma que muestra la distribución de los valores faltantes en los casos.
- fallan_variable_span_plot : traza una tabla de barras apilada que muestra el porcentaje de valores faltantes y completos en un tramo de repetición para una variable especificada.
- fallan_upsetplot : genera un gráfico molesto para visualizar las combinaciones de valores faltantes en las variables.
Estos métodos proporcionan herramientas integrales para analizar y visualizar los valores faltantes en un marco de datos. Se pueden utilizar para obtener información sobre los patrones y la distribución de los valores faltantes, así como para informar estrategias de limpieza de datos e imputación.
Instalación
Para instalar el paquete, puede usar PIP:
Uso
Para usar el paquete, debe importar la clase de Methods Missing desde el módulo PANDAS_MISSING:
import missing_mga as missing
Luego, puede crear un marco de datos y usar el método que falta para acceder a los métodos de manejo de valor faltante:
import pandas as pd
# Create a DataFrame
data = {
'A' : [ 1 , 2 , None , 4 , 5 ],
'B' : [ None , 2 , 3 , 4 , 5 ],
'C' : [ 1 , 2 , 3 , 4 , 5 ],
'D' : [ 1 , 2 , 3 , 4 , 5 ],
}
df = pd . DataFrame ( data )
# Use the missing method to access the missing value handling methods
df . missing . number_missing () Esto devolverá el número total de valores faltantes en DataFrame.
Que contribuye
Si tiene alguna sugerencia, informes de errores o solicitudes de funciones, abra un problema en el repositorio de GitHub. Agradecemos las contribuciones de la comunidad, y siempre se aprecian las solicitudes de extracción.
Licencia
Este paquete tiene licencia bajo la licencia MIT. Ver la licencia
Expresiones de gratitud
Este paquete se inspiró en el paquete Naniar en R, que proporciona una funcionalidad similar para trabajar con valores faltantes en los marcos de datos. Nos gustaría agradecer a los autores de Naniar por su trabajo y por proporcionar un recurso valioso para la comunidad de ciencias de datos.
Referencias
- naniar: estructuras de datos, resúmenes y visualizaciones para los datos faltantes
- Manejo de datos faltantes en pandas
- Trabajar con datos faltantes en pandas
Métrica
Puede encontrar las métricas de este paquete en el siguiente enlace: Métricas
Contacto
Si tiene alguna pregunta o necesita más ayuda, comuníquese con el mantenedor de paquetes: [email protected]