Estende o quadro de dados dos pandas com um novo método para trabalhar com valores ausentes
Introdução
Este pacote estende o quadro de dados do pandas com novos métodos para trabalhar com valores ausentes. O novo método vive na classe de extensão MissingMethods e é chamado de falta. Esses métodos permitem trabalhar com valores ausentes de maneira mais intuitiva.
Esta classe fornece vários métodos para lidar com valores ausentes em um quadro de dados. Aqui está uma breve explicação de cada método:
- número_missing : retorna o número total de valores ausentes no quadro de dados.
- número_missing_by_column : retorna o número de valores ausentes para cada coluna.
- Number_complete : Retorna o número total de valores completos (sem falta) no quadro de dados.
- número_complete_by_column : retorna o número de valores completos para cada coluna.
- IMPUTE_MEAN Entrada Um valor nos valores ausentes do quadro de dados usando a média de cada coluna.
- IMPUTE_MEDIAN Entrada Um valor nos valores ausentes do quadro de dados usando a mediana de cada coluna.
- IMPUTE_MODE Entre um valor nos valores ausentes do quadro de dados usando o modo de cada coluna.
- Impute_knn (n_neighbors = 5) Entre um valor nos valores ausentes do quadro de dados usando o algoritmo dos vizinhos K-Nearest K.
- Missing_value_heatmap gera um mapa de calor mostrando a distribuição dos valores ausentes no quadro de dados.
- Drop_missing_rows (Thresh = 0,5) exclui as linhas que contêm valores ausentes acima da porcentagem especificada.
- Drop_missing_columns (Thresh = 0,5) exclui as colunas que contêm valores ausentes acima da porcentagem especificada.
- Missing_variable_summary : gera uma tabela de resumo mostrando a contagem e a porcentagem dos valores ausentes para cada variável (coluna).
- Missing_case_summary : gera uma tabela de resumo mostrando a contagem e a porcentagem dos valores ausentes para cada caso (linha).
- Missing_variable_table : gera uma tabela mostrando a distribuição dos valores ausentes nas variáveis.
- Missing_case_table : gera uma tabela mostrando a distribuição dos valores ausentes nos casos.
- Missing_variable_span : analisa os valores ausentes em uma variável em um período especificado e retorna um quadro de dados resumindo a porcentagem de valores ausentes e completos.
- Missing_variable_run : Identifica execuções de valores ausentes e completos em uma variável especificada e retorna um DataFrame resumindo seus comprimentos.
- Sort_variables_by_missingness : Classifica as colunas DataFrame com base no número de valores ausentes em cada coluna.
- create_shadow_matrix : cria uma matriz de sombra indicando valores ausentes com uma string especificada.
- bind_shadow_matrix : liga o quadro de dados original com sua matriz de sombra indicando valores ausentes.
- Missing_scan_count : conta ocorrências de valores especificados no quadro de dados e retorna a contagem por variável.
- Missing_variable_plot : plota um gráfico de barras horizontais mostrando o número de valores ausentes para cada variável.
- Missing_Case_Plot : plota um histograma mostrando a distribuição dos valores ausentes nos casos.
- Missing_variable_span_plot : plota um gráfico de barras empilhadas mostrando a porcentagem de valores ausentes e completos em um período de repetição para uma variável especificada.
- Missing_upsetPlot : gera um gráfico distante para visualizar as combinações de valores ausentes nas variáveis.
Esses métodos fornecem ferramentas abrangentes para analisar e visualizar valores ausentes em um quadro de dados. Eles podem ser usados para obter informações sobre os padrões e a distribuição dos valores ausentes, bem como para informar estratégias de limpeza e imputação de dados.
Instalação
Para instalar o pacote, você pode usar o PIP:
Uso
Para usar o pacote, você precisa importar a classe MissingMethods do módulo Pandas_missing:
import missing_mga as missing
Em seguida, você pode criar um quadro de dados e usar o método ausente para acessar os métodos de manuseio de valor ausentes:
import pandas as pd
# Create a DataFrame
data = {
'A' : [ 1 , 2 , None , 4 , 5 ],
'B' : [ None , 2 , 3 , 4 , 5 ],
'C' : [ 1 , 2 , 3 , 4 , 5 ],
'D' : [ 1 , 2 , 3 , 4 , 5 ],
}
df = pd . DataFrame ( data )
# Use the missing method to access the missing value handling methods
df . missing . number_missing () Isso retornará o número total de valores ausentes no DataFrame.
Contribuindo
Se você tiver alguma sugestão, relatórios de bug ou solicitações de recursos, abra um problema no repositório do GitHub. Congratulamo -nos com contribuições da comunidade, e as solicitações de puxar são sempre apreciadas.
Licença
Este pacote está licenciado sob a licença do MIT. Veja a licença
Agradecimentos
Este pacote foi inspirado no pacote Naniar em R, que fornece funcionalidade semelhante para trabalhar com valores ausentes nos quadros de dados. Gostaríamos de agradecer aos autores da Naniar por seu trabalho e por fornecer um recurso valioso para a comunidade científica de dados.
Referências
- Naniar: estruturas de dados, resumos e visualizações para dados ausentes
- Manuseando dados ausentes em pandas
- Trabalhando com dados ausentes em pandas
Métricas
Você pode encontrar as métricas deste pacote no seguinte link: Métricas
Contato
Se você tiver alguma dúvida ou precisar de mais assistência, entre em contato com o mantenedor de pacotes: [email protected]