Распространяет DataFrame Pandas с новым методом для работы с пропущенными значениями
Введение
Этот пакет расширяет DataFrame Pandas с помощью новых методов работы с отсутствующими значениями. Новый метод живет в пропущенном классе расширения и называется отсутствующим. Эти методы позволяют работать с отсутствующими значениями более интуитивно понятными.
Этот класс предоставляет несколько методов обработки пропущенных значений в данных данных. Вот краткое объяснение каждого метода:
- number_missing : возвращает общее количество пропущенных значений в DataFrame.
- number_missing_by_column : возвращает количество пропущенных значений для каждого столбца.
- number_complete : возвращает общее количество полных (не пропущенных) значений в DataFrame.
- number_complete_by_column : возвращает количество полных значений для каждого столбца.
- IMPUTE_MEAN Введите значение в пропущенных значениях DataFrame, используя среднее значение каждого столбца.
- IMPUTE_MEDIAN Введите значение в пропущенных значениях DataFrame, используя медиана каждого столбца.
- IMPUTE_MODE Введите значение в пропущенных значениях DataFrame, используя режим каждого столбца.
- IMPUTE_KNN (n_neighbors = 5) Введите значение в пропущенные значения DataFrame с использованием алгоритма K-ближайших соседей.
- Missing_value_HeatMap генерирует тепловую карту, показывающую распределение пропущенных значений в DataFrame.
- drop_missing_rows (thresh = 0,5) удаляет строки, которые содержат отсутствующие значения выше указанного процента.
- DROP_MISSING_COLUMNS (THRESH = 0,5) Удаляет столбцы, которые содержат отсутствующие значения выше указанного процента.
- Missing_variable_summary : генерирует сводную таблицу, показывающая количество и процент пропущенных значений для каждой переменной (столбца).
- Missing_case_summary : генерирует сводную таблицу, показывающая количество и процент пропущенных значений для каждого случая (строка).
- Missing_variable_table : генерирует таблицу, показывающую распределение пропущенных значений по переменным.
- Missing_case_table : генерирует таблицу, показывающую распределение пропущенных значений по случаям.
- Missing_variable_span : анализирует пропущенные значения в переменной в течение указанного пролета и возвращает DataFrame, обобщающий процент пропущенных и полных значений.
- Missing_variable_run : идентифицирует прогоны пропущенных и полных значений в указанной переменной и возвращает DataFrame, суммирующий их длины.
- sort_variables_by_missingness : сортирует столбцы DataFrame на основе количества пропущенных значений в каждом столбце.
- create_shadow_matrix : создает теневую матрицу, указывающую пропущенные значения с указанной строкой.
- bind_shadow_matrix : привязывает исходный фрейм данных с его теневой матрицей, указывающей пропущенные значения.
- hisplose_scan_count : подсчитывает возникновение указанных значений в данных DataFrame и возвращает счетчик по переменной.
- hisplose_variable_plot : расположены горизонтальная стержня, показывающая количество пропущенных значений для каждой переменной.
- Missing_case_plot : запланирует гистограмму, показывающую распределение пропущенных значений по случаям.
- Missing_variable_span_plot : Заклинает сложенную гистограмму, показывающую процент отсутствующих и полных значений по повторному промежутке для указанной переменной.
- Missing_upsetPlot : генерирует расстроенный график для визуализации комбинаций пропущенных значений по переменным.
Эти методы предоставляют комплексные инструменты для анализа и визуализации пропущенных значений в данных данных. Они могут быть использованы для получения понимания моделей и распределения пропущенных значений, а также для информирования стратегий очистки и вменения данных.
Установка
Чтобы установить пакет, вы можете использовать PIP:
Использование
Чтобы использовать пакет, вам необходимо импортировать класс MissingMethods из модуля PANDAS_MISSING:
import missing_mga as missing
Затем вы можете создать DataFrame и использовать отсутствующий метод для доступа к методам обработки недостающих значений:
import pandas as pd
# Create a DataFrame
data = {
'A' : [ 1 , 2 , None , 4 , 5 ],
'B' : [ None , 2 , 3 , 4 , 5 ],
'C' : [ 1 , 2 , 3 , 4 , 5 ],
'D' : [ 1 , 2 , 3 , 4 , 5 ],
}
df = pd . DataFrame ( data )
# Use the missing method to access the missing value handling methods
df . missing . number_missing () Это вернет общее количество пропущенных значений в DataFrame.
Внося
Если у вас есть какие -либо предложения, отчеты об ошибках или запросы на функции, откройте проблему в репозитории GitHub. Мы приветствуем взносы сообщества, и запросы на привлечение всегда ценится.
Лицензия
Этот пакет лицензирован по лицензии MIT. Смотрите лицензию
Благодарности
Этот пакет был вдохновлен пакетом NANIAR в R, который предоставляет аналогичные функции для работы с отсутствующими значениями в кадрах данных. Мы хотели бы поблагодарить авторов Naniar за их работу и за предоставление ценного ресурса для сообщества Data Science.
Ссылки
- NANIAR: структуры данных, резюме и визуализации для пропущенных данных
- Обработка недостающих данных в пандах
- Работа с отсутствующими данными в пандах
Метрики
Вы можете найти метрики этого пакета в следующей ссылке: метрики
Контакт
Если у вас есть какие -либо вопросы или вам нужна дополнительная помощь, пожалуйста, свяжитесь с пакетом: [email protected]