Загрузка missing_mga - Загрузка исходного кода missing

missing_mga

AI Исходный код

v1.1.3

Скачать

Распространяет DataFrame Pandas с новым методом для работы с пропущенными значениями

Введение

Этот пакет расширяет DataFrame Pandas с помощью новых методов работы с отсутствующими значениями. Новый метод живет в пропущенном классе расширения и называется отсутствующим. Эти методы позволяют работать с отсутствующими значениями более интуитивно понятными.

Этот класс предоставляет несколько методов обработки пропущенных значений в данных данных. Вот краткое объяснение каждого метода:

number_missing : возвращает общее количество пропущенных значений в DataFrame.
number_missing_by_column : возвращает количество пропущенных значений для каждого столбца.
number_complete : возвращает общее количество полных (не пропущенных) значений в DataFrame.
number_complete_by_column : возвращает количество полных значений для каждого столбца.
IMPUTE_MEAN Введите значение в пропущенных значениях DataFrame, используя среднее значение каждого столбца.
IMPUTE_MEDIAN Введите значение в пропущенных значениях DataFrame, используя медиана каждого столбца.
IMPUTE_MODE Введите значение в пропущенных значениях DataFrame, используя режим каждого столбца.
IMPUTE_KNN (n_neighbors = 5) Введите значение в пропущенные значения DataFrame с использованием алгоритма K-ближайших соседей.
Missing_value_HeatMap генерирует тепловую карту, показывающую распределение пропущенных значений в DataFrame.
drop_missing_rows (thresh = 0,5) удаляет строки, которые содержат отсутствующие значения выше указанного процента.
DROP_MISSING_COLUMNS (THRESH = 0,5) Удаляет столбцы, которые содержат отсутствующие значения выше указанного процента.
Missing_variable_summary : генерирует сводную таблицу, показывающая количество и процент пропущенных значений для каждой переменной (столбца).
Missing_case_summary : генерирует сводную таблицу, показывающая количество и процент пропущенных значений для каждого случая (строка).
Missing_variable_table : генерирует таблицу, показывающую распределение пропущенных значений по переменным.
Missing_case_table : генерирует таблицу, показывающую распределение пропущенных значений по случаям.
Missing_variable_span : анализирует пропущенные значения в переменной в течение указанного пролета и возвращает DataFrame, обобщающий процент пропущенных и полных значений.
Missing_variable_run : идентифицирует прогоны пропущенных и полных значений в указанной переменной и возвращает DataFrame, суммирующий их длины.
sort_variables_by_missingness : сортирует столбцы DataFrame на основе количества пропущенных значений в каждом столбце.
create_shadow_matrix : создает теневую матрицу, указывающую пропущенные значения с указанной строкой.
bind_shadow_matrix : привязывает исходный фрейм данных с его теневой матрицей, указывающей пропущенные значения.
hisplose_scan_count : подсчитывает возникновение указанных значений в данных DataFrame и возвращает счетчик по переменной.
hisplose_variable_plot : расположены горизонтальная стержня, показывающая количество пропущенных значений для каждой переменной.
Missing_case_plot : запланирует гистограмму, показывающую распределение пропущенных значений по случаям.
Missing_variable_span_plot : Заклинает сложенную гистограмму, показывающую процент отсутствующих и полных значений по повторному промежутке для указанной переменной.
Missing_upsetPlot : генерирует расстроенный график для визуализации комбинаций пропущенных значений по переменным.

Эти методы предоставляют комплексные инструменты для анализа и визуализации пропущенных значений в данных данных. Они могут быть использованы для получения понимания моделей и распределения пропущенных значений, а также для информирования стратегий очистки и вменения данных.

Установка

Чтобы установить пакет, вы можете использовать PIP:

pip install missing-mga

Использование

Чтобы использовать пакет, вам необходимо импортировать класс MissingMethods из модуля PANDAS_MISSING:

 import missing_mga as missing

Затем вы можете создать DataFrame и использовать отсутствующий метод для доступа к методам обработки недостающих значений:

 import pandas as pd

# Create a DataFrame
data = {
    'A' : [ 1 , 2 , None , 4 , 5 ],
    'B' : [ None , 2 , 3 , 4 , 5 ],
    'C' : [ 1 , 2 , 3 , 4 , 5 ],
    'D' : [ 1 , 2 , 3 , 4 , 5 ],    
}

df = pd . DataFrame ( data )

# Use the missing method to access the missing value handling methods
df . missing . number_missing ()

Это вернет общее количество пропущенных значений в DataFrame.

Внося

Если у вас есть какие -либо предложения, отчеты об ошибках или запросы на функции, откройте проблему в репозитории GitHub. Мы приветствуем взносы сообщества, и запросы на привлечение всегда ценится.

Лицензия

Этот пакет лицензирован по лицензии MIT. Смотрите лицензию

Благодарности

Этот пакет был вдохновлен пакетом NANIAR в R, который предоставляет аналогичные функции для работы с отсутствующими значениями в кадрах данных. Мы хотели бы поблагодарить авторов Naniar за их работу и за предоставление ценного ресурса для сообщества Data Science.