Data Science Hacks создается и поддерживается аналитикой Vidhya для сообщества Data Science.
Он включает в себя различные советы, хитрости и взломы, связанные с наукой о данных, машинном обучении
Эти взломы предназначены для всех ученых данных. Неважно, если вы новичок или продвинутый профессионал, эти взломы определенно сделают вас эффективными!
Не стесняйтесь вносить свои собственные хакеры Data Science здесь. Убедитесь, что ваш взлом следует по руководящим принципам вклада
Этот репозиторий является частью бесплатного курса Analytics Vidhya. Чтобы узнать больше о таких удивительных взломах, посетите данные о данных, советы и хитрости данных
Как вы можете извлечь данные изображения непосредственно из Chrome за один щелчок? Представьте, что вы хотите создать свой собственный проект машинного обучения, но у вас недостаточно данных, это становится сложной задачей, вы можете использовать расширение Resourcesaver для непосредственной загрузки данных! Посмотрим, как!
Шаги:
Применяются панды - одна из наиболее часто используемых функций для игры с данными и создания новых переменных. Он возвращает некоторое значение после передачи каждой строки/столбца кадра данных с некоторой функцией. Функция может быть как по умолчанию, так и определенным пользователям.
Это помогает выбрать подмножество данных на основе значения данных в данных DataFrame
Он используется для создания электронной таблицы в стиле MS Excel. Уровни в таблице поворота будут храниться в мультиндексных объектах (иерархические индексы) в индексе и столбцах результата DataFrame.
Функция Pd.CrosSTAB () используется для получения начального «ощущения» (представление) данных.
Он используется для применения векторизованных строковых функций в столбце DataFrame Pandas. Допустим, вы хотите разделить имена в столбце DataFrame на имя и фамилию. Pandas.series.str вместе с split () можно использовать для выполнения этой задачи.
Вот интересный взлом для извлечения идентификаторов электронной почты, присутствующих в длинных частях текста, просто используя 2 строки кода в Python, используя регулярные выражения. Извлечение информации из сообщений в социальных сетях и веб -сайтах стало обычной практикой в аналитике данных, но иногда мы в конечном итоге стараемся сложными методами для достижения вещей, которые можно легко решить с помощью правильной техники.
Одним из наиболее важных предположений в линейной и логистической регрессии является то, что наши данные должны следовать нормальному распределению, но мы все знаем, что это обычно не так в реальной жизни. Нам часто нужно преобразовать наши данные в нормальное/ гауссовое распределение.
Предварительная обработка является одним из ключевых шагов для повышения производительности модели. Одной из основных причин предварительной обработки текста является удаление нежелательных символов из текста, таких как пунктуация, смайлики, ссылки и т. Д., Которые не требуются для нашего оператора проблемы.
Метод колена используется для определения значения K в K-ближайших соседях. Это график ошибок в разных значениях k, и мы выбираем значение k, имеющее наименьшую ошибку!
Важной частью анализа данных является предварительная обработка. Много раз нам нужно масштабировать наши функции, как в случае K-NN, нам всегда нужно масштабировать данные, прежде чем построить модель, иначе это даст ложные результаты.
Большая часть данных, собранных сегодня, удерживайте переменные даты и времени. Есть много информации, которую вы можете извлечь из этих функций, и вы можете использовать ее в своем анализе!
Модели глубокого уровня обычно требуют много #Data для обучения. Но получение огромных объемов данных состоит из собственных проблем. Вместо того, чтобы тратить дни вручную на сбор данных, вы можете использовать методы увеличения изображений. Это процесс генерации новых изображений. Эти новые изображения генерируются с использованием существующих учебных изображений, и, следовательно, нам не нужно собирать их вручную.
Токенизация является основной задачей при создании словарного запаса. Huggingface недавно создала библиотеку для токенизации, которая обеспечивает реализацию самых используемых сегодняшних токенизаторов сегодня, с акцентом на производительность и универсальность. Ключевые функции: Ultra-Fast: они могут кодировать 1 ГБ текста в ~ 20 секунд на процессоре стандартного сервера
Вы можете извлечь категориальные и числовые функции в отдельные данные DataFrames всего за 1 строку кода! Это можно сделать, используя функцию select_dtypes.
Вы хотите выполнить быстрый анализ данных о своем рамке данных? Вы можете использовать Pandas Profiling для создания отчета о профиле вашего набора данных всего за 1 строку кода!
Преобразовать широкую форму DataFrame в длинную форму DataFrame только в 1 строке кода! В Pd.Melt () еще один столбец используется в качестве идентификаторов. «Сметь данные», используйте функцию pivot ()
Вы знаете, как вы можете получить историю всех команд, работающих в ноутбуке Jupyter? Используйте %истории, встроенная волшебная функция Notebook Jupyter! Примечание - даже если вы разрезали ячейки в своем ноутбуке, История %также печатает эти команды!
Создайте тепловую карту на DataFrame Pandas с помощью Seaborn! Это помогает вам понять полный диапазон значений с целью проблеска.
Scikit-Learn выпустила свою стабильную версию 0,22.1 с новыми функциями и исправлениями ошибок. Одной новой функцией является функция plot_confusion_matrix, которая генерирует чрезвычайно интуитивную и настраиваемую матрицу путаницы для вашего классификатора. Бонусный совет: вы можете указать формат чисел, появляющихся в полях, используя параметр value_format ('n' для целых чисел, .2f 'для плавания и т. Д.)
Какой будет выход, если вы запустите следующие команды в одной ячейке вашей ноутбука Jupyter? df.shape df.head (), конечно, это будут первые пять рядов вашего отдела обработки данных. Можем ли мы получить вывод обеих команд, работающих в той же ячейке? Вы можете сделать это с помощью InteractiveShell.
Большинство из вас слышали о библиотеке TQDM, и вы, возможно, используете ее отслеживать прогресс навсегда бега за петли. В большинстве случаев мы пишем сложные функции, вкладываемые для петли. #TQDM также позволяет отслеживать это. Вот как вы можете отслеживать вложенные петли, используя TDQM в Python.
Модели глубокого уровня обычно требуют много данных для обучения. Но получение огромных объемов данных состоит из собственных проблем. Вместо того, чтобы тратить дни вручную на сбор данных, вы можете использовать методы увеличения изображений. Это процесс генерации новых изображений. Эти новые изображения генерируются с использованием существующих учебных изображений, и, следовательно, нам не нужно собирать их вручную.
Jupyter-Themes предоставляет простой способ изменить тему, шрифты и многое другое в вашей ноутбуке Jupyter.
Шаги -
conda install -c conda-forge jupyterthemes
pip install jupyterthemes
jt - l
jt -t chesterish
jt -r
Для этого мы используем Jupyter-Themes, это обеспечивает простой способ изменить тему, шрифты и многое другое в вашей записной книжке Jupyter.
Шаги -
Установите Jupyter -Themes -
conda install -c conda-forge jupyterthemes
conda install -c pip install jupyterthemes
Измените тему, ширину ячейки, высота ячейки
jt -t chesterish -cellw 100% lineh 170
Что вы делаете, когда вам нужно изменить тип данных столбца на DateTime? Мы можем сделать это непосредственно во время чтения данных, используя аргумент parse_dates.
Вы можете очень легко поделиться ноутбуком Jupyter с неправограммами, и лучший способ сделать это-использование Jupyter NBViewer. Pro Tip - Вы можете использовать Binder для выполнения кода от NBViewer на вашем компьютере!
Вы знаете, как построить дерево решений всего за 1 строку кода? Sklearn предоставляет простую функцию stold_tree () для выполнения этой задачи. Вы можете настроить гиперпараметры в соответствии с вашими требованиями.
Вы знаете, как вы можете инвертировать словарь в Python? Словарь - это коллекция, которая неупорядочен, изменен и индексируется. Он широко используется в повседневных программировании и задачах машинного обучения.
Запонки связывают график непосредственно с DataFrames Pandas! Поэтому вы можете сделать интерактивные диаграммы без каких -либо хлопот или длинных кодов.
Этот взлом посвящен сохранению содержимого ячейки в файл .py с использованием Magic Command %% writefile, а затем запуск файла в другой ноутбуке Jupyter, используя Magic Command %.
Вы запутались во время печати некоторых структур данных? Не беспокойтесь, это очень распространено. Модуль Pretty Print предоставляет простой способ печати структуры данных визуально приятным способом!
Этот код позволяет преобразовать дату любого формата в указанный формат. Много раз мы получаем даты различных форматов в наших данных. Этот взлом поможет вам преобразовать все эти форматы в указанный формат.
Одним из способов выбора функций является использование атрибута feature_importance_ базовых оценок. Используя функцию SELECTFROMDEL, вы можете указать оценку и порог для face_importance_, этот взлом использует «среднее» в качестве порога. Вы можете настроить порог, чтобы получить оптимальные результаты. Чтобы узнать больше, посетите документацию
Что может быть самым простым способом преобразования строки в символы? Вот простой взлом, который пригодится во время работы с текстовыми данными
При создании модели классификации изображений с использованием глубокого обучения требуется, чтобы все изображения были одинакового размера. Однако, поскольку данные поступают из разных источников, изображения могут иметь разные формы. Таким образом, чтобы преобразовать их в ту же форму, мы можем использовать функцию изменения размера из Open CV. Этот взлом поможет вам преобразовать изображения любой формы в указанную форму.
Требуется ли время для выполнения операций на DataFrame Pandas? Pandarallel - это простой и эффективный инструмент для параллелизации операций Pandas на всех ваших доступных процессорах!
Генератор дает по одному элементу за раз и генерирует их только при спросе. Генераторы намного более эффективны для памяти. Этот взлом сравнивает выражения генератора с пониманием списков.
Вы избегаете режима, потому что их трудно читать и писать, а также сложно получить правильно? Этот взлом помогает вам поставить корпорацию. Regex101 - это тестер онлайн -режима, отладчик с выделением для PHP, PCRE, Python, Golang и JavaScript
Иногда данные могут быть в форме вложенного списка. Например, данные могут быть датой записи транзакций для конкретного продукта. Однако вам может понадобиться только в одном измерении. Этот взлом поможет вам сгладить список списков в один список.
Мы часто используем печатные операторы для отладки целей. Этот взлом поможет вам отключить печатные операторы в конкретном разделе кода, чтобы он облегчил отладку.
Этот взлом поможет вам разделить один PDF -документ на несколько страниц.
Этот взлом поможет вам объединить несколько документов PDF в один документ. Этот взлом-это обратный хак № 42 разделенный PDF-документ по странице по странице
Иногда вам понадобится функциональность, которая не предоставляется напрямую предоставленным идентификатором Keras. Вы можете легко создать обертку вокруг нее в соответствии с вашими потребностями.

(т.е. нейронная сеть, которая получает ввод из нескольких источников данных, и проводит комбинированное обучение по этим данным), и вы хотите, чтобы генератор данных смог справиться с подготовкой данных на лету, вы можете создать обертку вокруг класса ImageDatagenerator, чтобы дать необходимый вывод. Эта ноутбука объясняет простое решение для этой использования.