Data Science Hacks Download - Data Science Hacks Source Code скачать

Data Science Hacks

Другой исходный код

1.0.0

Скачать

Наука данных, советы и хитрости

Data Science Hacks создается и поддерживается аналитикой Vidhya для сообщества Data Science.

Он включает в себя различные советы, хитрости и взломы, связанные с наукой о данных, машинном обучении

Эти взломы предназначены для всех ученых данных. Неважно, если вы новичок или продвинутый профессионал, эти взломы определенно сделают вас эффективными!

Не стесняйтесь вносить свои собственные хакеры Data Science здесь. Убедитесь, что ваш взлом следует по руководящим принципам вклада

Этот репозиторий является частью бесплатного курса Analytics Vidhya. Чтобы узнать больше о таких удивительных взломах, посетите данные о данных, советы и хитрости данных

Data Science Hack #1 - Загрузитель ресурсов

Как вы можете извлечь данные изображения непосредственно из Chrome за один щелчок? Представьте, что вы хотите создать свой собственный проект машинного обучения, но у вас недостаточно данных, это становится сложной задачей, вы можете использовать расширение Resourcesaver для непосредственной загрузки данных! Посмотрим, как!

Шаги:

Установите расширение Chrome из данного URL.
Перейдите на Google Images или любую веб -страницу, откуда вы хотите сохранить данные.
Откройте элемент осмотра и нажмите на вкладку ResourcesAver
Нажмите на кнопку Сохраните все ресурсы, и будет создан файл ZIP.
Разанипируйте файл и откройте папку Encrypted-tbn0.gstatic.com
Вы можете найти изображения здесь.

Data Science Hack #2 Панды применяются

Применяются панды - одна из наиболее часто используемых функций для игры с данными и создания новых переменных. Он возвращает некоторое значение после передачи каждой строки/столбца кадра данных с некоторой функцией. Функция может быть как по умолчанию, так и определенным пользователям.

Data Science Hack #3 Pandas Boolean Indexing

Это помогает выбрать подмножество данных на основе значения данных в данных DataFrame

Data Science Hack #4 Pandas Pivot Table

Он используется для создания электронной таблицы в стиле MS Excel. Уровни в таблице поворота будут храниться в мультиндексных объектах (иерархические индексы) в индексе и столбцах результата DataFrame.

Data Science Hack #5 Pandas Crosshab

Функция Pd.CrosSTAB () используется для получения начального «ощущения» (представление) данных.

Data Science Hack #6 Pandas str.split

Он используется для применения векторизованных строковых функций в столбце DataFrame Pandas. Допустим, вы хотите разделить имена в столбце DataFrame на имя и фамилию. Pandas.series.str вместе с split () можно использовать для выполнения этой задачи.

Data Science Hack #7 Извлеките электронные письма из текста

Вот интересный взлом для извлечения идентификаторов электронной почты, присутствующих в длинных частях текста, просто используя 2 строки кода в Python, используя регулярные выражения. Извлечение информации из сообщений в социальных сетях и веб -сайтах стало обычной практикой в аналитике данных, но иногда мы в конечном итоге стараемся сложными методами для достижения вещей, которые можно легко решить с помощью правильной техники.

Data Science Hack #8 Нормальное распределение

Одним из наиболее важных предположений в линейной и логистической регрессии является то, что наши данные должны следовать нормальному распределению, но мы все знаем, что это обычно не так в реальной жизни. Нам часто нужно преобразовать наши данные в нормальное/ гауссовое распределение.

Data Science Hack #9 Удалить смайлики из текста

Предварительная обработка является одним из ключевых шагов для повышения производительности модели. Одной из основных причин предварительной обработки текста является удаление нежелательных символов из текста, таких как пунктуация, смайлики, ссылки и т. Д., Которые не требуются для нашего оператора проблемы.

Data Science Hack #10 Метод локтя для классификатора

Метод колена используется для определения значения K в K-ближайших соседях. Это график ошибок в разных значениях k, и мы выбираем значение k, имеющее наименьшую ошибку!

Data Science Hack #11 Minmax Scaler

Важной частью анализа данных является предварительная обработка. Много раз нам нужно масштабировать наши функции, как в случае K-NN, нам всегда нужно масштабировать данные, прежде чем построить модель, иначе это даст ложные результаты.

Data Science Hack #12 Engineering для данных временных рядов

Большая часть данных, собранных сегодня, удерживайте переменные даты и времени. Есть много информации, которую вы можете извлечь из этих функций, и вы можете использовать ее в своем анализе!

Data Science Hack #13 фиктивные данные для линейной регрессии

Модели глубокого уровня обычно требуют много #Data для обучения. Но получение огромных объемов данных состоит из собственных проблем. Вместо того, чтобы тратить дни вручную на сбор данных, вы можете использовать методы увеличения изображений. Это процесс генерации новых изображений. Эти новые изображения генерируются с использованием существующих учебных изображений, и, следовательно, нам не нужно собирать их вручную.

Data Science Hack #14 Токенизация Huggingface

Токенизация является основной задачей при создании словарного запаса. Huggingface недавно создала библиотеку для токенизации, которая обеспечивает реализацию самых используемых сегодняшних токенизаторов сегодня, с акцентом на производительность и универсальность. Ключевые функции: Ultra-Fast: они могут кодировать 1 ГБ текста в ~ 20 секунд на процессоре стандартного сервера

Data Science Hack #15 Разделите непрерывные и категориальные данные

Вы можете извлечь категориальные и числовые функции в отдельные данные DataFrames всего за 1 строку кода! Это можно сделать, используя функцию select_dtypes.

Data Science Hack #16 Pandas Profiling

Вы хотите выполнить быстрый анализ данных о своем рамке данных? Вы можете использовать Pandas Profiling для создания отчета о профиле вашего набора данных всего за 1 строку кода!

Data Science Hack #17 Форматирование DataFrame

Преобразовать широкую форму DataFrame в длинную форму DataFrame только в 1 строке кода! В Pd.Melt () еще один столбец используется в качестве идентификаторов. «Сметь данные», используйте функцию pivot ()

Data Science Hack #18 Magic Function- %История

Вы знаете, как вы можете получить историю всех команд, работающих в ноутбуке Jupyter? Используйте %истории, встроенная волшебная функция Notebook Jupyter! Примечание - даже если вы разрезали ячейки в своем ноутбуке, История %также печатает эти команды!

Наука данных Hack #19 Тепловая карта на пандах DataFrame

Создайте тепловую карту на DataFrame Pandas с помощью Seaborn! Это помогает вам понять полный диапазон значений с целью проблеска.

Data Science Hack #20 Матрица путаницы сюжета.

Scikit-Learn выпустила свою стабильную версию 0,22.1 с новыми функциями и исправлениями ошибок. Одной новой функцией является функция plot_confusion_matrix, которая генерирует чрезвычайно интуитивную и настраиваемую матрицу путаницы для вашего классификатора. Бонусный совет: вы можете указать формат чисел, появляющихся в полях, используя параметр value_format ('n' для целых чисел, .2f 'для плавания и т. Д.)

Data Science Hack #21 Ipython Interactive Shell

Какой будет выход, если вы запустите следующие команды в одной ячейке вашей ноутбука Jupyter? df.shape df.head (), конечно, это будут первые пять рядов вашего отдела обработки данных. Можем ли мы получить вывод обеих команд, работающих в той же ячейке? Вы можете сделать это с помощью InteractiveShell.

Data Science Hack #22 Python TQDM

Большинство из вас слышали о библиотеке TQDM, и вы, возможно, используете ее отслеживать прогресс навсегда бега за петли. В большинстве случаев мы пишем сложные функции, вкладываемые для петли. #TQDM также позволяет отслеживать это. Вот как вы можете отслеживать вложенные петли, используя TDQM в Python.

Увеличение изображений Hack Data Science #23

Модели глубокого уровня обычно требуют много данных для обучения. Но получение огромных объемов данных состоит из собственных проблем. Вместо того, чтобы тратить дни вручную на сбор данных, вы можете использовать методы увеличения изображений. Это процесс генерации новых изображений. Эти новые изображения генерируются с использованием существующих учебных изображений, и, следовательно, нам не нужно собирать их вручную.

Data Science Hack #24 Настройка темная тема ноутбука Jupyter

Jupyter-Themes предоставляет простой способ изменить тему, шрифты и многое другое в вашей ноутбуке Jupyter.

Шаги -

Установите Jupyter -Themes -
- Использование Anaconda
  conda install -c conda-forge jupyterthemes
- Использование PIP
  pip install jupyterthemes
Проверьте список тем -
jt - l
Выберите тему
jt -t chesterish
Чтобы вернуть тему по умолчанию -
jt -r

Data Science Hack #25 Изменить ширину ячейки в ноутбуке Юпитера

Для этого мы используем Jupyter-Themes, это обеспечивает простой способ изменить тему, шрифты и многое другое в вашей записной книжке Jupyter.

Шаги -

Установите Jupyter -Themes -
- Использование Anaconda
  conda install -c conda-forge jupyterthemes
- Использование PIP
  conda install -c pip install jupyterthemes
Измените тему, ширину ячейки, высота ячейки
jt -t chesterish -cellw 100% lineh 170

Data Science Hack #26 parse_dates in read_csv (), чтобы изменить тип данных на DateTime

Что вы делаете, когда вам нужно изменить тип данных столбца на DateTime? Мы можем сделать это непосредственно во время чтения данных, используя аргумент parse_dates.

Data Science Hack 27 Share Jupyter Notebook с использованием nbviewer

Вы можете очень легко поделиться ноутбуком Jupyter с неправограммами, и лучший способ сделать это-использование Jupyter NBViewer. Pro Tip - Вы можете использовать Binder для выполнения кода от NBViewer на вашем компьютере!

Data Science Hack #28 Построение дерева решений

Вы знаете, как построить дерево решений всего за 1 строку кода? Sklearn предоставляет простую функцию stold_tree () для выполнения этой задачи. Вы можете настроить гиперпараметры в соответствии с вашими требованиями.

Data Science Hack #29 Invert Dictionary

Вы знаете, как вы можете инвертировать словарь в Python? Словарь - это коллекция, которая неупорядочен, изменен и индексируется. Он широко используется в повседневных программировании и задачах машинного обучения.

Интерактивные участки Hack Hack Hack #30 с использованием Plotly

Запонки связывают график непосредственно с DataFrames Pandas! Поэтому вы можете сделать интерактивные диаграммы без каких -либо хлопот или длинных кодов.

Data Science Hack #31 Напишите файл Python непосредственно из ноутбука Jupyter

Этот взлом посвящен сохранению содержимого ячейки в файл .py с использованием Magic Command %% writefile, а затем запуск файла в другой ноутбуке Jupyter, используя Magic Command %.

Data Science Hack #32 Структуры данных с красивыми печатными изделиями

Вы запутались во время печати некоторых структур данных? Не беспокойтесь, это очень распространено. Модуль Pretty Print предоставляет простой способ печати структуры данных визуально приятным способом!

Data Science Hack #33

Этот код позволяет преобразовать дату любого формата в указанный формат. Много раз мы получаем даты различных форматов в наших данных. Этот взлом поможет вам преобразовать все эти форматы в указанный формат.

Data Science Hack #34 Выбор функций с использованием selectfrommentel

Одним из способов выбора функций является использование атрибута feature_importance_ базовых оценок. Используя функцию SELECTFROMDEL, вы можете указать оценку и порог для face_importance_, этот взлом использует «среднее» в качестве порога. Вы можете настроить порог, чтобы получить оптимальные результаты. Чтобы узнать больше, посетите документацию

Data Science Hack #35 Конвертируйте строки в символы

Что может быть самым простым способом преобразования строки в символы? Вот простой взлом, который пригодится во время работы с текстовыми данными

Data Science Hack #36 Изменение размера изображения

При создании модели классификации изображений с использованием глубокого обучения требуется, чтобы все изображения были одинакового размера. Однако, поскольку данные поступают из разных источников, изображения могут иметь разные формы. Таким образом, чтобы преобразовать их в ту же форму, мы можем использовать функцию изменения размера из Open CV. Этот взлом поможет вам преобразовать изображения любой формы в указанную форму.

Data Science Hack #37 Применить панды параллельно

Требуется ли время для выполнения операций на DataFrame Pandas? Pandarallel - это простой и эффективный инструмент для параллелизации операций Pandas на всех ваших доступных процессорах!

Hack Data Science Hack #38 Выражения генератора по сравнению с списком понимания

Генератор дает по одному элементу за раз и генерирует их только при спросе. Генераторы намного более эффективны для памяти. Этот взлом сравнивает выражения генератора с пониманием списков.

Data Science Hack #39 Проверьте свою репутацию

Вы избегаете режима, потому что их трудно читать и писать, а также сложно получить правильно? Этот взлом помогает вам поставить корпорацию. Regex101 - это тестер онлайн -режима, отладчик с выделением для PHP, PCRE, Python, Golang и JavaScript

Data Science Hack #40 Конвертировать список списков в список

Иногда данные могут быть в форме вложенного списка. Например, данные могут быть датой записи транзакций для конкретного продукта. Однако вам может понадобиться только в одном измерении. Этот взлом поможет вам сгладить список списков в один список.

Data Science Hack #41 скрыть печатные операторы

Мы часто используем печатные операторы для отладки целей. Этот взлом поможет вам отключить печатные операторы в конкретном разделе кода, чтобы он облегчил отладку.

Data Science Hack #42 Split PDF-документ по странице по странице

Этот взлом поможет вам разделить один PDF -документ на несколько страниц.

Data Science Hack #43 Merge PDF документы

Этот взлом поможет вам объединить несколько документов PDF в один документ. Этот взлом-это обратный хак № 42 разделенный PDF-документ по странице по странице

Data Science Hack #44 Создайте пользовательский DataGenerator Image в керасе

Иногда вам понадобится функциональность, которая не предоставляется напрямую предоставленным идентификатором Keras. Вы можете легко создать обертку вокруг нее в соответствии с вашими потребностями.

Например, ваш использование в том, что у вас есть модель глубокого обучения с несколькими входами

(т.е. нейронная сеть, которая получает ввод из нескольких источников данных, и проводит комбинированное обучение по этим данным), и вы хотите, чтобы генератор данных смог справиться с подготовкой данных на лету, вы можете создать обертку вокруг класса ImageDatagenerator, чтобы дать необходимый вывод. Эта ноутбука объясняет простое решение для этой использования.

Другой вариант использования может заключаться в том, что вы хотите изменить размер изображений из формы, скажем, 150x150 до формы 224x224, которая обычно используется предварительно предварительно проведенными моделями, вы можете настроить Imagedatagenerator, не кодируя свой собственный генератор данных из Ground Up (пример ноутбука).

Расширять

Дополнительная информация

Версия 1.0.0
Тип Другой исходный код
Время обновления 2025-04-16
размер 1.82MB
От Github

Связанные приложения

MMEarth data

2024-11-12
НАУКА КОМБАТ

2023-08-14
SCIENCE KOMBAT Китайская версия

2023-08-12
бот-приложение Science Can

2023-05-11
Биологический анализ данных

2010-03-22
Умное восстановление данных

2009-06-18

Data Science Hacks

Наука данных, советы и хитрости

Data Science Hack #1 - Загрузитель ресурсов

Data Science Hack #2 Панды применяются

Data Science Hack #3 Pandas Boolean Indexing

Data Science Hack #4 Pandas Pivot Table

Data Science Hack #5 Pandas Crosshab

Data Science Hack #6 Pandas str.split

Data Science Hack #7 Извлеките электронные письма из текста

Data Science Hack #8 Нормальное распределение

Data Science Hack #9 Удалить смайлики из текста

Data Science Hack #10 Метод локтя для классификатора

Data Science Hack #11 Minmax Scaler

Data Science Hack #12 Engineering для данных временных рядов

Data Science Hack #13 фиктивные данные для линейной регрессии

Data Science Hack #14 Токенизация Huggingface

Data Science Hack #15 Разделите непрерывные и категориальные данные

Data Science Hack #16 Pandas Profiling

Data Science Hack #17 Форматирование DataFrame

Data Science Hack #18 Magic Function- %История

Наука данных Hack #19 Тепловая карта на пандах DataFrame

Data Science Hack #20 Матрица путаницы сюжета.

Data Science Hack #21 Ipython Interactive Shell

Data Science Hack #22 Python TQDM

Увеличение изображений Hack Data Science #23

Data Science Hack #24 Настройка темная тема ноутбука Jupyter

Data Science Hack #25 Изменить ширину ячейки в ноутбуке Юпитера

Data Science Hack #26 parse_dates in read_csv (), чтобы изменить тип данных на DateTime

Data Science Hack 27 Share Jupyter Notebook с использованием nbviewer

Data Science Hack #28 Построение дерева решений

Data Science Hack #29 Invert Dictionary

Интерактивные участки Hack Hack Hack #30 с использованием Plotly

Data Science Hack #31 Напишите файл Python непосредственно из ноутбука Jupyter

Data Science Hack #32 Структуры данных с красивыми печатными изделиями

Data Science Hack #33

Data Science Hack #34 Выбор функций с использованием selectfrommentel

Data Science Hack #35 Конвертируйте строки в символы

Data Science Hack #36 Изменение размера изображения

Data Science Hack #37 Применить панды параллельно

Hack Data Science Hack #38 Выражения генератора по сравнению с списком понимания

Data Science Hack #39 Проверьте свою репутацию

Data Science Hack #40 Конвертировать список списков в список

Data Science Hack #41 скрыть печатные операторы

Data Science Hack #42 Split PDF-документ по странице по странице

Data Science Hack #43 Merge PDF документы

Data Science Hack #44 Создайте пользовательский DataGenerator Image в керасе