
Репозиторий с открытым исходным кодом для изучения и применения в решении проблем реального мира.
Это ярлык для начала изучения науки данных . Просто выполните шаги, чтобы ответить на вопросы: «Что такое наука о данных и что я должен изучать, чтобы изучать науку о данных?»
| Спонсор | Подача |
|---|---|
| --- | Будьте первым, кто спонсирует! [email protected] |
^ back to top ^
Наука данных в настоящее время является одной из самых горячих тем на компьютер и интернет -сельскохозяйственных угодьях. Люди собирали данные из приложений и систем до сегодняшнего дня, и сейчас самое время для их анализа. Следующими шагами являются предложения из данных и создание прогнозов о будущем. Здесь вы можете найти самый большой вопрос для науки о данных и сотни ответов от экспертов.
| Связь | Предварительный просмотр |
|---|---|
| Что такое Data Science @ O'Reilly | Ученые по данным объединяют предпринимательство с терпением, готовность создавать продукты данных постепенно, способность исследовать и способность итерации по решению. Они по своей сути междисциплинарны. Они могут решать все аспекты проблемы, от начального сбора данных и кондиционирования данных до выводов. Они могут подумать нестандартно, чтобы придумать новые способы просмотра проблемы или работать с очень широко определенными проблемами: «Вот много данных, что вы можете сделать из нее?» |
| Что такое Data Science @ Quora | Наука данных - это комбинация ряда аспектов данных, таких как технология, разработка алгоритма и помехи данных для изучения данных, их анализа и поиска инновационных решений сложных проблем. По сути, наука о данных - это анализ данных и развитие роста бизнеса путем поиска творческих способов. |
| Самая сексуальная работа 21 -го века | Ученые по данным сегодня сродни Уолл -стрит «Кванты» 1980 -х и 1990 -х годов. В те дни люди с опытом в области физики и математики, передаваемых инвестиционным банкам и хедж -фондам, где они могли бы разработать совершенно новые алгоритмы и стратегии данных. Затем различные университеты разработали мастерские программы по финансовой инженерии, которые изготавливали таланты второго поколения, которые были более доступны для основных фирм. Схема повторилась позже в 1990 -х годах с поисковыми инженерами, чьи разреженные навыки вскоре стали преподаваться в программах компьютерных наук. |
| Википедия | Наука данных - это междисциплинарная область, которая использует научные методы, процессы, алгоритмы и системы для извлечения знаний и понимания из многих структурных и неструктурированных данных. Наука данных связана с добычей данных, машинного обучения и большими данными. |
| Как стать ученым данных | Ученые с данными - это соревнования больших данных, собирая и анализируют большие наборы структурированных и неструктурированных данных. Роль ученых данных сочетает в себе компьютерные науки, статистику и математику. Они анализируют, обрабатывают и моделируют данные, затем интерпретируют результаты для создания действенных планов для компаний и других организаций. |
| Очень короткая история #Datascience | История о том, как ученые по данным стали сексуально, в основном-история о сочетаниях зрелой дисциплины статистики с очень молодой наукой-комповедниками. Термин «наука о данных» появился только недавно, чтобы специально обозначить новую профессию, которая, как ожидается, будет разобраться в обширных магазинах больших данных. Но понимание данных имеет долгую историю и обсуждалась учеными, статистиками, библиотекарями, компьютерными учеными и другими годами. Следующая временная шкала прослеживает эволюцию термина «наука данных» и его использование, пытается определить его и связанные с ними термины. |
| Ресурсы разработки программного обеспечения для ученых данных | Ученые по данным концентрируются на понимании данных с помощью исследовательского анализа, статистики и моделей. Разработчики программного обеспечения применяют отдельный набор знаний с различными инструментами. Хотя их внимание может показаться не связанным, команды науки о данных могут извлечь выгоду из принятия передовых практик разработки программного обеспечения. Управление версиями, автоматическое тестирование и другие навыки разработки помогают создать воспроизводимый, готовый к производству код и инструменты. |
| Данная ученые. Дорожная карта | Наука данных-отличный выбор карьеры в современном мире, основанном на данных, где примерно 328,77 млн. Терабайт данных генерируются ежедневно. И это число только увеличивается день ото дня, что, в свою очередь, увеличивает спрос на квалифицированных ученых -ученых, которые могут использовать эти данные для стимулирования роста бизнеса. |
| Навигация по вашему пути к тому, чтобы стать ученым данных | _Data Science-одна из самых востребованных карьеров сегодня. Поскольку предприятия все чаще полагаются на данные для принятия решений, потребность в квалифицированных данных ученых быстро росла. Будь то технологические компании, медицинские организации или даже государственные учреждения, ученые данных играют решающую роль в превращении необработанных данных в ценную информацию. Но как вы становитесь ученым для данных, особенно если вы только начинаете? _ |
^ back to top ^
Хотя это и не требуется строго необходимо, наличие языка программирования является важным навыком, чтобы быть эффективным в качестве ученых данных. В настоящее время самым популярным языком является Python , за которым следуют r . Python-это язык сценариев общего назначения, который видит приложения в самых разных областях. R является специфичным для домена язык для статистики, который содержит много общих статистических инструментов из коробки.
Python, безусловно, является самым популярным языком в науке, в немалой степени из-за простоты, с которой он может быть использован, и яркой экосистемы пакетов, сгенерированных пользователем. Для установки пакетов существует два основных метода: PIP (вызывается в качестве pip install ), диспетчер пакетов, который поставляется в комплекте с Python, и Anaconda (вызывается в качестве conda install ), мощный диспетчер пакетов, который может устанавливать пакеты для Python, R и может загружать исполняемые файлы, такие как GIT.
В отличие от R, Python не был построен с нуля с учетом науки о данных, но есть много сторонних библиотек, чтобы восполнить это. Гораздо более исчерпывающий список пакетов можно найти позже в этом документе, но эти четыре пакета являются хорошим набором вариантов, чтобы начать ваше путешествие по науке о данных: Scikit-Learn-это пакет науки об общем назначении, который реализует наиболее популярные алгоритмы-он также включает в себя богатую документацию, учебные пособия и примеры моделей, которые ИТ. Даже если вы предпочитаете писать свои собственные реализации, Scikit-Learn является ценной ссылкой на орехи и болты за многими общими алгоритмами, которые вы найдете. С пандами можно собирать и проанализировать их данные в удобный формат таблицы. Numpy предоставляет очень быстрый инструмент для математических операций, с акцентом на векторы и матрицы. Seaborn, сама на основе пакета Matplotlib, является быстрым способом создания красивых визуализаций ваших данных, с множеством хороших дефолтов по умолчанию, доступным из коробки, а также галерея, показывающей, как создать много общих визуализаций ваших данных.
Приступая к вашему путешествию к тому, чтобы стать ученым для данных, выбор языка не особенно важен, и у Python и R есть свои плюсы и минусы. Выберите язык, который вам нравится, и проверьте один из бесплатных курсов, которые мы перечислили ниже!
^ back to top ^
Наука данных-это мощный инструмент, который используется в различных областях для решения реальных проблем путем извлечения информации и моделей из сложных данных.
^ back to top ^
^ back to top ^
Как вы изучаете науку данных? Конечно, делая науку о данных! Хорошо, хорошо - это может быть не особенно полезно, когда вы впервые начинаете. В этом разделе мы перечислили некоторые учебные ресурсы, в тяжелом порядке от наименьшего до наибольшей обязанности - учебные пособия, массовые онлайн -курсы (MOOC), интенсивные программы и колледжи.
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
Этот раздел представляет собой набор пакетов, инструментов, алгоритмов и других полезных предметов в мире науки данных.
^ back to top ^
Это некоторые алгоритмы и модели машинного обучения и интеллектуального анализа данных, которые помогают вам понять ваши данные и получить смысл из них.
^ back to top ^
^ back to top ^
^ back to top ^
| Связь | Описание |
|---|---|
| Процесс жизненного цикла науки о данных | Процесс жизненного цикла Data Science - это процесс для неоднократного и устойчивого процесса перемещения научно -научных групп. Процесс задокументирован в этом репо |
| Template Lifecycle Data Science | Репозиторий шаблона для проекта жизненного цикла науки о данных |
| Rexmex | Библиотека метрик рекомендаций общего назначения для справедливой оценки. |
| Chemicalx | Библиотека глубокого обучения на основе Pytorch на основе оценки наркотиков. |
| Pytorch Geometric Temperal | Представление Обучение на динамических графиках. |
| Маленький шар из меха | Библиотека выборки графика для NetworkX с API Scikit-Learn. |
| Каратэ клуб | Безусловная библиотека расширения машинного обучения для NetworkX с API Scikit-Learn. |
| ML Workspace | All-In-One Web IDE для машинного обучения и науки данных. Рабочая область развернута в качестве контейнера Docker и предварительно загружено с различными популярными инструментами науки о данных (например, Tensorflow, Pytorch) и DEV (например, Юпитер, против кода) |
| Neptune.ai | Платформа, поддерживающая сообщество, поддерживает ученых данных в создании и обмене моделями машинного обучения. Нептун облегчает командную работу, управление инфраструктурой, сравнение моделей и воспроизводимость. |
| Степпи | Легкая библиотека Python для быстрого и воспроизводимого эксперимента машинного обучения. Представляет очень простой интерфейс, который обеспечивает конструкцию конвейера в области машинного обучения. |
| Steppy-Toolkit | Кураторская коллекция нейронных сетей, трансформаторов и моделей, которые делают ваше машинное обучение работать быстрее и эффективнее. |
| DataLab от Google | Легко изучить, визуализировать, анализировать и преобразовать данные, используя знакомые языки, такие как Python и SQL, интерактивно. |
| Hortonworks Sandbox | это личная, портативная среда Hadoop, которая поставляется с дюжиной интерактивных учебных пособий Hadoop. |
| Ведущий | это свободная программная среда для статистических вычислений и графики. |
| Tidyverse | это самоуверенная коллекция пакетов R, разработанных для науки о данных. Все пакеты имеют основную философию дизайна, грамматику и структуры данных. |
| Rstudio | IDE - мощный пользовательский интерфейс для R. Он бесплатный и открытый исходный код, и работает на Windows, Mac и Linux. |
| Python - Pandas - Anaconda | Полностью свободное предприятие, готовое распределение Python для крупномасштабной обработки данных, прогнозной аналитики и научных вычислений |
| Pandas Gui | Pandas Gui |
| Scikit-learn | Машинное обучение на питоне |
| Numpy | Numpy имеет основополагающее значение для научных вычислений с Python. Он поддерживает крупные многомерные массивы и матрицы и включает в себя ассортимент математических функций высокого уровня для работы на этих массивах. |
| Vaex | Vaex - это библиотека Python, которая позволяет визуализировать большие наборы данных и вычислять статистику на высоких скоростях. |
| Scipy | Scipy работает с массивами Numpy и обеспечивает эффективные процедуры для численной интеграции и оптимизации. |
| Наука на науку о данных | Курсера курс |
| Наука на науку о данных | Блог |
| Wolfram Data Science Platform | Возьмите численные, текстовые, изображения, ГИС или другие данные и дайте ему лечение Wolfram, выполняя полный спектр анализа и визуализации науки о данных и автоматически генерируйте богатые интерактивные отчеты-все приведены на основе революционного языка Wolfram, основанных на знаниях. |
| DataDog | Решения, код и DevOps для высокомасштабной науки данных. |
| Дисперсия | Создайте мощные визуализации данных для Интернета без написания JavaScript |
| Набор для развития воздушных змеев | Комплект для разработки программного обеспечения для KITE (Apache License, версия 2.0), или Kite для короткометражных, представляет собой набор библиотек, инструментов, примеров и документации, направленных на то, чтобы упростить создание систем в верхней части экосистемы Hadoop. |
| Domino Data Labs | Запустите, масштабируйте, делятся и разверните свои модели - без какой -либо инфраструктуры или настройки. |
| Apache Flink | Платформа для эффективной, распределенной обработки данных общего назначения. |
| Апач Хама | Apache Hama-это проект с открытым исходным кодом Apache, позволяющий выполнять расширенную аналитику за пределы MapReduce. |
| Weka | Weka - это коллекция алгоритмов машинного обучения для задач сношения данных. |
| Октава | Gnu octave-это язык, интерпретируемый высоким уровнем, в основном предназначенный для численных вычислений. (Свободный Matlab) |
| Apache Spark | Молнические кластерные вычисления |
| Гидросфера туман | Сервис для разоблачения заданий Apache Spark Analytics и моделей машинного обучения в реальном времени, пакетном или реактивном веб -сервисах. |
| Механика данных | Наука и инженерная платформа, заставляющая Apache Spark более удобной для разработчиков и экономически эффективной. |
| Кофе | Глубокое обучение |
| Факел | Структура научных вычислений для Luajit |
| На основе базы глубокого обучения на питоне Неркана | Intel® Neverana ™ Справочник по глубокому обучению, посвященной лучшей производительности на всех аппаратных средствах. |
| Скейл | Высокая производительность распределенная обработка данных в Nodejs |
| Aerosolve | Пакет машинного обучения, созданный для людей. |
| Intel Framework | Intel® Глубокое обучение рамки |
| DataWrapper | Платформа визуализации данных с открытым исходным кодом, помогающая всем создавать простые, правильные и встроенные диаграммы. Также на github.com |
| Тенсорный поток | TensorFlow - это библиотека программного обеспечения с открытым исходным кодом для машинного интеллекта |
| Натуральный язык инструментарий | Вводной, но мощный инструментарий для обработки и классификации естественного языка |
| Аннотация лаборатория | Бесплатная платформа без кода для текстовых аннотаций и обучения модели DL/настройки. Задача поддержки для распознавания, классификации, классификации, извлечения и утверждения названных объектов Spark NLP. Неограниченная поддержка пользователей, команд, проектов, документов. |
| nlp-toolkit для node.js | Этот модуль охватывает некоторые основные принципы НЛП и реализации. Основное внимание уделяется производительности. Когда мы имеем дело с образцами или обучением данных в NLP, у нас быстро заканчивается память. Поэтому каждая реализация в этом модуле записывается как поток, чтобы сохранить эти данные в памяти, которые в настоящее время обрабатываются на любом шаге. |
| Джулия | Высокоуровневый, высокопроизводительный язык динамического программирования для технических вычислений |
| Иджулия | Бэкэнд на языке юлии в сочетании с интерактивной средой Юпитера |
| Apache Zeppelin | Веб-тетрадь, которая позволяет управлять данными, интерактивная аналитика данных и совместные документы с SQL, Scala и другим |
| FeatureTools | Фреймворк с открытым исходным кодом для автоматизированной инженерии функций, написанной на Python |
| Оптимус | Очищение, предварительная обработка, инженерная инженерия, анализ исследовательских данных и легкий ML с бэкэнд Pyspark. |
| Ольмбиментации | Быстрый и структура библиотеки увеличения изображений и рамки, которая реализует разнообразный набор методов увеличения. Поддерживает классификацию, сегментацию и обнаружение из коробки. Был использован для выигрыша ряда конкурсов глубокого обучения в Kaggle, Topcoder и тех, которые были частью семинаров CVPR. |
| DVC | Система управления версиями данных с открытым исходным кодом. Это помогает отслеживать, организовывать и делать разработки научных проектов. В своем основном сценарии он помогает управлять версиями и обмениваться большими файлами данных и моделями. |
| Лямбдо | является двигателем рабочего процесса, который значительно упрощает анализ данных, объединяя в одном аналитическом трубопроводе (I) Инженерный инженер и машиностроение (II) модели и прогнозирование (III) популяция и оценка столбцов. |
| Праздник | Магазин функций для управления, обнаружения и доступа к функциям машинного обучения. Feast обеспечивает последовательное представление о функциях данных как для обучения модели, так и для модельной службы. |
| Полиаксон | Платформа для воспроизводимого и масштабируемого машинного обучения и глубокого обучения. |
| Lighttag | Текстовый инструмент аннотации для команд |
| Ubiai | Легкий в использовании инструмент аннотации текстовых аннотаций для команд с наиболее полными функциями автоматической аннотации. Поддерживает NER, классификацию отношений и документов, а также аннотация OCR для маркировки счетов |
| Поезда | Автомагический менеджер эксперимента, управление версиями и DevOps для искусственного интеллекта |
| Hopsworks | Платформа машинного обучения с открытым исходным кодом с магазином функций. Управляйте и управляйте функциями как для онлайн (MySQL Cluster), так и для автономного (Apache Hive), тренируясь и подают модели в масштабе. |
| Mindsdb | MindSDB - это объясняемая платформа для разработчиков. С MindSDB вы можете построить, тренировать и использовать современные модели ML, так же, как одна линия кода. |
| Лаймвуд | Основа на основе Pytorch, которая разбивает проблемы машинного обучения на более мелкие блоки, которые можно беспрепятственно склеиваться вместе с целью создания прогнозных моделей с одной линией кода. |
| AWS Data Wrangler | Пакет Python с открытым исходным кодом, который расширяет мощность библиотеки Pandas до AWS, соединяющих сервисы данных и AWS, связанные с данными, (Amazon Redshift, AWS-Glue, Amazon Athena, Amazon EMR и т. Д.). |
| Amazon Rekognition | AWS Rekognition - это услуга, которая позволяет разработчикам, работающим с Amazon Web Services добавлять анализ изображений в свои приложения. Каталог активов, автоматизируйте рабочие процессы и извлеките значение из ваших носителей и приложений. |
| Amazon Textract | Автоматически извлечь печатный текст, почерк и данные из любого документа. |
| Amazon ищу видение | Определите дефекты продукта с использованием компьютерного зрения для автоматизации качества проверки. Определите недостающие компоненты продукта, повреждение транспортных средств и структуры и нарушения для комплексного контроля качества. |
| Amazon Codeguru | Автоматизируйте обзоры кода и оптимизируйте производительность приложений с помощью рекомендаций ML-мощности. |
| CML | Инструментарий с открытым исходным кодом для использования непрерывной интеграции в проектах по науке о данных. Автоматически тренируют и тестируют модели в производственных средах с помощью GitHub Decicts & Gitlab CI, а также Autogence Visual Reports по запросам на притяжение/слияние. |
| Даск | Библиотека Python с открытым исходным кодом для безболезненного перехода вашего аналитического кода в распределенные вычислительные системы (большие данные) |
| Statsmodels | Статистика, основанная на Python, тестирование гипотез и структура регрессии |
| Генсим | Библиотека с открытым исходным кодом для тематического моделирования текста естественного языка |
| шпажина | Инструментарий для обработки на естественном языке |
| Гридская студия | Grid Studio-это веб-таблица с полной интеграцией языка программирования Python. |
| Справочник по науке о данных Python | Справочник по науке о данных Python: Полный текст в ноутбуках Юпитера |
| Шапли | Основанная на данных структура для количественной оценки значения классификаторов в ансамбле машинного обучения. |
| Дагшуб | Платформа, основанная на инструментах с открытым исходным кодом для управления данными, модели и трубопроводами. |
| DeepNote | Новый вид ноутбука по науке о данных. Юпитер-совместимый, с сотрудничеством в режиме реального времени в облаке. |
| Valohai | Платформа MLOPS, которая обрабатывает машинную оркестровку, автоматическую воспроизводимость и развертывание. |
| PYMC3 | Библиотека Python для вероятностного программирования (байесовский вывод и машинное обучение) |
| Пистан | Интерфейс Python для Stan (байесовский вывод и моделирование) |
| Хммле | Неконтролируемое обучение и вывод скрытых моделей Маркова |
| Хаос гений | ML Powered Analytics Engine для обнаружения выбросов/аномалий и анализа основной причины |
| Шахт | Полная платформа MLOPS, предназначенная для того, чтобы помочь ученым-ученым и практикам машинного обучения по всему миру обнаружить, создавать и запускать приложения с несколькими облаками из своего веб-браузера. |
| Towhee | Библиотека Python, которая помогает вам кодировать ваши неструктурированные данные в встраивание. |
| Lineapy | Вы когда -нибудь были разочарованы уборкой длинных, грязных ноутбуков Юпитера? С Lineapy, библиотекой Python с открытым исходным кодом, она требует всего двух строк кода, чтобы преобразовать грязный код разработки в производственные трубопроводы. |
| обход | ? ️ Среда разработки машинного обучения для науки о данных и инженерных команд AI/ML |
| Изучите библиотеки науки данных | Поисковая система? Инструмент для обнаружения и поиска курируемого списка популярных и новых библиотек, лучших авторов, наборов проектов трендов, дискуссий, учебных пособий и учебных ресурсов |
| Млем | ? Версия и разверните свои модели ML с помощью принципов Gitops |
| Mlflow | Mlops Framework для управления моделями ML на протяжении всего жизненного цикла |
| чистый | Библиотека Python для AI-ориентированного ИИ и автоматического обнаружения различных проблем в наборах данных ML |
| Autogluon | Automl, чтобы легко создать точные прогнозы для изображения, текста, таблицы, временных рядов и многомодальных данных |
| Ариз Ай | Инструмент наблюдения ARISE AI Community для мониторинга моделей машинного обучения по производству и проблемам, связанным с корнем, такими как качество данных и дрейф производительности. |
| Aureo.io | Aureo.io-это платформа с низким кодом, которая фокусируется на создании искусственного интеллекта. Он предоставляет пользователям возможность создавать трубопроводы, автоматизации и интегрировать их с моделями искусственного интеллекта - все это с их основными данными. |
| ERD Lab | Свободный облачный инструмент на основе объектов (ERD), созданный для разработчиков. |
| Ариз-Феникс | Mlops в ноутбуке - раскрыть понимание, проблемы с поверхностью, мониторинг и тонко настроить ваши модели. |
| Комета | Платформа MLOPS с отслеживанием экспериментов, управлением производством моделей, реестром моделей и полной линией данных для поддержки вашего рабочего процесса ML от обучения до производства. |
| Опик | Оцените, тестируйте и судовая LLM -приложения для ваших жизненных циклов DEV и производства. |
| Синфический | Среда сотрудничества с AI для исследований. Найдите соответствующие документы, создайте коллекции для управления библиографией и суммируйте контент - все в одном месте |
| типлот | Инструмент рабочего процесса для автоматической организации вывода визуализации данных |
| Поток | Приложения структура для машинного обучения и научных проектов данных |
| Градио | Создать настраиваемые компоненты пользовательского интерфейса вокруг моделей машинного обучения |
| Вес и предвзятость | Отслеживание экспериментов, версии данных и управление моделями |
| DVC | Система контроля версий с открытым исходным кодом для проектов машинного обучения |
| Оптуна | Программная структура программного обеспечения для автоматической гиперпараметрической оптимизации |
| Ray Tune | Библиотека настройки масштабируемой гиперпараметры |
| Apache Airflow | Платформа для программного автора, расписания и мониторинга рабочих процессов |
| Префект | Система управления рабочими процессами для современных стеков данных |
| Кедро | Python Framework с открытым исходным кодом для создания воспроизводимого, обслуживания данных о данных |
| Гамильтон | Легкая библиотека для автора и управления надежными преобразованием данных |
| Форма | Теоретический подход к игре для объяснения вывода любой модели машинного обучения |
| ЛАЙМ | Объяснение прогнозов любого классификатора машинного обучения |
| флайт | Платформа автоматизации рабочего процесса для машинного обучения |
| DBT | Инструмент сборки данных |
| Форма | Теоретический подход к игре для объяснения вывода любой модели машинного обучения |
| ЛАЙМ | Объяснение прогнозов любого классификатора машинного обучения |
^ back to top ^
Этот раздел включает в себя некоторые дополнительные материалы для чтения, каналы для просмотра и разговоры, чтобы послушать.
^ back to top ^
eBook sale - Save up to 45% on eBooks!
Causal Machine Learning
Managing ML Projects
Causal Inference for Data Science
Data for All
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
Below are some Social Media links. Connect with other data scientists!
^ back to top ^
^ back to top ^
| Описание | |
|---|---|
| Big Data Combine | Rapid-fire, live tryouts for data scientists seeking to monetize their models as trading strategies |
| Big Data Mania | Data Viz Wiz, Data Journalist, Growth Hacker, Author of Data Science for Dummies (2015) |
| Big Data Science | Big Data, Data Science, Predictive Modeling, Business Analytics, Hadoop, Decision and Operations Research. |
| Charlie Greenbacker | Director of Data Science at @ExploreAltamira |
| Chris Said | Data scientist at Twitter |
| Clare Corthell | Dev, Design, Data Science @mattermark #hackerei |
| DADI Charles-Abner | #datascientist @Ekimetrics. , #machinelearning #dataviz #DynamicCharts #Hadoop #R #Python #NLP #Bitcoin #dataenthousiast |
| Data Science Central | Data Science Central is the industry's single resource for Big Data practitioners. |
| Data Science London | Data Science. Big Data. Data Hacks. Data Junkies. Data Startups. Open Data |
| Data Science Renee | Documenting my path from SQL Data Analyst pursuing an Engineering Master's Degree to Data Scientist |
| Data Science Report | Mission is to help guide & advance careers in Data Science & Analytics |
| Data Science Tips | Tips and Tricks for Data Scientists around the world! #datascience #bigdata |
| Data Vizzard | DataViz, Security, Military |
| DataScienceX | |
| deeplearning4j | |
| DJ Patil | White House Data Chief, VP @ RelateIQ. |
| Domino Data Lab | |
| Drew Conway | Data nerd, hacker, student of conflict. |
| Emilio Ferrara | #Networks, #MachineLearning and #DataScience. I work on #Social Media. Postdoc at @IndianaUniv |
| Erin Bartolo | Running with #BigData--enjoying a love/hate relationship with its hype. @iSchoolSU #DataScience Program Mgr. |
| Greg Reda | Working @ GrubHub about data and pandas |
| Gregory Piatetsky | KDnuggets President, Analytics/Big Data/Data Mining/Data Science expert, KDD & SIGKDD co-founder, was Chief Scientist at 2 startups, part-time philosopher. |
| Hadley Wickham | Chief Scientist at RStudio, and an Adjunct Professor of Statistics at the University of Auckland, Stanford University, and Rice University. |
| Hakan Kardas | Data Scientist |
| Hilary Mason | Data Scientist in Residence at @accel. |
| Jeff Hammerbacher | ReTweeting about data science |
| John Myles White | Scientist at Facebook and Julia developer. Author of Machine Learning for Hackers and Bandit Algorithms for Website Optimization. Tweets reflect my views only. |
| Juan Miguel Lavista | Principal Data Scientist @ Microsoft Data Science Team |
| Julia Evans | Hacker - Pandas - Data Analyze |
| Kenneth Cukier | The Economist's Data Editor and co-author of Big Data (http://www.big-data-book.com/). |
| Kevin Davenport | Organizer of https://www.meetup.com/San-Diego-Data-Science-R-Users-Group/ |
| Kevin Markham | Data science instructor, and founder of Data School |
| Kim Rees | Interactive data visualization and tools. Data flaneur. |
| Kirk Borne | DataScientist, PhD Astrophysicist, Top #BigData Influencer. |
| Linda Regber | Data storyteller, visualizations. |
| Luis Rei | PhD Student. Programming, Mobile, Web. Artificial Intelligence, Intelligent Robotics Machine Learning, Data Mining, Natural Language Processing, Data Science. |
| Mark Stevenson | Data Analytics Recruitment Specialist at Salt (@SaltJobs) Analytics - Insight - Big Data - Data science |
| Matt Harrison | Opinions of full-stack Python guy, author, instructor, currently playing Data Scientist. Occasional fathering, husbanding, organic gardening. |
| Matthew Russell | Mining the Social Web. |
| Mert Nuhoğlu | Data Scientist at BizQualify, Developer |
| Monica Rogati | Data @ Jawbone. Turned data into stories & products at LinkedIn. Text mining, applied machine learning, recommender systems. Ex-gamer, ex-machine coder; namer. |
| Noah Iliinsky | Visualization & interaction designer. Practical cyclist. Author of vis books: https://www.oreilly.com/pub/au/4419 |
| Paul Miller | Cloud Computing/ Big Data/ Open Data Analyst & Consultant. Writer, Speaker & Moderator. Gigaom Research Analyst. |
| Peter Skomoroch | Creating intelligent systems to automate tasks & improve decisions. Entrepreneur, ex-Principal Data Scientist @LinkedIn. Machine Learning, ProductRei, Networks |
| Prash Chan | Solution Architect @ IBM, Master Data Management, Data Quality & Data Governance Blogger. Data Science, Hadoop, Big Data & Cloud. |
| Quora Data Science | Quora's data science topic |
| R-Bloggers | Tweet blog posts from the R blogosphere, data science conferences, and (!) open jobs for data scientists. |
| Rand Hindi | |
| Randy Olson | Computer scientist researching artificial intelligence. Data tinkerer. Community leader for @DataIsBeautiful. #OpenScience advocate. |
| Recep Erol | Data Science geek @ UALR |
| Ryan Orban | Data scientist, genetic origamist, hardware aficionado |
| Sean J. Taylor | Social Scientist. Hacker. Facebook Data Science Team. Keywords: Experiments, Causal Inference, Statistics, Machine Learning, Economics. |
| Silvia K. Spiva | #DataScience at Cisco |
| Harsh B. Gupta | Data Scientist at BBVA Compass |
| Spencer Nelson | Data nerd |
| Talha Oz | Enjoys ABM, SNA, DM, ML, NLP, HI, Python, Java. Top percentile Kaggler/data scientist |
| Tasos Skarlatidis | Complex Event Processing, Big Data, Artificial Intelligence and Machine Learning. Passionate about programming and open-source. |
| Terry Timko | InfoGov; Bigdata; Data as a Service; Data Science; Open, Social & Business Data Convergence |
| Tony Baer | IT analyst with Ovum covering Big Data & data management with some systems engineering thrown in. |
| Tony Ojeda | Data Scientist , Author , Entrepreneur. Co-founder @DataCommunityDC. Founder @DistrictDataLab. #DataScience #BigData #DataDC |
| Vamshi Ambati | Data Science @ PayPal. #NLP, #machinelearning; PhD, Carnegie Mellon alumni (Blog: https://allthingsds.wordpress.com ) |
| Wes McKinney | Pandas (Python Data Analysis library). |
| WileyEd | Senior Manager - @Seagate Big Data Analytics @McKinsey Alum #BigData + #Analytics Evangelist #Hadoop, #Cloud, #Digital, & #R Enthusiast |
| WNYC Data News Team | The data news crew at @WNYC. Practicing data-driven journalism, making it visual, and showing our work. |
| Alexey Grigorev | Data science author |
| İlker Arslan | Data science author. Shares mostly about Julia programming |
| НЕИЗБЕЖНЫЙ | AI & Data Science Start-up Company based in England, UK |
^ back to top ^
вершина
Some data mining competition platforms
^ back to top ^
| Предварительный просмотр | Описание |
|---|---|
| Key differences of a data scientist vs. data engineer | |
| A visual guide to Becoming a Data Scientist in 8 Steps by DataCamp (img) | |
| Mindmap on required skills (img) | |
| Swami Chandrasekaran made a Curriculum via Metro map. | |
| by @kzawadz via twitter | |
| By Data Science Central | |
| Data Science Wars: R vs Python | |
| How to select statistical or machine learning techniques | |
| Choosing the Right Estimator | |
| The Data Science Industry: Who Does What | |
| Наука данных | |
| Different Data Science Skills and Roles from this article by Springboard | |
| A simple and friendly way of teaching your non-data scientist/non-statistician colleagues how to avoid mistakes with data. From Geckoboard's Data Literacy Lessons. |
^ back to top ^
^ back to top ^