Download awesome datascience - download de código fonte awesome datascience

Ciência de dados impressionante

Um repositório de ciência de dados de código aberto para aprender e se inscrever na solução de problemas do mundo real.

Este é um caminho de atalho para começar a estudar ciência de dados . Basta seguir as etapas para responder às perguntas: "O que é ciência de dados e o que devo estudar para aprender a ciência dos dados?"

Patrocinadores

Patrocinador	Tom
----	Seja o primeiro a patrocinar! `[email protected]`

Índice

O que é ciência de dados?
Por onde começo?
Recursos de treinamento
- Tutoriais
- Cursos gratuitos
- Cursos online massivamente abertos
- Programas intensivos
- Faculdades
A caixa de ferramentas de ciência de dados
- Algoritmos
  - Aprendizado supervisionado
  - Aprendizado não supervisionado
  - Aprendizado semi-supervisionado
  - Aprendizagem de reforço
  - Algoritmos de mineração de dados
  - Arquiteturas de aprendizado profundo
- Pacotes de aprendizado de máquina em geral
- Pacotes de aprendizado profundo
  - Ecossistema pytorch
  - Ecossistema de tensorflow
  - Ecossistema de Keras
- Ferramentas de visualização
- Ferramentas diversas
Literatura e mídia
- Livros
  - Ofertas de livros (afiliados)
- Revistas, publicações e revistas
- Boletins
- Blogueiros
- Apresentações
- Podcasts
- Vídeos e canais do YouTube
Socializar
- Contas do Facebook
- Contas do Twitter
- Canais de telegrama
- Comunidades frouxas
- Grupos do Github
- Competições de ciência de dados
Diversão
- Infográficos
- Conjuntos de dados
- Quadrinhos
Outras listas incríveis
- Passatempo

O que é ciência de dados?

^ back to top ^

A Ciência dos Dados é um dos tópicos mais quentes do computador e das terras agrícolas da Internet hoje em dia. As pessoas reuniram dados de aplicativos e sistemas até hoje e agora é a hora de analisá -los. As próximas etapas estão produzindo sugestões dos dados e criando previsões sobre o futuro. Aqui você pode encontrar a maior pergunta para a ciência de dados e centenas de respostas de especialistas.

Link	Visualização
O que é Data Science @ O'Reilly	Os cientistas de dados combinam o empreendedorismo com a paciência, a disposição de criar produtos de dados incrementalmente, a capacidade de explorar e a capacidade de iterar sobre uma solução. Eles são inerentemente interdisciplinares. Eles podem abordar todos os aspectos de um problema, desde a coleta inicial e o condicionamento de dados até as conclusões. Eles podem pensar fora da caixa para criar novas maneiras de ver o problema ou trabalhar com problemas muito amplamente definidos: “Aqui estão muitos dados, o que você pode fazer com isso?”
O que é Data Science @ quora	A Ciência dos Dados é uma combinação de vários aspectos de dados, como tecnologia, desenvolvimento de algoritmos e interferência de dados para estudar os dados, analisá -los e encontrar soluções inovadoras para problemas difíceis. Basicamente, a ciência dos dados tem como objetivo analisar dados e dirigir para o crescimento dos negócios, encontrando maneiras criativas.
O trabalho mais sexy do século 21	Hoje, os cientistas de dados são semelhantes aos “Quants” de Wall Street das décadas de 1980 e 1990. Naqueles dias, as pessoas com origens em física e matemática foram transmitidas para bancos de investimento e fundos de hedge, onde poderiam criar algoritmos e estratégias de dados inteiramente novos. Em seguida, uma variedade de universidades desenvolveu programas de mestrado em engenharia financeira, que produziam uma segunda geração de talentos que era mais acessível às empresas convencionais. O padrão foi repetido no final dos anos 90 com engenheiros de busca, cujas habilidades rarefeitas logo foram ensinadas em programas de ciência da computação.
Wikipedia	A Ciência dos Dados é um campo interdisciplinar que utiliza métodos, processos, algoritmos e sistemas científicos para extrair conhecimentos e insights de muitos dados estruturais e não estruturados. A ciência de dados está relacionada à mineração de dados, aprendizado de máquina e big data.
Como se tornar um cientista de dados	Os cientistas de dados são guardas de big data, coletando e analisando grandes conjuntos de dados estruturados e não estruturados. O papel de um cientista de dados combina ciência da computação, estatística e matemática. Eles analisam, processam e modelam os dados então interpretam os resultados para criar planos acionáveis para empresas e outras organizações.
Uma história muito curta de #datasciência	A história de como os cientistas de dados se tornaram sexy é principalmente a história do acoplamento da disciplina madura das estatísticas com uma ciência muito jovem. O termo “ciência de dados” surgiu apenas recentemente para designar especificamente uma nova profissão que deve entender as vastas lojas de big data. Mas entender os dados tem uma longa história e tem sido discutida por cientistas, estatísticos, bibliotecários, cientistas da computação e outros há anos. A linha do tempo seguinte traça a evolução do termo "ciência de dados" e seu uso, tenta defini -lo e termos relacionados.
Recursos de desenvolvimento de software para cientistas de dados	Os cientistas de dados se concentram em entender os dados por meio de análises exploratórias, estatísticas e modelos. Os desenvolvedores de software aplicam um conjunto separado de conhecimento com diferentes ferramentas. Embora seu foco possa parecer não relacionado, as equipes de ciência de dados podem se beneficiar da adoção das melhores práticas de desenvolvimento de software. Controle de versão, teste automatizado e outras habilidades de desenvolvimento ajudam a criar código e ferramentas reprodutíveis e prontos para produção.
Roteiro do Cientista de Dados	A Data Science é uma excelente opção de carreira no mundo atual de dados, onde aproximadamente 328,77 milhões de terabytes de dados são gerados diariamente. E esse número está aumentando apenas dia a dia, o que, por sua vez, aumenta a demanda por cientistas de dados qualificados que podem utilizar esses dados para impulsionar o crescimento dos negócios.
Navegando seu caminho para se tornar um cientista de dados	_Data A ciência é uma das carreiras mais exigidas hoje. Com as empresas dependem cada vez mais de dados para tomar decisões, a necessidade de cientistas de dados qualificados cresceram rapidamente. Sejam empresas de tecnologia, organizações de saúde ou mesmo instituições governamentais, os cientistas de dados desempenham um papel crucial na transformação de dados brutos em informações valiosas. Mas como você se torna um cientista de dados, especialmente se você está apenas começando? _

Por onde começo?

^ back to top ^

Embora não seja estritamente necessário, ter uma linguagem de programação é uma habilidade crucial para ser eficaz como cientista de dados. Atualmente, o idioma mais popular é o Python , seguido de perto por r . O Python é uma linguagem de script de uso geral que vê aplicativos em uma ampla variedade de campos. R é uma linguagem específica de domínio para estatísticas, que contém muitas ferramentas de estatística comuns prontas para serem prontas.

O Python é de longe a linguagem mais popular da ciência, devido em grande parte à facilidade com que pode ser usada e o vibrante ecossistema de pacotes gerados pelo usuário. Para instalar os pacotes, existem dois métodos principais: PIP (invocados como pip install ), o gerenciador de pacotes que vem com o Python e o Anaconda (invocou o conda install ), um poderoso gerenciador de pacotes que pode instalar pacotes para Python, r e pode baixar executáveis como o Git.

Ao contrário de R, o Python não foi construído desde o início com a ciência de dados em mente, mas há muitas bibliotecas de terceiros para compensar isso. Uma lista muito mais exaustiva de pacotes pode ser encontrada posteriormente neste documento, mas esses quatro pacotes são um bom conjunto de opções para iniciar sua jornada de ciência de dados com: Scikit-Learn é um pacote de ciência de dados de uso geral que implementa os algoritmos mais populares-também inclui documentação rica, tutoriais e exemplos dos modelos que implementa. Mesmo se você preferir escrever suas próprias implementações, o Scikit-Learn é uma referência valiosa para as nozes e parafusos por trás de muitos dos algoritmos comuns que você encontrará. Com os pandas, pode -se coletar e analisar seus dados em um formato de tabela conveniente. A Numpy fornece ferramentas muito rápidas para operações matemáticas, com foco em vetores e matrizes. O Seaborn, com base no pacote Matplotlib, é uma maneira rápida de gerar belas visualizações de seus dados, com muitos bons padrões disponíveis na caixa, bem como uma galeria mostrando como produzir muitas visualizações comuns de seus dados.

Ao embarcar em sua jornada para se tornar um cientista de dados, a escolha da linguagem não é particularmente importante, e o Python e o R têm seus prós e contras. Escolha um idioma que você gosta e confira um dos cursos gratuitos que listamos abaixo!

Mundo real

^ back to top ^

A Ciência dos Dados é uma ferramenta poderosa que é utilizada em vários campos para resolver problemas do mundo real, extraindo insights e padrões de dados complexos.

Desastre

^ back to top ^

Deprem-ml aya: Açık Yazılım Ağı (+25k Developers) está tentando ajudar a resposta a desastres usando inteligência artificial. Tudo está de código aberto Afet.org.

Recursos de treinamento

^ back to top ^

Como você aprende a ciência dos dados? Ao fazer ciência de dados, é claro! Ok, ok - isso pode não ser particularmente útil quando você está começando. Nesta seção, listamos alguns recursos de aprendizagem, em ordem aproximada, desde menos a maior compromisso - tutoriais, cursos on -line massivamente abertos (MOOCs), programas intensivos e faculdades.

Tutoriais

^ back to top ^

1000 projetos de ciência de dados que você pode executar no navegador com o iPython.
#tidytuesday Um projeto de dados semanal destinado ao ecossistema R.
Ciência de dados do seu jeito
Pyspark Cheatsheet
Aprendizado de máquina, ciência de dados e aprendizado profundo com python
Como rotular dados
Seu guia para alocação latente de Dirichlet
Mais de 1000 cursos on -line de ciência de dados no mecanismo de pesquisa on -line do Classpert
Tutoriais do código -fonte do livro Algoritmos genéticos com Python por Clinton Sheppard
Tutoriais para começar o processamento de sinal para aprendizado de máquina
Tutorial de implantação em tempo real sobre a implantação do modelo de série temporal do Python.
Python para ciência de dados: um guia para iniciantes
Plano de estudo mínimo viável para entrevistas de aprendizado de máquina
Entenda e conheça a engenharia de aprendizado de máquina construindo projetos sólidos
12 projetos de ciência de dados gratuitos para praticar Python e Pandas
Melhor currículo CV/para calouros de ciência de dados
Entenda o curso de ciência de dados em java
Perguntas de entrevista de análise de dados (iniciantes para avançar)
Mais de 100 perguntas e respostas entre entrevistas de ciência de dados

Cursos gratuitos

^ back to top ^

Cientista de dados com r
Cientista de dados com Python
Algoritmos genéticos OCW Curso
Roteiro especialista em IA - Roteiro para se tornar um especialista em inteligência artificial
Otimização convexa - otimização convexa (básico da análise convexa; mínimos quadrados, programas lineares e quadráticos, programação semidefinita, minimax, volume extremal e outros problemas; condições de otimização, teoria da dualidade ...)
SkillCombo - Ciência de Dados - mais de 1000 cursos gratuitos de ciência de dados on -line
Aprendendo com dados - Introdução ao aprendizado de máquina, cobrindo a teoria básica, algoritmos e aplicações
Kaggle - Aprenda sobre ciência de dados, aprendizado de máquina, python etc
ML Fundamentos de observabilidade - Aprenda a monitorar e produzir problemas de produção de raízes ML.
Pesos e preconceitos MLOPs eficazes: Desenvolvimento do modelo-Curso gratuito e certificação para a construção de uma máquina de ponta a ponta usando W&B
Python for Machine Learning - Comece sua jornada para o aprendizado de máquina com o Python, uma das linguagens de programação mais poderosas.
Python for Data Science by Scaler - Este curso foi projetado para capacitar iniciantes com as habilidades essenciais para se destacar no mundo atual. O currículo abrangente fornecerá uma base sólida em estatísticas, programação, visualização de dados e aprendizado de máquina.
MLSYS-NYU-2022-Slides, scripts e materiais para o Curso de Machine Learning in Finance em Nyu Tandon, 2022.
Trem práticos e implantam ML-um curso prático para treinar e implantar uma API sem servidor que prevê preços de criptografia.
LLMOPS: Construindo aplicativos do mundo real com grandes modelos de idiomas - Aprenda a criar software moderno com LLMs usando as ferramentas e técnicas mais recentes do campo.
Engenharia rápida para modelos de visão - Aprenda a provar modelos de visão de computação de ponta com linguagem natural, pontos de coordenar, caixas delimitadoras, máscaras de segmentação e até outras imagens neste curso gratuito do Deeplearning.ai.
Curso de Ciência de Dados pela IBM - Recursos gratuitos e aprenda o que é a ciência de dados e como é usado em diferentes indústrias.

MOOC's

^ back to top ^

Coursera Introdução à ciência de dados
CIÊNCIA DE DADOS - 9 ETAPOS CURSOS, Uma especialização em Coursera
Mineração de dados - Cursos de 5 etapas, uma especialização em Coursera
Aprendizado de Machine - Cursos de 5 etapas, uma especialização em Coursera
CS 109 Ciência de dados
OpenIntro
CS 171 Visualização
Mineração de processos: ciência de dados em ação
Oxford Deep Learning
Oxford Deep Learning - Vídeo
Aprendizado de Máquina de Oxford
UBC Machine Learning - Vídeo
Especialização da Ciência dos Dados
Especialização de Big Data Coursera
Pensamento estatístico para ciência e análise de dados por edx
Classe cognitiva Ai da IBM
Udacity - aprendizado profundo
Keras em movimento
Microsoft Professional Program for Data Science
Comp3222/Comp6246 - Tecnologias de aprendizado de máquina
CS 231 - Redes neurais convolucionais para reconhecimento visual
Coursera Tensorflow na prática
Especialização de aprendizado profundo da Coursera
365 Curso de Ciência de Dados
Especialização do processamento de linguagem natural de Coursera
Especialização do Coursera Gan
Ciência de dados da Codecademy
Curso de Álgebra Linear - Álgebra Linear por Gilbert Strang
Uma visão de 2020 da álgebra linear (G. Strang)
Python for Data Science Foundation Course
Ciência de dados: estatísticas e aprendizado de máquina
Engenharia de aprendizado de máquina para produção (MLOPS)
A especialização de sistemas de recomendação da Universidade de Minnesota é uma especialização em nível intermediário/avançado focada no sistema de recomendação na plataforma Coursera.
Programa Profissional de Inteligência Artificial de Stanford
Cientista de dados com Python
Programação com Julia
Programa de Ciência de Dados Scaler e Aprendizado de Máquina
Árvore de habilidades de ciência de dados
Ciência de dados para iniciantes - Aprenda com a IA Tutor
Machine Learning for Beginners - Aprenda com a IA Tutor

Programas intensivos

^ back to top ^

S2ds

Faculdades

^ back to top ^

Uma lista de faculdades e universidades que oferecem diplomas em ciência de dados.
Data Science Degree @ Berkeley
Data Science Devery @ UVA
Data Science Devery @ Wisconsin
BS em ciência e aplicativos de dados
MS em Sistemas de Informação de Computador @ Boston University
MS em Business Analytics @ ASU Online
MS em Applied Data Science @ Syracuse
MS Management & Data Science @ leuphana
Master of Data Science @ Melbourne University
MSC em Data Science @ The University of Edinburgh
Mestre em Analytics de Gerenciamento @ Queen's University
Master of Data Science @ Illinois Institute of Technology
Mestre em Ciência de Dados Aplicados @ The University of Michigan
Mestre Ciência de Dados e Inteligência Artificial @ Eindhoven University of Technology
Mestrado em Ciência de Dados e Engenharia de Computação @ University of Granada

A caixa de ferramentas de ciência de dados

^ back to top ^

Esta seção é uma coleção de pacotes, ferramentas, algoritmos e outros itens úteis no mundo da ciência de dados.

Algoritmos

^ back to top ^

Estes são alguns algoritmos e modelos de aprendizado de máquina e mineração de dados ajudam você a entender seus dados e derivar significado dele.

Três tipos de sistemas de aprendizado de máquina

Com base no treinamento com supervisão humana
Com base na aprendizagem de forma incremental na mosca
Com base na comparação de pontos de dados e na detecção de padrões

Comparação

Datacompy - Datacompy é um pacote para comparar dois quadros de dados do Pandas.

Aprendizado supervisionado

Regressão
Regressão linear
Mínimos quadrados comuns
Regressão logística
Regressão gradual
Splines de regressão adaptativa multivariada
Regressão Softmax
Suavização localmente estimada de dispersão
Classificação
- vizinho mais antigo
- Máquinas vetoriais de suporte
- Árvores de decisão
- Algoritmo ID3
- C4.5 Algoritmo
Aprendizado de conjunto
- Impulsionando
- Empilhamento
- Ensacamento
- Floresta aleatória
- Adaboost

Aprendizado não supervisionado

Clustering
- Cluster hierquical
- K-means
- Clustering baseado em densidade
- Clustering difuso
- Modelos de mistura
Redução da dimensão
- Análise de componentes principais (PCA)
- t-sne; incorporação estocástica distribuída em T
- Análise fatorial
- Alocação de Dirichlet latente (LDA)
Redes neurais
Mapa auto-organizado
Teoria de ressonância adaptativa
Modelos Hidden Markov (hmm)

Aprendizado semi-supervisionado

S3VM
Clustering
Modelos generativos
Separação de baixa densidade
Regularização Laplaciana
Abordagens heurísticas

Aprendizagem de reforço

Q Aprendizagem
SARSA (algoritmo de ação estatal-ação-estadual)
Aprendizagem de diferença temporal

Algoritmos de mineração de dados

C4.5
K-means
SVM (Máquina vetorial de suporte)
Apriori
EM (expectativa-maximização)
PageRank
Adaboost
KNN (vizinhos mais parecidos)
Bayes ingênuo
Carrinho (árvores de classificação e regressão)

Arquiteturas de aprendizado profundo

Perceptron multicamada
Rede Neural Convolucional (CNN)
Rede Neural Recorrente (RNN)
Máquinas Boltzmann
AutoEncoder
Rede Adversária Gerativa (GAN)
Mapas auto-organizados
Transformador
Campo aleatório condicional (CRF)
Designs de sistema ML)

Pacotes de aprendizado de máquina em geral

^ back to top ^

Scikit-Learn
Scikit-Multilearn
Sklearn-Expertsys
F-Scikit-Feature
Scikit-Rebate
Seqlearn
Sklearn-Bayes
Sklearn-Crfsuite
Sklearn-deap
sigopt_sklearn
Sklearn-avaliação
Scikit-Image
Scikit-Opt
Scikit-Posthocs
Pistrutura
Shogun
Xlearn
Cuml
Causalml
mlpack
Mlxtend
modal
Sparkit-learn
Hyperlearn
dlib
imodels
Regra
pygam
Cheques de fundo
Scikit-Survival
interpretável
Xgboost
LightGBM
Catboost
Jax

Pacotes de aprendizado profundo

Ecossistema pytorch

Pytorch
Torchvision
Torchtext
Torchaudio
inflamar
Pytorchnet
Pytoune
Skorch
Pyvarinf
pytorch_geométrico
Gpytorch
piro
Catalisador
pytorch_tabular
Yolov3
Yolov5
Yolov8

Ecossistema de tensorflow

Tensorflow
Tensorlayer
Tflearn
Soneto
Tensorpack
Trfl
Poliaaxon
Neupy
tfDeploy
tensorflow-upstream
Dobra de tensorflow
Tensorlm
Tensorlight
Malha tensorflow
Ludwig
TF-Agents
Tensorforce

Ecossistema de Keras

Keras
Keras-Contrib
Hiperas
Elefas
Hera
Spektral
qkeras
Keras-rl
Talos

Ferramentas de visualização

^ back to top ^

Altair
addEPar
AmCharts
AnyChart
bokeh
Cometa
Slemma
Cartudo
Cubo
d3plus
Documentos orientados a dados (D3Js)
dygraphs
ECHARTS
exposição
gephi
ggplot2
Cola
Galeria de gráficos do Google
Highcarts
Import.io
JQPlot
Matplotlib
NVD3
Netron
OpenRefine
plot.ly
cru
RESSERACT LITE
Seancen
Techanjs
Linha do tempo
VarianCecharts
Vida
Vizzu
Wrangler
R2D3
Networkx
Redash
C3
TensorWatch
Geomap
Traço

Ferramentas diversas

^ back to top ^

Link	Descrição
O processo do ciclo de vida da ciência de dados	O processo do ciclo de vida da Ciência dos Dados é um processo para levar as equipes de ciência de dados da idéia para o valor de maneira repetida e sustentável. O processo está documentado neste repositório
Modelo de ciclo de vida da ciência de dados repo	Repositório de modelo para projeto de ciclo de vida da ciência de dados
Rexmex	Uma biblioteca de métricas de recomendação de uso geral para avaliação justa.
ChemicalX	Uma biblioteca de aprendizado profundo baseado em Pytorch para pontuação de pares de drogas.
Pytorch Geométrico Temporal	Aprendizagem de representação em gráficos dinâmicos.
Pequena bola de pêlo	Uma biblioteca de amostragem de gráficos para o NetworkX com uma API Scikit-Learn.
Clube de Karatê	Uma biblioteca de extensão de aprendizado de máquina não supervisionada para o NetworkX com uma API Scikit-Learn.
ML Workspace	All-in-One baseado na Web para aprendizado de máquina e ciência de dados. O espaço de trabalho é implantado como um contêiner do Docker e é pré -carregado com uma variedade de bibliotecas de ciências de dados populares (por exemplo, Tensorflow, Pytorch) e ferramentas de desenvolvimento (por exemplo, Jupyter, vs código)
Neptune.ai	A plataforma amiga da comunidade que suporta cientistas de dados na criação e compartilhamento de modelos de aprendizado de máquina. Netuno facilita o trabalho em equipe, o gerenciamento de infraestrutura, a comparação e a reprodutibilidade de modelos.
Steppy	Biblioteca leve e Python para experimentação rápida e reproduzível de aprendizado de máquina. Introduz interface muito simples que permite o design limpo do pipeline de aprendizado de máquina.
Steppy-Toolkit	A coleção com curadoria das redes neurais, transformadores e modelos que tornam seu aprendizado de máquina funcionar mais rápido e mais eficaz.
DataLab do Google	Explore, visualize, analise e transformam dados facilmente usando linguagens familiares, como Python e SQL, interativamente.
Hortonworks Sandbox	é um ambiente pessoal e portátil do Hadoop que vem com uma dúzia de tutoriais interativos do Hadoop.
R	é um ambiente de software livre para computação estatística e gráficos.
Tidyverse	é uma coleção opinativa de pacotes R projetados para ciência de dados. Todos os pacotes compartilham uma filosofia de design subjacente, gramática e estruturas de dados.
Rstudio	IDE - Interface de usuário poderosa para R. É gratuito e de código aberto e funciona no Windows, Mac e Linux.
Python - Pandas - Anaconda	Distribuição Python totalmente livre de empreendimento totalmente livre para processamento de dados em larga escala, análise preditiva e computação científica
PANDAS GUI	PANDAS GUI
Scikit-Learn	Aprendizado de máquina em python
Numpy	Numpy é fundamental para a computação científica com Python. Ele suporta grandes matrizes e matrizes multidimensionais e inclui uma variedade de funções matemáticas de alto nível para operar nessas matrizes.
Vaex	O VAEX é uma biblioteca Python que permite visualizar conjuntos de dados grandes e calcular estatísticas em alta velocidade.
Scipy	O Scipy trabalha com matrizes Numpy e fornece rotinas eficientes para integração e otimização numérica.
Data Science Toolbox	Curso Coursera
Data Science Toolbox	Blog
Plataforma de ciência de dados Wolfram	Tome Numérico, Textual, Imagem, GIS ou outros dados e forneça o tratamento Wolfram, realizando um espectro completo de análise e visualização da Ciência dos Dados e geram automaticamente relatórios interativos ricos-todos alimentados pela revolucionária linguagem Wolfram baseada no conhecimento.
Datadog	Soluções, código e DevOps para ciência de dados de alta escala.
Variação	Crie visualizações de dados poderosas para a web sem escrever JavaScript
Kit de desenvolvimento de pipa	O Kite Software Development Kit (Apache License, versão 2.0), ou pipa, é um conjunto de bibliotecas, ferramentas, exemplos e documentação focada em facilitar a criação de sistemas na parte superior do ecossistema Hadoop.
Domino Data Labs	Corra, escala, compartilhe e implante seus modelos - sem nenhuma infraestrutura ou configuração.
Apache Flink	Uma plataforma para processamento de dados eficientes, distribuídos e de uso geral.
Apache Hama	O Apache Hama é um projeto de código aberto de nível superior do Apache, permitindo que você faça análises avançadas além do MapReduce.
Weka	Weka é uma coleção de algoritmos de aprendizado de máquina para tarefas de mineração de dados.
Oitava	GNU Octave é uma linguagem interpretada de alto nível, destinada principalmente a cálculos numéricos. (MATLAB FREE)
Apache Spark	Computação de cluster rápida de raios
Hidrosfera névoa	Um serviço para expor os empregos da Apache Spark Analytics e os modelos de aprendizado de máquina como serviços da Web em tempo real, em tempo ou reativo.
Mecânica de dados	Uma plataforma de ciência e engenharia de dados, tornando o Apache Spark mais amigável e econômico.
Caffe	Estrutura de aprendizado profundo
Tocha	Uma estrutura de computação científica para luajit
Estrutura de aprendizado profundo baseado em Python de Nervana	Intel® NERVANA ™ Reference Deep Learning Framework Comprometido com o melhor desempenho em todos os hardware.
Skale	Processamento de dados distribuído de alto desempenho no NodeJS
Aerossolve	Um pacote de aprendizado de máquina construído para humanos.
Intel Framework	Intel® Deep Learning Framework
DataWrapper	Uma plataforma de visualização de dados de código aberto ajudando a todos a criar gráficos simples, corretos e incorporados. Também em github.com
Fluxo tensor	Tensorflow é uma biblioteca de software de código aberto para inteligência de máquina
Kit de ferramentas de linguagem natural	Um kit de ferramentas introdutório e poderoso para processamento e classificação de linguagem natural
Laboratório de anotação	Plataforma sem código de ponta a ponta gratuita para anotação de texto e treinamento/ajuste de modelo DL. Suporte pronta para uso para modelos de reconhecimento de entidade, classificação, extração de relação e status de asserção nomeados. Suporte ilimitado para usuários, equipes, projetos, documentos.
NLP-TOOLKIT PARA NODE.JS	Este módulo abrange alguns princípios e implementações básicos de PNL. O foco principal é o desempenho. Quando lidamos com dados de amostra ou treinamento na PNL, ficamos rapidamente sem memória. Portanto, toda implementação neste módulo é escrita como fluxo para manter apenas esses dados na memória que estão atualmente processados em qualquer etapa.
Julia	linguagem de programação dinâmica de alto nível e de alto desempenho para computação técnica
Ijulia	Um back-end em língua Julia combinada com o ambiente interativo Jupyter
Apache Zeppelin	Caderno baseado na Web que permite análises de dados interativas e orientadas por dados e documentos colaborativos com SQL, Scala e muito mais
FeatureTools	Uma estrutura de código aberto para engenharia automatizada de recursos escritos em Python
Optimus	Limpeza, pré-processamento, engenharia de recursos, análise de dados exploratórios e ML fácil com back-end do Pyspark.
Albumumentações	Uma biblioteca de aumento de imagem agnóstica rápida e estrutura que implementa um conjunto diversificado de técnicas de aumento. Suporta classificação, segmentação e detecção pronta para uso. Foi usado para ganhar várias competições de aprendizado profundo em Kaggle, Topcoder e aqueles que fizeram parte dos workshops do CVPR.
DVC	Um sistema de controle de versão de ciência de dados de código aberto. Ajuda a rastrear, organizar e tornar os projetos de ciência de dados reproduzíveis. Em seu cenário muito básico, ajuda a versão de versão e a compartilhar grandes dados e modelos de arquivos.
Lambdo	é um mecanismo de fluxo de trabalho que simplifica significativamente a análise de dados combinando em um pipeline de análise (i) Engenharia de Recursos e Aprendizado de Máquinas (II) Treinamento e previsão do modelo (III) População de tabela e avaliação de colunas.
Celebração	Uma loja de recursos para gerenciamento, descoberta e acesso aos recursos de aprendizado de máquina. A FEAST fornece uma visão consistente dos dados de recursos para treinamento e porção de modelos.
Poliaaxon	Uma plataforma para aprendizado de máquina reprodutível e escalável e aprendizado profundo.
LightTag	Ferramenta de anotação de texto para equipes
Ubiai	Ferramenta de anotação de texto fácil de usar para equipes com os recursos mais abrangentes de anulação automática. Suporta NER, Relações e Classificação de Documentos, bem como anotação de OCR para rotulagem de fatura
Trens	Gerente de experimentos mágicos, controle de versão e DevOps para IA
HopSworks	Plataforma de aprendizado de máquina com uso de dados de código aberto com uma loja de recursos. Ingar e gerenciar recursos para acesso on -line (cluster MySQL) e offline (Apache Hive), treinar e servir modelos em escala.
MINDSDB	O MindSDB é uma estrutura automática explicável para os desenvolvedores. Com o MINDSDB, você pode construir, treinar e usar os modelos de última geração ML em uma linha de código tão simples quanto uma linha de código.
Lightwood	Uma estrutura baseada em Pytorch que divide problemas de aprendizado de máquina em blocos menores que podem ser colados perfeitamente com um objetivo de criar modelos preditivos com uma linha de código.
AWS Data Wrangler	Um pacote Python de código aberto que estende o poder da Biblioteca Pandas à AWS conectando serviços relacionados a dados de dados e dados da AWS (Amazon Redshift, AWS Glue, Amazon Athena, Amazon EMR, etc.).
Amazon Rekognition	A AWS Rekognition é um serviço que permite que os desenvolvedores que trabalham com os serviços da Web da Amazon adicionem análise de imagem aos seus aplicativos. Catalogam ativos, automatizam os fluxos de trabalho e extraem significado de sua mídia e aplicativos.
Amazon Textract	Extraia automaticamente o texto, a caligrafia e os dados impressos de qualquer documento.
Amazon Lookout for Vision	Defeitos do produto Spot usando a visão computacional para automatizar a inspeção de qualidade. Identifique os componentes ausentes do produto, danos causados pelo veículo e estrutura e irregularidades para o controle abrangente da qualidade.
Amazon CodeGuru	Automatize as revisões de código e otimize o desempenho do aplicativo com recomendações movidas por ML.
CML	Um kit de ferramentas de código aberto para usar a integração contínua em projetos de ciência de dados. Treinar e testar automaticamente modelos em ambientes semelhantes à produção com ações do GitHub e Gitlab CI, e relatórios visuais autogererados sobre solicitações de tração/mesclagem.
Dask	Uma biblioteca Python de código aberto para fazer a transição indolor seu código de análise para sistemas de computação distribuída (big data)
STATSMODELS	Estatística inferencial baseada em Python, teste de hipóteses e estrutura de regressão
Gensim	Uma biblioteca de código aberto para modelagem de tópicos de texto de linguagem natural
Spacy	Um kit de ferramentas de processamento de linguagem natural de desempenho
Grid Studio	O Grid Studio é um aplicativo de planilha baseado na Web com total integração da linguagem de programação Python.
Manual de Ciência de Dados Python	Manual de Ciência de Dados Python: Texto completo em notebooks Jupyter
Shapley	Uma estrutura orientada a dados para quantificar o valor dos classificadores em um conjunto de aprendizado de máquina.
Dagshub	Uma plataforma criada em ferramentas de código aberto para gerenciamento de dados, modelo e pipeline.
Nota Deep	Um novo tipo de caderno de ciência de dados. Compatível com Jupyter, com colaboração em tempo real e execução na nuvem.
Valohai	Uma plataforma MLOPs que lida com a orquestração de máquinas, reprodutibilidade automática e implantação.
Pymc3	Uma biblioteca Python para programação probabalística (inferência bayesiana e aprendizado de máquina)
Pystan	Interface Python para Stan (Inferência Bayesiana e Modelagem)
hmmlearn	Aprendizagem e inferência não supervisionadas de modelos ocultos de Markov
Gênio do caos	Motor de análise alimentado por ML para detecção de outlier/anomalia e análise de causa raiz
NimbleBox	Uma plataforma MLOPs de pilha completa projetada para ajudar os cientistas de dados e os profissionais de aprendizado de máquina em todo o mundo a descobrir, criar e lançar aplicativos de várias nuvens a partir de seu navegador da web.
Towhee	Uma biblioteca Python que ajuda você a codificar seus dados não estruturados em incorporação.
Lineapy	Já foi frustrado com a limpeza de cadernos Jupyter longos e bagunçados? Com o LineApy, uma biblioteca Python de código aberto, leva apenas duas linhas de código para transformar o código de desenvolvimento confuso em pipelines de produção.
Envd	"Ambiente de desenvolvimento de aprendizado de máquina para ciência de dados e equipes de engenharia de IA/ML
Explore Bibliotecas de Ciência de Dados	Um mecanismo de pesquisa? Ferramenta para descobrir e encontrar uma lista com curadoria de bibliotecas populares e novas, principais autores, kits de projeto de tendência, discussões, tutoriais e recursos de aprendizado
Mlem	? Versão e implante seus modelos ML seguindo os princípios do Gitops
Mlflow	MLOPS Framework para gerenciar modelos de ML em todo o seu ciclo de vida completo
CleanLab	Biblioteca Python para IA centrada em dados e detectando automaticamente vários problemas nos conjuntos de dados ML
Autogluon	Automl para produzir facilmente previsões precisas para dados de imagem, texto, tabular, séries temporais e multimodais
Arize ai	Ferramenta de observabilidade de camadas da comunidade ARIZE para monitorar modelos de aprendizado de máquina em problemas de produção e raízes, como qualidade de dados e desvio de desempenho.
Aureo.io	Aureo.io é uma plataforma de baixo código que se concentra na construção de inteligência artificial. Ele fornece aos usuários a capacidade de criar pipelines, automações e integrá -los com modelos de inteligência artificial - todos com seus dados básicos.
ERD LAB	Ferramenta de diagrama de relacionamento com entidade baseada em nuvem gratuita (ERD) feita para desenvolvedores.
Arize-phoenix	Mlops em um caderno - Descubra insights, problemas de superfície, monitor e ajuste seus modelos.
Cometa	Uma plataforma MLOPs com rastreamento de experimentos, gerenciamento de produção de modelos, um registro de modelos e linhagem completa de dados para apoiar seu fluxo de trabalho ML, desde o treinamento direto até a produção.
Opik	Avalie, teste e envie aplicativos LLM em seus ciclos de vida dev e de produção.
Sintical	Ambiente colaborativo movido a IA para pesquisa. Encontre documentos relevantes, crie coleções para gerenciar bibliografia e resumir o conteúdo - tudo em um só lugar
Teeplot	Ferramenta de fluxo de trabalho para organizar automaticamente a saída de visualização de dados
Simplit	Estrutura de aplicativos para projetos de aprendizado de máquina e ciência de dados
Gradio	Crie componentes de interface do usuário personalizáveis em torno de modelos de aprendizado de máquina
Pesos e preconceitos	Rastreamento de experimentos, versão do conjunto de dados e gerenciamento de modelos
DVC	Sistema de controle de versão de código aberto para projetos de aprendizado de máquina
Optuna	Estrutura automática de software de otimização de hiperparâmetro
Ray Tune	Biblioteca de ajuste de hiperparâmetro escalável
Fluxo de ar Apache	Plataforma para autor programaticamente, agendar e monitorar fluxos de trabalho
Prefeito	Sistema de gerenciamento de fluxo de trabalho para pilhas de dados modernas
Kedro	Estrutura Python de código aberto para criar código de ciência de dados reprodutível e sustentável
Hamilton	Biblioteca leve para autor e gerenciar transformações de dados confiáveis
Shap	Abordagem teórica do jogo para explicar a saída de qualquer modelo de aprendizado de máquina
LIMA	Explicando as previsões de qualquer classificador de aprendizado de máquina
mosca	Plataforma de automação de fluxo de trabalho para aprendizado de máquina
DBT	Ferramenta de construção de dados
Shap	Abordagem teórica do jogo para explicar a saída de qualquer modelo de aprendizado de máquina
LIMA	Explicando as previsões de qualquer classificador de aprendizado de máquina

Literatura e mídia

^ back to top ^

Esta seção inclui alguns materiais de leitura adicionais, canais para assistir e conversas para ouvir.

Livros

^ back to top ^

Ciência dos dados do zero: Primeiros princípios com Python
Inteligência Artificial com Python - TutorialSpoint
Aprendizado de máquina do zero
Aprendizado de máquina probabilístico: uma introdução
Um guia abrangente para o aprendizado de máquina
Como liderar a ciência de dados - acesso antecipado
Lutando agitação com dados
Ciência de dados em escala com Python e Dask
Manual de Ciência de Dados Python
The Data Science Handbook: Advice and Insights from 25 Amazing Data Scientists
Think Like a Data Scientist
Introducing Data Science
Practical Data Science with R
Everyday Data Science & (cheaper PDF version)
Exploring Data Science - free eBook sampler
Exploring the Data Jungle - free eBook sampler
Classic Computer Science Problems in Python
Math for Programmers Early access
R in Action, Third Edition Early Access
Data Science Bookcamp Early access
Data Science Thinking: The Next Scientific, Technological and Economic Revolution
Applied Data Science: Lessons Learned for the Data-Driven Business
The Data Science Handbook
Essential Natural Language Processing - Early access
Mining Massive Datasets - free e-book comprehended by an online course
Pandas in Action - Early access
Genetic Algorithms and Genetic Programming
Advances in Evolutionary Algorithms - Free Download
Genetic Programming: New Approaches and Successful Applications - Free Download
Evolutionary Algorithms - Free Download
Advances in Genetic Programming, Vol. 3 - Free Download
Global Optimization Algorithms: Theory and Application - Free Download
Genetic Algorithms and Evolutionary Computation - Free Download
Convex Optimization - Convex Optimization book by Stephen Boyd - Free Download
Data Analysis with Python and PySpark - Early Access
R for Data Science
Build a Career in Data Science
Machine Learning Bookcamp - Early access
Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition
Effective Data Science Infrastructure
Practical MLOps: How to Get Ready for Production Models
Data Analysis with Python and PySpark
Regression, a Friendly guide - Early Access
Streaming Systems: The What, Where, When, and How of Large-Scale Data Processing
Data Science at the Command Line: Facing the Future with Time-Tested Tools
Machine Learning - CIn UFPE
Machine Learning with Python - Tutorialspoint
Aprendizado profundo
Designing Cloud Data Platforms - Early Access
An Introduction to Statistical Learning with Applications in R
The Elements of Statistical Learning: Data Mining, Inference, and Prediction
Deep Learning with PyTorch
Neural Networks and Deep Learning
Deep Learning Cookbook
Introduction to Machine Learning with Python
Artificial Intelligence: Foundations of Computational Agents, 2nd Edition - Free HTML version
The Quest for Artificial Intelligence: A History of Ideas and Achievements - Free Download
Graph Algorithms for Data Science - Early Access
Data Mesh in Action - Early Access
Julia for Data Analysis - Early Access
Casual Inference for Data Science - Early Access
Regular Expression Puzzles and AI Coding Assistants by David Mertz
Dive into Deep Learning
Data for All
Interpretable Machine Learning: A Guide for Making Black Box Models Explainable - Free GitHub version
Foundations of Data Science Free Download
Comet for DataScience: Enhance your ability to manage and optimize the life cycle of your data science project
Software Engineering for Data Scientists - Early Access
Julia for Data Science - Early Access
An Introduction to Statistical Learning - Download Page
Machine Learning For Absolute Beginners
Unifying Business, Data, and Code: Designing Data Products with JSON Schema

Book Deals (Affiliated) ?

eBook sale - Save up to 45% on eBooks!
Causal Machine Learning
Managing ML Projects
Causal Inference for Data Science
Data for All

Journals, Publications and Magazines

^ back to top ^

ICML - International Conference on Machine Learning
GECCO - The Genetic and Evolutionary Computation Conference (GECCO)
epjdatascience
Journal of Data Science - an international journal devoted to applications of statistical methods at large
Big Data Research
Journal of Big Data
Big Data & Society
Data Science Journal
datatau.com/news - Like Hacker News, but for data
Data Science Trello Board
Medium Data Science Topic - Data Science related publications on medium
Towards Data Science Genetic Algorithm Topic -Genetic Algorithm related Publications towards Data Science
all AI news - The AI/ML/Big Data news aggregator platform

Newsletters

^ back to top ^

AI Digest. A weekly newsletter to keep up to date with AI, machine learning, and data science. Arquivo.
DataTalks.Club. A weekly newsletter about data-related things. Arquivo.
The Analytics Engineering Roundup. A newsletter about data science. Arquivo.

Bloggers

^ back to top ^

Wes McKinney - Wes McKinney Archives.
Matthew Russell - Mining The Social Web.
Greg Reda - Greg Reda Personal Blog
Kevin Davenport - Kevin Davenport Personal Blog
Julia Evans - Recurse Center alumna
Hakan Kardas - Personal Web Page
Sean J. Taylor - Personal Web Page
Drew Conway - Personal Web Page
Hilary Mason - Personal Web Page
Noah Iliinsky - Personal Blog
Matt Harrison - Personal Blog
Vamshi Ambati - AllThings Data Sciene
Prash Chan - Tech Blog on Master Data Management And Every Buzz Surrounding It
Clare Corthell - The Open Source Data Science Masters
Paul Miller Based in the UK and working globally, Cloud of Data's consultancy services help clients understand the implications of taking data and more to the Cloud.
Data Science London Data Science London is a non-profit organization dedicated to the free, open, dissemination of data science. We are the largest data science community in Europe. We are more than 3,190 data scientists and data geeks in our community.
Datawrangling by Peter Skomoroch. MACHINE LEARNING, DATA MINING, AND MORE
Quora Data Science - Data Science Questions and Answers from experts
Siah a PhD student at Berkeley
Louis Dorard a technology guy with a penchant for the web and for data, big and small
Machine Learning Mastery about helping professional programmers confidently apply machine learning algorithms to address complex problems.
Daniel Forsyth - Personal Blog
Data Science Weekly - Weekly News Blog
Revolution Analytics - Data Science Blog
R Bloggers - R Bloggers
The Practical Quant Big data
Yet Another Data Blog Yet Another Data Blog
Spenczar a data scientist at Twitch . I handle the whole data pipeline, from tracking to model-building to reporting.
KD Nuggets Data Mining, Analytics, Big Data, Data, Science not a blog a portal
Meta Brown - Personal Blog
Data Scientist is building the data scientist culture.
WhatSTheBigData is some of, all of, or much more than the above and this blog explores its impact on information technology, the business world, government agencies, and our lives.
Tevfik Kosar - Magnus Notitia
New Data Scientist How a Social Scientist Jumps into the World of Big Data
Harvard Data Science - Thoughts on Statistical Computing and Visualization
Data Science 101 - Learning To Be A Data Scientist
Kaggle Past Solutions
DataScientistJourney
NYC Taxi Visualization Blog
Learning Lover
Dataists
Data-Mania
Data-Magnum
P-value - Musings on data science, machine learning, and stats.
datascopeanalytics
Digital transformation
datascientistjourney
Data Mania Blog - The File Drawer - Chris Said's science blog
Emilio Ferrara's web page
DataNews
Reddit TextMining
Periscopic
Hilary Parker
Data Stories
Data Science Lab
Meaning of
Adventures in Data Land
DATA MINERS BLOG
Dataclysm
FlowingData - Visualization and Statistics
Risco calculado
O'reilly Learning Blog
Dominodatalab
i am trask - A Machine Learning Craftsmanship Blog
Vademecum of Practical Data Science - Handbook and recipes for data-driven solutions of real-world problems
Dataconomy - A blog on the newly emerging data economy
Springboard - A blog with resources for data science learners
Analytics Vidhya - A full-fledged website about data science and analytics study material.
Occam's Razor - Focused on Web Analytics.
Data School - Data science tutorials for beginners!
Colah's Blog - Blog for understanding Neural Networks!
Sebastian's Blog - Blog for NLP and transfer learning!
Distill - Dedicated to clear explanations of machine learning!
Chris Albon's Website - Data Science and AI notes
Andrew Carr - Data Science with Esoteric programming languages
floydhub - Blog for Evolutionary Algorithms
Jingles - Review and extract key concepts from academic papers
nbshare - Data Science notebooks
Deep and Shallow - All things Deep and Shallow in Data Science
Loic Tetrel - Data science blog
Chip Huyen's Blog - ML Engineering, MLOps, and the use of ML in startups
Maria Khalusova - Data science blog
Aditi Rastogi - ML,DL,Data Science blog
Santiago Basulto - Data Science with Python
Akhil Soni - ML, DL and Data Science
Akhil Soni - ML, DL and Data Science

Presentations

^ back to top ^

How to Become a Data Scientist
Introduction to Data Science
Intro to Data Science for Enterprise Big Data
How to Interview a Data Scientist
How to Share Data with a Statistician
The Science of a Great Career in Data Science
What Does a Data Scientist Do?
Building Data Start-Ups: Fast, Big, and Focused
How to win data science competitions with Deep Learning
Full-Stack Data Scientist

Podcasts

^ back to top ^

AI at Home
AI Today
Adversarial Learning
Becoming a Data Scientist
Chai time Data Science
Data Crunch
Data Engineering Podcast
Data Science at Home
Data Science Mixer
Data Skeptic
Data Stories
Datacast
DataFramed
DataTalks.Club
Gradient Descent
Learning Machines 101
Let's Data (Brazil)
Linear Digressions
Not So Standard Deviations
O'Reilly Data Show Podcast
Partially Derivative
Superdatascience
The Data Engineering Show
The Radical AI Podcast
The Robot Brains Podcast
What's The Point
How AI Built This
The Analytics Engineering Podcast

YouTube Videos & Channels

^ back to top ^

What is machine learning?
Andrew Ng: Deep Learning, Self-Taught Learning and Unsupervised Feature Learning
Data36 - Data Science for Beginners by Tomi Mester
Deep Learning: Intelligence from Big Data
Interview with Google's AI and Deep Learning 'Godfather' Geoffrey Hinton
Introduction to Deep Learning with Python
What is machine learning, and how does it work?
Data School - Data Science Education
Neural Nets for Newbies by Melanie Warrick (May 2015)
Neural Networks video series by Hugo Larochelle
Google DeepMind co-founder Shane Legg - Machine Super Intelligence
Data Science Primer
Data Science with Genetic Algorithms
Data Science for Beginners
DataTalks.Club
Mildlyoverfitted - Tutorials on intermediate ML/DL topics
mlops.community - Interviews of industry experts about production ML
ML Street Talk - Unabashedly technical and non-commercial, so you will hear no annoying pitches.
Neural networks by 3Blue1Brown
Neural networks from scratch by Sentdex
Manning Publications YouTube channel
Ask Dr Chong: How to Lead in Data Science - Part 1
Ask Dr Chong: How to Lead in Data Science - Part 2
Ask Dr Chong: How to Lead in Data Science - Part 3
Ask Dr Chong: How to Lead in Data Science - Part 4
Ask Dr Chong: How to Lead in Data Science - Part 5
Ask Dr Chong: How to Lead in Data Science - Part 6
Regression Models: Applying simple Poisson regression
Deep Learning Architectures
Time Series Modelling and Analysis

Socializar

^ back to top ^

Below are some Social Media links. Connect with other data scientists!

Facebook Accounts
Twitter Accounts
Telegram Channels
Slack Communities
GitHub Groups
Data Science Competitions

Facebook Accounts

^ back to top ^

Dados
Big Data Scientist
Data Science Day
Data Science Academy
Facebook Data Science Page
Data Science London
Data Science Technology and Corporation
Data Science - Closed Group
Center for Data Science
Big data hadoop NOSQL Hive Hbase
Analytics, Data Mining, Predictive Modeling, Artificial Intelligence
Big Data Analytics using R
Big Data Analytics with R and Hadoop
Big Data Learnings
Big Data, Data Science, Data Mining & Statistics
BigData/Hadoop Expert
Data Mining / Machine Learning / AI
Data Mining/Big Data - Social Network Ana
Vademecum of Practical Data Science
Veri Bilimi Istanbul
The Data Science Blog

Twitter Accounts

^ back to top ^

Twitter	Descrição
Big Data Combine	Rapid-fire, live tryouts for data scientists seeking to monetize their models as trading strategies
Big Data Mania	Data Viz Wiz, Data Journalist, Growth Hacker, Author of Data Science for Dummies (2015)
Big Data Science	Big Data, Data Science, Predictive Modeling, Business Analytics, Hadoop, Decision and Operations Research.
Charlie Greenbacker	Director of Data Science at @ExploreAltamira
Chris Said	Data scientist at Twitter
Clare Corthell	Dev, Design, Data Science @mattermark #hackerei
DADI Charles-Abner	#datascientist @Ekimetrics. , #machinelearning #dataviz #DynamicCharts #Hadoop #R #Python #NLP #Bitcoin #dataenthousiast
Data Science Central	Data Science Central is the industry's single resource for Big Data practitioners.
Data Science London	Data Science. Big Data. Data Hacks. Data Junkies. Data Startups. Open Data
Data Science Renee	Documenting my path from SQL Data Analyst pursuing an Engineering Master's Degree to Data Scientist
Data Science Report	Mission is to help guide & advance careers in Data Science & Analytics
Data Science Tips	Tips and Tricks for Data Scientists around the world! #datascience #bigdata
Data Vizzard	DataViz, Security, Military
DataScienceX
deeplearning4j
DJ Patil	White House Data Chief, VP @ RelateIQ.
Domino Data Lab
Drew Conway	Data nerd, hacker, student of conflict.
Emilio Ferrara	#Networks, #MachineLearning and #DataScience. I work on #Social Media. Postdoc at @IndianaUniv
Erin Bartolo	Running with #BigData--enjoying a love/hate relationship with its hype. @iSchoolSU #DataScience Program Mgr.
Greg Reda	Working @ GrubHub about data and pandas
Gregory Piatetsky	KDnuggets President, Analytics/Big Data/Data Mining/Data Science expert, KDD & SIGKDD co-founder, was Chief Scientist at 2 startups, part-time philosopher.
Hadley Wickham	Chief Scientist at RStudio, and an Adjunct Professor of Statistics at the University of Auckland, Stanford University, and Rice University.
Hakan Kardas	Data Scientist
Hilary Mason	Data Scientist in Residence at @accel.
Jeff Hammerbacher	ReTweeting about data science
John Myles White	Scientist at Facebook and Julia developer. Author of Machine Learning for Hackers and Bandit Algorithms for Website Optimization. Tweets reflect my views only.
Juan Miguel Lavista	Principal Data Scientist @ Microsoft Data Science Team
Julia Evans	Hacker - Pandas - Data Analyze
Kenneth Cukier	The Economist's Data Editor and co-author of Big Data (http://www.big-data-book.com/).
Kevin Davenport	Organizer of https://www.meetup.com/San-Diego-Data-Science-R-Users-Group/
Kevin Markham	Data science instructor, and founder of Data School
Kim Rees	Interactive data visualization and tools. Data flaneur.
Kirk Borne	DataScientist, PhD Astrophysicist, Top #BigData Influencer.
Linda Regber	Data storyteller, visualizations.
Luis Rei	PhD Student. Programming, Mobile, Web. Artificial Intelligence, Intelligent Robotics Machine Learning, Data Mining, Natural Language Processing, Data Science.
Mark Stevenson	Data Analytics Recruitment Specialist at Salt (@SaltJobs) Analytics - Insight - Big Data - Data science
Matt Harrison	Opinions of full-stack Python guy, author, instructor, currently playing Data Scientist. Occasional fathering, husbanding, organic gardening.
Matthew Russell	Mining the Social Web.
Mert Nuhoğlu	Data Scientist at BizQualify, Developer
Monica Rogati	Data @ Jawbone. Turned data into stories & products at LinkedIn. Text mining, applied machine learning, recommender systems. Ex-gamer, ex-machine coder; namer.
Noah Iliinsky	Visualization & interaction designer. Practical cyclist. Author of vis books: https://www.oreilly.com/pub/au/4419
Paul Miller	Cloud Computing/ Big Data/ Open Data Analyst & Consultant. Writer, Speaker & Moderator. Gigaom Research Analyst.
Peter Skomoroch	Creating intelligent systems to automate tasks & improve decisions. Entrepreneur, ex-Principal Data Scientist @LinkedIn. Machine Learning, ProductRei, Networks
Prash Chan	Solution Architect @ IBM, Master Data Management, Data Quality & Data Governance Blogger. Data Science, Hadoop, Big Data & Cloud.
Quora Data Science	Quora's data science topic
R-Bloggers	Tweet blog posts from the R blogosphere, data science conferences, and (!) open jobs for data scientists.
Rand Hindi
Randy Olson	Computer scientist researching artificial intelligence. Data tinkerer. Community leader for @DataIsBeautiful. #OpenScience advocate.
Recep Erol	Data Science geek @ UALR
Ryan Orban	Data scientist, genetic origamist, hardware aficionado
Sean J. Taylor	Social Scientist. Hacker. Facebook Data Science Team. Keywords: Experiments, Causal Inference, Statistics, Machine Learning, Economics.
Silvia K. Spiva	#DataScience at Cisco
Harsh B. Gupta	Data Scientist at BBVA Compass
Spencer Nelson	Data nerd
Talha Oz	Enjoys ABM, SNA, DM, ML, NLP, HI, Python, Java. Top percentile Kaggler/data scientist
Tasos Skarlatidis	Complex Event Processing, Big Data, Artificial Intelligence and Machine Learning. Passionate about programming and open-source.
Terry Timko	InfoGov; Bigdata; Data as a Service; Data Science; Open, Social & Business Data Convergence
Tony Baer	IT analyst with Ovum covering Big Data & data management with some systems engineering thrown in.
Tony Ojeda	Data Scientist , Author , Entrepreneur. Co-founder @DataCommunityDC. Founder @DistrictDataLab. #DataScience #BigData #DataDC
Vamshi Ambati	Data Science @ PayPal. #NLP, #machinelearning; PhD, Carnegie Mellon alumni (Blog: https://allthingsds.wordpress.com )
Wes McKinney	Pandas (Python Data Analysis library).
WileyEd	Senior Manager - @Seagate Big Data Analytics @McKinsey Alum #BigData + #Analytics Evangelist #Hadoop, #Cloud, #Digital, & #R Enthusiast
WNYC Data News Team	The data news crew at @WNYC. Practicing data-driven journalism, making it visual, and showing our work.
Alexey Grigorev	Data science author
İlker Arslan	Data science author. Shares mostly about Julia programming
INEVITÁVEL	AI & Data Science Start-up Company based in England, UK

Telegram Channels

^ back to top ^

Open Data Science – First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former.
Loss function porn — Beautiful posts on DS/ML theme with video or graphic visualization.
Machinelearning – Daily ML news.

Slack Communities

principal

DataTalks.Club
Women Who Code - Data Science

GitHub Groups

Berkeley Institute for Data Science

Data Science Competitions

Some data mining competition platforms

Kaggle
DrivenData
Analytics Vidhya
InnoCentive
Microprediction

Diversão

Infográfico
Conjuntos de dados
Quadrinhos

Infographics

^ back to top ^

Visualização	Descrição
	Key differences of a data scientist vs. data engineer
	A visual guide to Becoming a Data Scientist in 8 Steps by DataCamp (img)
	Mindmap on required skills (img)
	Swami Chandrasekaran made a Curriculum via Metro map.
	by @kzawadz via twitter
	By Data Science Central
	Data Science Wars: R vs Python
	How to select statistical or machine learning techniques
	Choosing the Right Estimator
	The Data Science Industry: Who Does What
	Data Science ~~Venn~~ Euler Diagram
	Different Data Science Skills and Roles from this article by Springboard
	A simple and friendly way of teaching your non-data scientist/non-statistician colleagues how to avoid mistakes with data. From Geckoboard's Data Literacy Lessons.

Conjuntos de dados

^ back to top ^

Academic Torrents
ADS-B Exchange - Specific datasets for aircraft and Automatic Dependent Surveillance-Broadcast (ADS-B) sources.
hadoopilluminated.com
data.gov - The home of the US Government's open data
United States Census Bureau
usgovxml.com
enigma.com - Navigate the world of public data - Quickly search and analyze billions of public records published by governments, companies and organizations.
datahub.io
aws.amazon.com/datasets
datacite.org
The official portal for European data
NASDAQ:DATA - Nasdaq Data Link A premier source for financial, economic and alternative datasets.
figshare.com
GeoLite Legacy Downloadable Databases
Quora's Big Datasets Answer
Public Big Data Sets
Kaggle Datasets
A Deep Catalog of Human Genetic Variation
A community-curated database of well-known people, places, and things
Google Public Data
World Bank Data
NYC Taxi data
Open Data Philly Connecting people with data for Philadelphia
grouplens.org Sample movie (with ratings), book and wiki datasets
UC Irvine Machine Learning Repository - contains data sets good for machine learning
research-quality data sets by Hilary Mason
National Centers for Environmental Information
ClimateData.us (related: US Climate Resilience Toolkit)
r/datasets
MapLight - provides a variety of data free of charge for uses that are freely available to the general public. Click on a data set below to learn more
GHDx - Institute for Health Metrics and Evaluation - a catalog of health and demographic datasets from around the world and including IHME results
St. Louis Federal Reserve Economic Data - FRED
New Zealand Institute of Economic Research – Data1850
Open Data Sources
UNICEF Data
undata
NASA SocioEconomic Data and Applications Center - SEDAC
The GDELT Project
Sweden, Statistics
StackExchange Data Explorer - an open source tool for running arbitrary queries against public data from the Stack Exchange network.
SocialGrep - a collection of open Reddit datasets.
San Fransisco Government Open Data
IBM Asset Dataset
Open data Index
Public Git Archive
GHTorrent
Microsoft Research Open Data
Open Government Data Platform India
Google Dataset Search (beta)
NAYN.CO Turkish News with categories
COVID-19
Covid-19 Google
Enron Email Dataset
5000 Images of Clothes
IBB Open Portal
The Humanitarian Data Exchange

Quadrinhos

^ back to top ^

Comic compilation
Cartoons
Data Science Cartoons
Data Science: The XKCD Edition

Other Awesome Lists

Other amazingly awesome lists can be found in the awesome-awesomeness
Awesome Machine Learning
lists
awesome-dataviz
awesome-python
Data Science IPython Notebooks.
awesome-r
awesome-datasets
awesome-Machine Learning & Deep Learning Tutorials
Awesome Data Science Ideas
Machine Learning for Software Engineers
Community Curated Data Science Resources
Awesome Machine Learning On Source Code
Awesome Community Detection
Awesome Graph Classification
Awesome Decision Tree Papers
Awesome Fraud Detection Papers
Awesome Gradient Boosting Papers
Awesome Computer Vision Models
Awesome Monte Carlo Tree Search
Glossary of common statistics and ML terms
100 NLP Papers
Awesome Game Datasets
Data Science Interviews Questions
Awesome Explainable Graph Reasoning
Top Data Science Interview Questions
Awesome Drug Synergy, Interaction and Polypharmacy Prediction
Deep Learning Interview Questions
Top Future Trends in Data Science in 2023
How Generative AI Is Changing Creative Work
What is generative AI?
Top 100+ Machine Learning Interview Questions (Beginner to Advanced)

Passatempo

Awesome Music Production

Expandir