
Um repositório de ciência de dados de código aberto para aprender e se inscrever na solução de problemas do mundo real.
Este é um caminho de atalho para começar a estudar ciência de dados . Basta seguir as etapas para responder às perguntas: "O que é ciência de dados e o que devo estudar para aprender a ciência dos dados?"
| Patrocinador | Tom |
|---|---|
| ---- | Seja o primeiro a patrocinar! [email protected] |
^ back to top ^
A Ciência dos Dados é um dos tópicos mais quentes do computador e das terras agrícolas da Internet hoje em dia. As pessoas reuniram dados de aplicativos e sistemas até hoje e agora é a hora de analisá -los. As próximas etapas estão produzindo sugestões dos dados e criando previsões sobre o futuro. Aqui você pode encontrar a maior pergunta para a ciência de dados e centenas de respostas de especialistas.
| Link | Visualização |
|---|---|
| O que é Data Science @ O'Reilly | Os cientistas de dados combinam o empreendedorismo com a paciência, a disposição de criar produtos de dados incrementalmente, a capacidade de explorar e a capacidade de iterar sobre uma solução. Eles são inerentemente interdisciplinares. Eles podem abordar todos os aspectos de um problema, desde a coleta inicial e o condicionamento de dados até as conclusões. Eles podem pensar fora da caixa para criar novas maneiras de ver o problema ou trabalhar com problemas muito amplamente definidos: “Aqui estão muitos dados, o que você pode fazer com isso?” |
| O que é Data Science @ quora | A Ciência dos Dados é uma combinação de vários aspectos de dados, como tecnologia, desenvolvimento de algoritmos e interferência de dados para estudar os dados, analisá -los e encontrar soluções inovadoras para problemas difíceis. Basicamente, a ciência dos dados tem como objetivo analisar dados e dirigir para o crescimento dos negócios, encontrando maneiras criativas. |
| O trabalho mais sexy do século 21 | Hoje, os cientistas de dados são semelhantes aos “Quants” de Wall Street das décadas de 1980 e 1990. Naqueles dias, as pessoas com origens em física e matemática foram transmitidas para bancos de investimento e fundos de hedge, onde poderiam criar algoritmos e estratégias de dados inteiramente novos. Em seguida, uma variedade de universidades desenvolveu programas de mestrado em engenharia financeira, que produziam uma segunda geração de talentos que era mais acessível às empresas convencionais. O padrão foi repetido no final dos anos 90 com engenheiros de busca, cujas habilidades rarefeitas logo foram ensinadas em programas de ciência da computação. |
| Wikipedia | A Ciência dos Dados é um campo interdisciplinar que utiliza métodos, processos, algoritmos e sistemas científicos para extrair conhecimentos e insights de muitos dados estruturais e não estruturados. A ciência de dados está relacionada à mineração de dados, aprendizado de máquina e big data. |
| Como se tornar um cientista de dados | Os cientistas de dados são guardas de big data, coletando e analisando grandes conjuntos de dados estruturados e não estruturados. O papel de um cientista de dados combina ciência da computação, estatística e matemática. Eles analisam, processam e modelam os dados então interpretam os resultados para criar planos acionáveis para empresas e outras organizações. |
| Uma história muito curta de #datasciência | A história de como os cientistas de dados se tornaram sexy é principalmente a história do acoplamento da disciplina madura das estatísticas com uma ciência muito jovem. O termo “ciência de dados” surgiu apenas recentemente para designar especificamente uma nova profissão que deve entender as vastas lojas de big data. Mas entender os dados tem uma longa história e tem sido discutida por cientistas, estatísticos, bibliotecários, cientistas da computação e outros há anos. A linha do tempo seguinte traça a evolução do termo "ciência de dados" e seu uso, tenta defini -lo e termos relacionados. |
| Recursos de desenvolvimento de software para cientistas de dados | Os cientistas de dados se concentram em entender os dados por meio de análises exploratórias, estatísticas e modelos. Os desenvolvedores de software aplicam um conjunto separado de conhecimento com diferentes ferramentas. Embora seu foco possa parecer não relacionado, as equipes de ciência de dados podem se beneficiar da adoção das melhores práticas de desenvolvimento de software. Controle de versão, teste automatizado e outras habilidades de desenvolvimento ajudam a criar código e ferramentas reprodutíveis e prontos para produção. |
| Roteiro do Cientista de Dados | A Data Science é uma excelente opção de carreira no mundo atual de dados, onde aproximadamente 328,77 milhões de terabytes de dados são gerados diariamente. E esse número está aumentando apenas dia a dia, o que, por sua vez, aumenta a demanda por cientistas de dados qualificados que podem utilizar esses dados para impulsionar o crescimento dos negócios. |
| Navegando seu caminho para se tornar um cientista de dados | _Data A ciência é uma das carreiras mais exigidas hoje. Com as empresas dependem cada vez mais de dados para tomar decisões, a necessidade de cientistas de dados qualificados cresceram rapidamente. Sejam empresas de tecnologia, organizações de saúde ou mesmo instituições governamentais, os cientistas de dados desempenham um papel crucial na transformação de dados brutos em informações valiosas. Mas como você se torna um cientista de dados, especialmente se você está apenas começando? _ |
^ back to top ^
Embora não seja estritamente necessário, ter uma linguagem de programação é uma habilidade crucial para ser eficaz como cientista de dados. Atualmente, o idioma mais popular é o Python , seguido de perto por r . O Python é uma linguagem de script de uso geral que vê aplicativos em uma ampla variedade de campos. R é uma linguagem específica de domínio para estatísticas, que contém muitas ferramentas de estatística comuns prontas para serem prontas.
O Python é de longe a linguagem mais popular da ciência, devido em grande parte à facilidade com que pode ser usada e o vibrante ecossistema de pacotes gerados pelo usuário. Para instalar os pacotes, existem dois métodos principais: PIP (invocados como pip install ), o gerenciador de pacotes que vem com o Python e o Anaconda (invocou o conda install ), um poderoso gerenciador de pacotes que pode instalar pacotes para Python, r e pode baixar executáveis como o Git.
Ao contrário de R, o Python não foi construído desde o início com a ciência de dados em mente, mas há muitas bibliotecas de terceiros para compensar isso. Uma lista muito mais exaustiva de pacotes pode ser encontrada posteriormente neste documento, mas esses quatro pacotes são um bom conjunto de opções para iniciar sua jornada de ciência de dados com: Scikit-Learn é um pacote de ciência de dados de uso geral que implementa os algoritmos mais populares-também inclui documentação rica, tutoriais e exemplos dos modelos que implementa. Mesmo se você preferir escrever suas próprias implementações, o Scikit-Learn é uma referência valiosa para as nozes e parafusos por trás de muitos dos algoritmos comuns que você encontrará. Com os pandas, pode -se coletar e analisar seus dados em um formato de tabela conveniente. A Numpy fornece ferramentas muito rápidas para operações matemáticas, com foco em vetores e matrizes. O Seaborn, com base no pacote Matplotlib, é uma maneira rápida de gerar belas visualizações de seus dados, com muitos bons padrões disponíveis na caixa, bem como uma galeria mostrando como produzir muitas visualizações comuns de seus dados.
Ao embarcar em sua jornada para se tornar um cientista de dados, a escolha da linguagem não é particularmente importante, e o Python e o R têm seus prós e contras. Escolha um idioma que você gosta e confira um dos cursos gratuitos que listamos abaixo!
^ back to top ^
A Ciência dos Dados é uma ferramenta poderosa que é utilizada em vários campos para resolver problemas do mundo real, extraindo insights e padrões de dados complexos.
^ back to top ^
^ back to top ^
Como você aprende a ciência dos dados? Ao fazer ciência de dados, é claro! Ok, ok - isso pode não ser particularmente útil quando você está começando. Nesta seção, listamos alguns recursos de aprendizagem, em ordem aproximada, desde menos a maior compromisso - tutoriais, cursos on -line massivamente abertos (MOOCs), programas intensivos e faculdades.
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
Esta seção é uma coleção de pacotes, ferramentas, algoritmos e outros itens úteis no mundo da ciência de dados.
^ back to top ^
Estes são alguns algoritmos e modelos de aprendizado de máquina e mineração de dados ajudam você a entender seus dados e derivar significado dele.
^ back to top ^
^ back to top ^
^ back to top ^
| Link | Descrição |
|---|---|
| O processo do ciclo de vida da ciência de dados | O processo do ciclo de vida da Ciência dos Dados é um processo para levar as equipes de ciência de dados da idéia para o valor de maneira repetida e sustentável. O processo está documentado neste repositório |
| Modelo de ciclo de vida da ciência de dados repo | Repositório de modelo para projeto de ciclo de vida da ciência de dados |
| Rexmex | Uma biblioteca de métricas de recomendação de uso geral para avaliação justa. |
| ChemicalX | Uma biblioteca de aprendizado profundo baseado em Pytorch para pontuação de pares de drogas. |
| Pytorch Geométrico Temporal | Aprendizagem de representação em gráficos dinâmicos. |
| Pequena bola de pêlo | Uma biblioteca de amostragem de gráficos para o NetworkX com uma API Scikit-Learn. |
| Clube de Karatê | Uma biblioteca de extensão de aprendizado de máquina não supervisionada para o NetworkX com uma API Scikit-Learn. |
| ML Workspace | All-in-One baseado na Web para aprendizado de máquina e ciência de dados. O espaço de trabalho é implantado como um contêiner do Docker e é pré -carregado com uma variedade de bibliotecas de ciências de dados populares (por exemplo, Tensorflow, Pytorch) e ferramentas de desenvolvimento (por exemplo, Jupyter, vs código) |
| Neptune.ai | A plataforma amiga da comunidade que suporta cientistas de dados na criação e compartilhamento de modelos de aprendizado de máquina. Netuno facilita o trabalho em equipe, o gerenciamento de infraestrutura, a comparação e a reprodutibilidade de modelos. |
| Steppy | Biblioteca leve e Python para experimentação rápida e reproduzível de aprendizado de máquina. Introduz interface muito simples que permite o design limpo do pipeline de aprendizado de máquina. |
| Steppy-Toolkit | A coleção com curadoria das redes neurais, transformadores e modelos que tornam seu aprendizado de máquina funcionar mais rápido e mais eficaz. |
| DataLab do Google | Explore, visualize, analise e transformam dados facilmente usando linguagens familiares, como Python e SQL, interativamente. |
| Hortonworks Sandbox | é um ambiente pessoal e portátil do Hadoop que vem com uma dúzia de tutoriais interativos do Hadoop. |
| R | é um ambiente de software livre para computação estatística e gráficos. |
| Tidyverse | é uma coleção opinativa de pacotes R projetados para ciência de dados. Todos os pacotes compartilham uma filosofia de design subjacente, gramática e estruturas de dados. |
| Rstudio | IDE - Interface de usuário poderosa para R. É gratuito e de código aberto e funciona no Windows, Mac e Linux. |
| Python - Pandas - Anaconda | Distribuição Python totalmente livre de empreendimento totalmente livre para processamento de dados em larga escala, análise preditiva e computação científica |
| PANDAS GUI | PANDAS GUI |
| Scikit-Learn | Aprendizado de máquina em python |
| Numpy | Numpy é fundamental para a computação científica com Python. Ele suporta grandes matrizes e matrizes multidimensionais e inclui uma variedade de funções matemáticas de alto nível para operar nessas matrizes. |
| Vaex | O VAEX é uma biblioteca Python que permite visualizar conjuntos de dados grandes e calcular estatísticas em alta velocidade. |
| Scipy | O Scipy trabalha com matrizes Numpy e fornece rotinas eficientes para integração e otimização numérica. |
| Data Science Toolbox | Curso Coursera |
| Data Science Toolbox | Blog |
| Plataforma de ciência de dados Wolfram | Tome Numérico, Textual, Imagem, GIS ou outros dados e forneça o tratamento Wolfram, realizando um espectro completo de análise e visualização da Ciência dos Dados e geram automaticamente relatórios interativos ricos-todos alimentados pela revolucionária linguagem Wolfram baseada no conhecimento. |
| Datadog | Soluções, código e DevOps para ciência de dados de alta escala. |
| Variação | Crie visualizações de dados poderosas para a web sem escrever JavaScript |
| Kit de desenvolvimento de pipa | O Kite Software Development Kit (Apache License, versão 2.0), ou pipa, é um conjunto de bibliotecas, ferramentas, exemplos e documentação focada em facilitar a criação de sistemas na parte superior do ecossistema Hadoop. |
| Domino Data Labs | Corra, escala, compartilhe e implante seus modelos - sem nenhuma infraestrutura ou configuração. |
| Apache Flink | Uma plataforma para processamento de dados eficientes, distribuídos e de uso geral. |
| Apache Hama | O Apache Hama é um projeto de código aberto de nível superior do Apache, permitindo que você faça análises avançadas além do MapReduce. |
| Weka | Weka é uma coleção de algoritmos de aprendizado de máquina para tarefas de mineração de dados. |
| Oitava | GNU Octave é uma linguagem interpretada de alto nível, destinada principalmente a cálculos numéricos. (MATLAB FREE) |
| Apache Spark | Computação de cluster rápida de raios |
| Hidrosfera névoa | Um serviço para expor os empregos da Apache Spark Analytics e os modelos de aprendizado de máquina como serviços da Web em tempo real, em tempo ou reativo. |
| Mecânica de dados | Uma plataforma de ciência e engenharia de dados, tornando o Apache Spark mais amigável e econômico. |
| Caffe | Estrutura de aprendizado profundo |
| Tocha | Uma estrutura de computação científica para luajit |
| Estrutura de aprendizado profundo baseado em Python de Nervana | Intel® NERVANA ™ Reference Deep Learning Framework Comprometido com o melhor desempenho em todos os hardware. |
| Skale | Processamento de dados distribuído de alto desempenho no NodeJS |
| Aerossolve | Um pacote de aprendizado de máquina construído para humanos. |
| Intel Framework | Intel® Deep Learning Framework |
| DataWrapper | Uma plataforma de visualização de dados de código aberto ajudando a todos a criar gráficos simples, corretos e incorporados. Também em github.com |
| Fluxo tensor | Tensorflow é uma biblioteca de software de código aberto para inteligência de máquina |
| Kit de ferramentas de linguagem natural | Um kit de ferramentas introdutório e poderoso para processamento e classificação de linguagem natural |
| Laboratório de anotação | Plataforma sem código de ponta a ponta gratuita para anotação de texto e treinamento/ajuste de modelo DL. Suporte pronta para uso para modelos de reconhecimento de entidade, classificação, extração de relação e status de asserção nomeados. Suporte ilimitado para usuários, equipes, projetos, documentos. |
| NLP-TOOLKIT PARA NODE.JS | Este módulo abrange alguns princípios e implementações básicos de PNL. O foco principal é o desempenho. Quando lidamos com dados de amostra ou treinamento na PNL, ficamos rapidamente sem memória. Portanto, toda implementação neste módulo é escrita como fluxo para manter apenas esses dados na memória que estão atualmente processados em qualquer etapa. |
| Julia | linguagem de programação dinâmica de alto nível e de alto desempenho para computação técnica |
| Ijulia | Um back-end em língua Julia combinada com o ambiente interativo Jupyter |
| Apache Zeppelin | Caderno baseado na Web que permite análises de dados interativas e orientadas por dados e documentos colaborativos com SQL, Scala e muito mais |
| FeatureTools | Uma estrutura de código aberto para engenharia automatizada de recursos escritos em Python |
| Optimus | Limpeza, pré-processamento, engenharia de recursos, análise de dados exploratórios e ML fácil com back-end do Pyspark. |
| Albumumentações | Uma biblioteca de aumento de imagem agnóstica rápida e estrutura que implementa um conjunto diversificado de técnicas de aumento. Suporta classificação, segmentação e detecção pronta para uso. Foi usado para ganhar várias competições de aprendizado profundo em Kaggle, Topcoder e aqueles que fizeram parte dos workshops do CVPR. |
| DVC | Um sistema de controle de versão de ciência de dados de código aberto. Ajuda a rastrear, organizar e tornar os projetos de ciência de dados reproduzíveis. Em seu cenário muito básico, ajuda a versão de versão e a compartilhar grandes dados e modelos de arquivos. |
| Lambdo | é um mecanismo de fluxo de trabalho que simplifica significativamente a análise de dados combinando em um pipeline de análise (i) Engenharia de Recursos e Aprendizado de Máquinas (II) Treinamento e previsão do modelo (III) População de tabela e avaliação de colunas. |
| Celebração | Uma loja de recursos para gerenciamento, descoberta e acesso aos recursos de aprendizado de máquina. A FEAST fornece uma visão consistente dos dados de recursos para treinamento e porção de modelos. |
| Poliaaxon | Uma plataforma para aprendizado de máquina reprodutível e escalável e aprendizado profundo. |
| LightTag | Ferramenta de anotação de texto para equipes |
| Ubiai | Ferramenta de anotação de texto fácil de usar para equipes com os recursos mais abrangentes de anulação automática. Suporta NER, Relações e Classificação de Documentos, bem como anotação de OCR para rotulagem de fatura |
| Trens | Gerente de experimentos mágicos, controle de versão e DevOps para IA |
| HopSworks | Plataforma de aprendizado de máquina com uso de dados de código aberto com uma loja de recursos. Ingar e gerenciar recursos para acesso on -line (cluster MySQL) e offline (Apache Hive), treinar e servir modelos em escala. |
| MINDSDB | O MindSDB é uma estrutura automática explicável para os desenvolvedores. Com o MINDSDB, você pode construir, treinar e usar os modelos de última geração ML em uma linha de código tão simples quanto uma linha de código. |
| Lightwood | Uma estrutura baseada em Pytorch que divide problemas de aprendizado de máquina em blocos menores que podem ser colados perfeitamente com um objetivo de criar modelos preditivos com uma linha de código. |
| AWS Data Wrangler | Um pacote Python de código aberto que estende o poder da Biblioteca Pandas à AWS conectando serviços relacionados a dados de dados e dados da AWS (Amazon Redshift, AWS Glue, Amazon Athena, Amazon EMR, etc.). |
| Amazon Rekognition | A AWS Rekognition é um serviço que permite que os desenvolvedores que trabalham com os serviços da Web da Amazon adicionem análise de imagem aos seus aplicativos. Catalogam ativos, automatizam os fluxos de trabalho e extraem significado de sua mídia e aplicativos. |
| Amazon Textract | Extraia automaticamente o texto, a caligrafia e os dados impressos de qualquer documento. |
| Amazon Lookout for Vision | Defeitos do produto Spot usando a visão computacional para automatizar a inspeção de qualidade. Identifique os componentes ausentes do produto, danos causados pelo veículo e estrutura e irregularidades para o controle abrangente da qualidade. |
| Amazon CodeGuru | Automatize as revisões de código e otimize o desempenho do aplicativo com recomendações movidas por ML. |
| CML | Um kit de ferramentas de código aberto para usar a integração contínua em projetos de ciência de dados. Treinar e testar automaticamente modelos em ambientes semelhantes à produção com ações do GitHub e Gitlab CI, e relatórios visuais autogererados sobre solicitações de tração/mesclagem. |
| Dask | Uma biblioteca Python de código aberto para fazer a transição indolor seu código de análise para sistemas de computação distribuída (big data) |
| STATSMODELS | Estatística inferencial baseada em Python, teste de hipóteses e estrutura de regressão |
| Gensim | Uma biblioteca de código aberto para modelagem de tópicos de texto de linguagem natural |
| Spacy | Um kit de ferramentas de processamento de linguagem natural de desempenho |
| Grid Studio | O Grid Studio é um aplicativo de planilha baseado na Web com total integração da linguagem de programação Python. |
| Manual de Ciência de Dados Python | Manual de Ciência de Dados Python: Texto completo em notebooks Jupyter |
| Shapley | Uma estrutura orientada a dados para quantificar o valor dos classificadores em um conjunto de aprendizado de máquina. |
| Dagshub | Uma plataforma criada em ferramentas de código aberto para gerenciamento de dados, modelo e pipeline. |
| Nota Deep | Um novo tipo de caderno de ciência de dados. Compatível com Jupyter, com colaboração em tempo real e execução na nuvem. |
| Valohai | Uma plataforma MLOPs que lida com a orquestração de máquinas, reprodutibilidade automática e implantação. |
| Pymc3 | Uma biblioteca Python para programação probabalística (inferência bayesiana e aprendizado de máquina) |
| Pystan | Interface Python para Stan (Inferência Bayesiana e Modelagem) |
| hmmlearn | Aprendizagem e inferência não supervisionadas de modelos ocultos de Markov |
| Gênio do caos | Motor de análise alimentado por ML para detecção de outlier/anomalia e análise de causa raiz |
| NimbleBox | Uma plataforma MLOPs de pilha completa projetada para ajudar os cientistas de dados e os profissionais de aprendizado de máquina em todo o mundo a descobrir, criar e lançar aplicativos de várias nuvens a partir de seu navegador da web. |
| Towhee | Uma biblioteca Python que ajuda você a codificar seus dados não estruturados em incorporação. |
| Lineapy | Já foi frustrado com a limpeza de cadernos Jupyter longos e bagunçados? Com o LineApy, uma biblioteca Python de código aberto, leva apenas duas linhas de código para transformar o código de desenvolvimento confuso em pipelines de produção. |
| Envd | "Ambiente de desenvolvimento de aprendizado de máquina para ciência de dados e equipes de engenharia de IA/ML |
| Explore Bibliotecas de Ciência de Dados | Um mecanismo de pesquisa? Ferramenta para descobrir e encontrar uma lista com curadoria de bibliotecas populares e novas, principais autores, kits de projeto de tendência, discussões, tutoriais e recursos de aprendizado |
| Mlem | ? Versão e implante seus modelos ML seguindo os princípios do Gitops |
| Mlflow | MLOPS Framework para gerenciar modelos de ML em todo o seu ciclo de vida completo |
| CleanLab | Biblioteca Python para IA centrada em dados e detectando automaticamente vários problemas nos conjuntos de dados ML |
| Autogluon | Automl para produzir facilmente previsões precisas para dados de imagem, texto, tabular, séries temporais e multimodais |
| Arize ai | Ferramenta de observabilidade de camadas da comunidade ARIZE para monitorar modelos de aprendizado de máquina em problemas de produção e raízes, como qualidade de dados e desvio de desempenho. |
| Aureo.io | Aureo.io é uma plataforma de baixo código que se concentra na construção de inteligência artificial. Ele fornece aos usuários a capacidade de criar pipelines, automações e integrá -los com modelos de inteligência artificial - todos com seus dados básicos. |
| ERD LAB | Ferramenta de diagrama de relacionamento com entidade baseada em nuvem gratuita (ERD) feita para desenvolvedores. |
| Arize-phoenix | Mlops em um caderno - Descubra insights, problemas de superfície, monitor e ajuste seus modelos. |
| Cometa | Uma plataforma MLOPs com rastreamento de experimentos, gerenciamento de produção de modelos, um registro de modelos e linhagem completa de dados para apoiar seu fluxo de trabalho ML, desde o treinamento direto até a produção. |
| Opik | Avalie, teste e envie aplicativos LLM em seus ciclos de vida dev e de produção. |
| Sintical | Ambiente colaborativo movido a IA para pesquisa. Encontre documentos relevantes, crie coleções para gerenciar bibliografia e resumir o conteúdo - tudo em um só lugar |
| Teeplot | Ferramenta de fluxo de trabalho para organizar automaticamente a saída de visualização de dados |
| Simplit | Estrutura de aplicativos para projetos de aprendizado de máquina e ciência de dados |
| Gradio | Crie componentes de interface do usuário personalizáveis em torno de modelos de aprendizado de máquina |
| Pesos e preconceitos | Rastreamento de experimentos, versão do conjunto de dados e gerenciamento de modelos |
| DVC | Sistema de controle de versão de código aberto para projetos de aprendizado de máquina |
| Optuna | Estrutura automática de software de otimização de hiperparâmetro |
| Ray Tune | Biblioteca de ajuste de hiperparâmetro escalável |
| Fluxo de ar Apache | Plataforma para autor programaticamente, agendar e monitorar fluxos de trabalho |
| Prefeito | Sistema de gerenciamento de fluxo de trabalho para pilhas de dados modernas |
| Kedro | Estrutura Python de código aberto para criar código de ciência de dados reprodutível e sustentável |
| Hamilton | Biblioteca leve para autor e gerenciar transformações de dados confiáveis |
| Shap | Abordagem teórica do jogo para explicar a saída de qualquer modelo de aprendizado de máquina |
| LIMA | Explicando as previsões de qualquer classificador de aprendizado de máquina |
| mosca | Plataforma de automação de fluxo de trabalho para aprendizado de máquina |
| DBT | Ferramenta de construção de dados |
| Shap | Abordagem teórica do jogo para explicar a saída de qualquer modelo de aprendizado de máquina |
| LIMA | Explicando as previsões de qualquer classificador de aprendizado de máquina |
^ back to top ^
Esta seção inclui alguns materiais de leitura adicionais, canais para assistir e conversas para ouvir.
^ back to top ^
eBook sale - Save up to 45% on eBooks!
Causal Machine Learning
Managing ML Projects
Causal Inference for Data Science
Data for All
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
Below are some Social Media links. Connect with other data scientists!
^ back to top ^
^ back to top ^
| Descrição | |
|---|---|
| Big Data Combine | Rapid-fire, live tryouts for data scientists seeking to monetize their models as trading strategies |
| Big Data Mania | Data Viz Wiz, Data Journalist, Growth Hacker, Author of Data Science for Dummies (2015) |
| Big Data Science | Big Data, Data Science, Predictive Modeling, Business Analytics, Hadoop, Decision and Operations Research. |
| Charlie Greenbacker | Director of Data Science at @ExploreAltamira |
| Chris Said | Data scientist at Twitter |
| Clare Corthell | Dev, Design, Data Science @mattermark #hackerei |
| DADI Charles-Abner | #datascientist @Ekimetrics. , #machinelearning #dataviz #DynamicCharts #Hadoop #R #Python #NLP #Bitcoin #dataenthousiast |
| Data Science Central | Data Science Central is the industry's single resource for Big Data practitioners. |
| Data Science London | Data Science. Big Data. Data Hacks. Data Junkies. Data Startups. Open Data |
| Data Science Renee | Documenting my path from SQL Data Analyst pursuing an Engineering Master's Degree to Data Scientist |
| Data Science Report | Mission is to help guide & advance careers in Data Science & Analytics |
| Data Science Tips | Tips and Tricks for Data Scientists around the world! #datascience #bigdata |
| Data Vizzard | DataViz, Security, Military |
| DataScienceX | |
| deeplearning4j | |
| DJ Patil | White House Data Chief, VP @ RelateIQ. |
| Domino Data Lab | |
| Drew Conway | Data nerd, hacker, student of conflict. |
| Emilio Ferrara | #Networks, #MachineLearning and #DataScience. I work on #Social Media. Postdoc at @IndianaUniv |
| Erin Bartolo | Running with #BigData--enjoying a love/hate relationship with its hype. @iSchoolSU #DataScience Program Mgr. |
| Greg Reda | Working @ GrubHub about data and pandas |
| Gregory Piatetsky | KDnuggets President, Analytics/Big Data/Data Mining/Data Science expert, KDD & SIGKDD co-founder, was Chief Scientist at 2 startups, part-time philosopher. |
| Hadley Wickham | Chief Scientist at RStudio, and an Adjunct Professor of Statistics at the University of Auckland, Stanford University, and Rice University. |
| Hakan Kardas | Data Scientist |
| Hilary Mason | Data Scientist in Residence at @accel. |
| Jeff Hammerbacher | ReTweeting about data science |
| John Myles White | Scientist at Facebook and Julia developer. Author of Machine Learning for Hackers and Bandit Algorithms for Website Optimization. Tweets reflect my views only. |
| Juan Miguel Lavista | Principal Data Scientist @ Microsoft Data Science Team |
| Julia Evans | Hacker - Pandas - Data Analyze |
| Kenneth Cukier | The Economist's Data Editor and co-author of Big Data (http://www.big-data-book.com/). |
| Kevin Davenport | Organizer of https://www.meetup.com/San-Diego-Data-Science-R-Users-Group/ |
| Kevin Markham | Data science instructor, and founder of Data School |
| Kim Rees | Interactive data visualization and tools. Data flaneur. |
| Kirk Borne | DataScientist, PhD Astrophysicist, Top #BigData Influencer. |
| Linda Regber | Data storyteller, visualizations. |
| Luis Rei | PhD Student. Programming, Mobile, Web. Artificial Intelligence, Intelligent Robotics Machine Learning, Data Mining, Natural Language Processing, Data Science. |
| Mark Stevenson | Data Analytics Recruitment Specialist at Salt (@SaltJobs) Analytics - Insight - Big Data - Data science |
| Matt Harrison | Opinions of full-stack Python guy, author, instructor, currently playing Data Scientist. Occasional fathering, husbanding, organic gardening. |
| Matthew Russell | Mining the Social Web. |
| Mert Nuhoğlu | Data Scientist at BizQualify, Developer |
| Monica Rogati | Data @ Jawbone. Turned data into stories & products at LinkedIn. Text mining, applied machine learning, recommender systems. Ex-gamer, ex-machine coder; namer. |
| Noah Iliinsky | Visualization & interaction designer. Practical cyclist. Author of vis books: https://www.oreilly.com/pub/au/4419 |
| Paul Miller | Cloud Computing/ Big Data/ Open Data Analyst & Consultant. Writer, Speaker & Moderator. Gigaom Research Analyst. |
| Peter Skomoroch | Creating intelligent systems to automate tasks & improve decisions. Entrepreneur, ex-Principal Data Scientist @LinkedIn. Machine Learning, ProductRei, Networks |
| Prash Chan | Solution Architect @ IBM, Master Data Management, Data Quality & Data Governance Blogger. Data Science, Hadoop, Big Data & Cloud. |
| Quora Data Science | Quora's data science topic |
| R-Bloggers | Tweet blog posts from the R blogosphere, data science conferences, and (!) open jobs for data scientists. |
| Rand Hindi | |
| Randy Olson | Computer scientist researching artificial intelligence. Data tinkerer. Community leader for @DataIsBeautiful. #OpenScience advocate. |
| Recep Erol | Data Science geek @ UALR |
| Ryan Orban | Data scientist, genetic origamist, hardware aficionado |
| Sean J. Taylor | Social Scientist. Hacker. Facebook Data Science Team. Keywords: Experiments, Causal Inference, Statistics, Machine Learning, Economics. |
| Silvia K. Spiva | #DataScience at Cisco |
| Harsh B. Gupta | Data Scientist at BBVA Compass |
| Spencer Nelson | Data nerd |
| Talha Oz | Enjoys ABM, SNA, DM, ML, NLP, HI, Python, Java. Top percentile Kaggler/data scientist |
| Tasos Skarlatidis | Complex Event Processing, Big Data, Artificial Intelligence and Machine Learning. Passionate about programming and open-source. |
| Terry Timko | InfoGov; Bigdata; Data as a Service; Data Science; Open, Social & Business Data Convergence |
| Tony Baer | IT analyst with Ovum covering Big Data & data management with some systems engineering thrown in. |
| Tony Ojeda | Data Scientist , Author , Entrepreneur. Co-founder @DataCommunityDC. Founder @DistrictDataLab. #DataScience #BigData #DataDC |
| Vamshi Ambati | Data Science @ PayPal. #NLP, #machinelearning; PhD, Carnegie Mellon alumni (Blog: https://allthingsds.wordpress.com ) |
| Wes McKinney | Pandas (Python Data Analysis library). |
| WileyEd | Senior Manager - @Seagate Big Data Analytics @McKinsey Alum #BigData + #Analytics Evangelist #Hadoop, #Cloud, #Digital, & #R Enthusiast |
| WNYC Data News Team | The data news crew at @WNYC. Practicing data-driven journalism, making it visual, and showing our work. |
| Alexey Grigorev | Data science author |
| İlker Arslan | Data science author. Shares mostly about Julia programming |
| INEVITÁVEL | AI & Data Science Start-up Company based in England, UK |
^ back to top ^
principal
Some data mining competition platforms
^ back to top ^
| Visualização | Descrição |
|---|---|
| Key differences of a data scientist vs. data engineer | |
| A visual guide to Becoming a Data Scientist in 8 Steps by DataCamp (img) | |
| Mindmap on required skills (img) | |
| Swami Chandrasekaran made a Curriculum via Metro map. | |
| by @kzawadz via twitter | |
| By Data Science Central | |
| Data Science Wars: R vs Python | |
| How to select statistical or machine learning techniques | |
| Choosing the Right Estimator | |
| The Data Science Industry: Who Does What | |
| Data Science | |
| Different Data Science Skills and Roles from this article by Springboard | |
| A simple and friendly way of teaching your non-data scientist/non-statistician colleagues how to avoid mistakes with data. From Geckoboard's Data Literacy Lessons. |
^ back to top ^
^ back to top ^