
Un référentiel de science des données open source pour apprendre et s'appliquer à la résolution des problèmes du monde réel.
Il s'agit d'un chemin de raccourci pour commencer à étudier la science des données . Suivez simplement les étapes pour répondre aux questions: "Qu'est-ce que la science des données et que dois-je étudier pour apprendre la science des données?"
| Parrainer | Pas |
|---|---|
| --- | Soyez le premier à parrainer! [email protected] |
^ back to top ^
La science des données est l'un des sujets les plus chauds de l'ordinateur et des terres agricoles Internet de nos jours. Les gens ont recueilli des données à partir d'applications et de systèmes jusqu'à aujourd'hui et est le moment de les analyser. Les prochaines étapes consistent à produire des suggestions à partir des données et à créer des prédictions sur l'avenir. Ici, vous pouvez trouver la plus grande question pour la science des données et des centaines de réponses d'experts.
| Lien | Prévisualisation |
|---|---|
| Qu'est-ce que la science des données @ O'Reilly | Les scientifiques des données combinent l'entrepreneuriat et la patience, la volonté de construire des produits de données progressivement, la capacité d'explorer et la capacité d'itérer une solution. Ils sont intrinsèquement interdisciplinaires. Ils peuvent s'attaquer à tous les aspects d'un problème, de la collecte initiale de données et du conditionnement des données aux conclusions de tir. Ils peuvent sortir des sentiers battus pour trouver de nouvelles façons de voir le problème ou de travailler avec des problèmes très largement définis: «Voici beaucoup de données, que pouvez-vous en faire?» |
| Qu'est-ce que Data Science @ Quora | La science des données est une combinaison d'un certain nombre d'aspects de données telles que la technologie, le développement d'algorithmes et les interférences des données pour étudier les données, les analyser et trouver des solutions innovantes à des problèmes difficiles. Fondamentalement, la science des données consiste à analyser les données et à conduire pour la croissance des entreprises en trouvant des moyens créatifs. |
| Le travail le plus sexy du 21e siècle | Les scientifiques des données s'apparentent aujourd'hui aux «quants» de Wall Street des années 80 et 1990. À cette époque, des personnes ayant des antécédents en physique et en mathématiques ont diffusé des banques d'investissement et des hedge funds, où ils pourraient concevoir des algorithmes et des stratégies de données entièrement nouveaux. Ensuite, une variété d'universités ont développé des programmes de maîtrise en génie financier, qui ont produit une deuxième génération de talents plus accessibles aux entreprises grand public. Le modèle a été répété plus tard dans les années 1990 avec des ingénieurs de recherche, dont les compétences raréfiées ont rapidement été enseignées dans des programmes d'informatique. |
| Wikipedia | La science des données est un domaine interdisciplinaire qui utilise des méthodes scientifiques, des processus, des algorithmes et des systèmes pour extraire les connaissances et les idées de nombreuses données structurelles et non structurées. La science des données est liée à l'exploration de données, à l'apprentissage automatique et aux mégadonnées. |
| Comment devenir un scientifique des données | Les scientifiques des données sont des big data, la collecte et l'analyse de grands ensembles de données structurées et non structurées. Le rôle d'un data scientifique combine l'informatique, les statistiques et les mathématiques. Ils analysent, traitent et modélisent les données, puis interprètent les résultats pour créer des plans exploitables pour les entreprises et autres organisations. |
| Une très courte histoire de #datascience | L'histoire de la façon dont les scientifiques des données sont devenus sexy est principalement l'histoire du couplage de la discipline mature des statistiques avec une science très jeune. Le terme «science des données» n'a émergé que récemment pour désigner spécifiquement une nouvelle profession qui devrait donner un sens aux vastes magasins de mégadonnées. Mais donner un sens aux données a une longue histoire et a été discutée par des scientifiques, des statisticiens, des bibliothécaires, des informaticiens et d'autres depuis des années. Le calendrier suivant retrace l'évolution du terme «science des données» et son utilisation, tente de la définir et des termes connexes. |
| Ressources de développement logiciel pour les scientifiques des données | Les scientifiques des données se concentrent sur le sens des données grâce à l'analyse exploratoire, aux statistiques et aux modèles. Les développeurs de logiciels appliquent un ensemble distinct de connaissances avec différents outils. Bien que leur objectif puisse ne sembler pas lié, les équipes de science des données peuvent bénéficier de l'adoption des meilleures pratiques de développement de logiciels. Le contrôle de la version, les tests automatisés et d'autres compétences de développement aident à créer un code et des outils reproductibles prêts pour la production. |
| Feuille de route des data scientifiques | La science des données est un excellent choix de carrière dans le monde actuel axé sur les données où environ 328,77 millions de téraoctets de données sont générés quotidiennement. Et ce nombre ne fait qu'augmenter de jour en jour, ce qui augmente à son tour la demande de scientifiques des données qualifiés qui peuvent utiliser ces données pour stimuler la croissance des entreprises. |
| Naviguer sur votre chemin pour devenir un scientifique des données | _DATA La science est l'une des carrières les plus demandées aujourd'hui. Les entreprises s'appuyant de plus en plus sur les données pour prendre des décisions, le besoin de scientifiques des données qualifiés s'est développé rapidement. Que ce soit des entreprises technologiques, des organisations de soins de santé ou même des institutions gouvernementales, les scientifiques des données jouent un rôle crucial en transformant les données brutes en informations précieuses. Mais comment devenez-vous un scientifique des données, surtout si vous débutez? _ |
^ back to top ^
Bien qu'il ne soit pas strictement nécessaire, avoir un langage de programmation est une compétence cruciale pour être efficace en tant que scientifique des données. Actuellement, le langage le plus populaire est Python , suivi de près par r . Python est un langage de script à usage général qui voit les applications dans une grande variété de domaines. R est un langage spécifique au domaine pour les statistiques, qui contient de nombreux outils statistiques courants hors de la boîte.
Python est de loin le langage le plus populaire en science, en grande partie en grande partie à la facilité à laquelle il peut être utilisé et à l'écosystème dynamique des packages générés par l'utilisateur. Pour installer des packages, il existe deux méthodes principales: PIP (invoqué en tant pip install ), le gestionnaire de packages qui est livré avec Python et Anaconda (invoqué comme conda install ), un puissant gestionnaire de packages qui peut installer des packages pour Python, R, et peut télécharger des exécutables comme Git.
Contrairement à R, Python n'a pas été construit à partir de zéro avec la science des données, mais il y a beaucoup de bibliothèques tierces pour compenser cela. Une liste de packages beaucoup plus exhaustive peut être trouvée plus tard dans ce document, mais ces quatre packages sont un bon ensemble de choix pour démarrer votre parcours de science des données avec: Scikit-Learn est un package de science des données à usage général qui implémente les algorithmes les plus populaires - il comprend également une documentation riche, des tutoriels et des exemples des modèles qu'il implémente. Même si vous préférez rédiger vos propres implémentations, Scikit-Learn est une référence précieuse aux noix et aux boules derrière de nombreux algorithmes communs que vous trouverez. Avec Pandas, on peut collecter et analyser leurs données dans un format de table pratique. Numpy fournit des outils très rapides pour les opérations mathématiques, en mettant l'accent sur les vecteurs et les matrices. SeaBorn, lui-même basé sur le package Matplotlib, est un moyen rapide de générer de belles visualisations de vos données, avec de nombreux bons défauts disponibles à l'extérieur de la boîte, ainsi qu'une galerie montrant comment produire de nombreuses visualisations communes de vos données.
Lorsque vous vous lancez dans votre voyage pour devenir un scientifique des données, le choix du langage n'est pas particulièrement important, et Python et R ont leurs avantages et leurs inconvénients. Choisissez une langue que vous aimez et consultez l'un des cours gratuits que nous avons énumérés ci-dessous!
^ back to top ^
La science des données est un outil puissant qui est utilisé dans divers domaines pour résoudre les problèmes du monde réel en extrayant des informations et des modèles à partir de données complexes.
^ back to top ^
^ back to top ^
Comment apprenez-vous la science des données? En faisant la science des données, bien sûr! D'accord, d'accord - ce n'est peut-être pas particulièrement utile lorsque vous débutez pour la première fois. Dans cette section, nous avons répertorié certaines ressources d'apprentissage, en ordre difficile du moins au plus grand engagement - des tutoriels, des cours en ligne massivement ouverts (MOOC), des programmes intensifs et des collèges.
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
Cette section est une collection de packages, d'outils, d'algorithmes et d'autres éléments utiles dans le monde de la science des données.
^ back to top ^
Ce sont des algorithmes et modèles d'apprentissage automatique et d'exploration de données vous aident à comprendre vos données et à en tirer un sens.
^ back to top ^
^ back to top ^
^ back to top ^
| Lien | Description |
|---|---|
| Le processus de cycle de vie des sciences des données | Le processus de cycle de vie des sciences des données est un processus pour faire passer les équipes de science des données de l'idée à la valeur à plusieurs reprises et durablement. Le processus est documenté dans ce repo |
| Data Science Lifecycle Template Repo | Projet de cycle de vie de la science des données |
| Rexmex | Une bibliothèque de métriques de recommandation générale pour l'évaluation équitable. |
| Chemicalx | Une bibliothèque en profondeur basée sur Pytorch pour la notation des paires de médicaments. |
| Pytorch Géométrique temporel | Représentation Apprentissage sur des graphiques dynamiques. |
| Petite boule de fourrure | Une bibliothèque d'échantillonnage de graphiques pour NetworkX avec une API Scikit-Learn. |
| Karaté | Une bibliothèque d'extension d'apprentissage automatique non supervisée pour NetworkX avec une API Scikit-Learn. |
| Espace de travail ML | IDE Web tout-en-un pour l'apprentissage automatique et la science des données. L'espace de travail est déployé comme un conteneur Docker et est préchargé avec une variété de bibliothèques de science des données populaires (par exemple, Tensorflow, Pytorch) et Dev Tools (par exemple, Jupyter, vs code) |
| Neptune.ai | Plateforme adaptée à la communauté soutenant les scientifiques des données dans la création et le partage de modèles d'apprentissage automatique. Neptune facilite le travail d'équipe, la gestion des infrastructures, la comparaison des modèles et la reproductibilité. |
| étanche | Bibliothèque python légère pour une expérimentation d'apprentissage automatique rapide et reproductible. Introduit une interface très simple qui permet une conception de pipeline d'apprentissage automatique propre. |
| tooll | Collection organisée des réseaux de neurones, transformateurs et modèles qui rendent votre apprentissage automatique plus rapide et plus efficace. |
| Datalab de Google | Explorez, visualisez, analysez et transformez facilement les données à l'aide de langages familiers, tels que Python et SQL, de manière interactive. |
| Sandbox de Hortonworks | est un environnement Hadoop personnel et portable qui vient avec une douzaine de tutoriels Hadoop interactifs. |
| R | est un environnement logiciel gratuit pour l'informatique statistique et les graphiques. |
| Bidyverse | est une collection d'opinion de packages R conçus pour la science des données. Tous les packages partagent une philosophie de conception sous-jacente, une grammaire et des structures de données. |
| Rstudio | IDE - Interface utilisateur puissante pour R. Il est gratuit et open source, et fonctionne sur Windows, Mac et Linux. |
| Python - Pandas - Anaconda | Distribution Python entièrement prête à l'entreprise pour le traitement des données à grande échelle, l'analyse prédictive et l'informatique scientifique |
| GUI PANDAS | GUI PANDAS |
| Scikit-apprend | Apprentissage automatique à Python |
| Nombant | Numpy est fondamental pour l'informatique scientifique avec Python. Il prend en charge de grands tableaux et matrices multidimensionnels et comprend un assortiment de fonctions mathématiques de haut niveau pour fonctionner sur ces tableaux. |
| Vaex | VAEX est une bibliothèque Python qui vous permet de visualiser de grands ensembles de données et de calculer les statistiques à grande vitesse. |
| Cavalier | Scipy fonctionne avec des tableaux Numpy et fournit des routines efficaces pour l'intégration et l'optimisation numériques. |
| Data Science Toolbox | Coursera Courser |
| Data Science Toolbox | Blog |
| Plateforme de science des données de Wolfram | Prenez des données numériques, textuelles, d'image, SIG ou d'autres données et donnez-lui le traitement Wolfram, effectuant un spectre complet de l'analyse et de la visualisation des sciences des données et génèrent automatiquement de riches rapports interactifs - tous alimentés par le langage Wolfram basé sur les connaissances révolutionnaires. |
| Médecin de données | Solutions, code et DevOps pour la science des données à grande échelle. |
| Variance | Créer des visualisations de données puissantes pour le Web sans écrire JavaScript |
| Kite de développement | Le kit de développement de logiciels Kite (Licence Apache, version 2.0), ou Kite For Short, est un ensemble de bibliothèques, d'outils, d'exemples et de documentation axés sur la création de systèmes plus facile en plus de l'écosystème Hadoop. |
| Domino Data Labs | Exécutez, échelle, partager et déployer vos modèles - sans aucune infrastructure ni configuration. |
| Apache Flink | Une plate-forme de traitement de données efficace, distribué et à usage général. |
| Apache Hama | Apache Hama est un projet open source de haut niveau Apache, vous permettant de faire des analyses avancées au-delà de MapReduce. |
| Weka | Weka est une collection d'algorithmes d'apprentissage automatique pour les tâches d'exploration de données. |
| Octave | GNU Octave est un langage interprété de haut niveau, principalement destiné aux calculs numériques. (Matlab libre) |
| Apache Spark | Computement de cluster rapide à la foudre |
| Brume d'hydrosphère | Un service pour exposer les emplois et les modèles d'apprentissage automatique Apache Spark en tant que services Web en temps réel, lots ou réactifs. |
| Mécanique des données | Une plate-forme de science et d'ingénierie des données rendant Apache Spark plus adapté aux développeurs et rentables. |
| Caffe | Cadre d'apprentissage en profondeur |
| Torche | Un cadre informatique scientifique pour Luajit |
| Framework d'apprentissage en profondeur basé sur le Python de Nervana | Intel® Nervana ™ Reference Deep Learning Framework engagé dans les meilleures performances sur tout le matériel. |
| Skale | Traitement de données distribué à haute performance dans NodeJS |
| Aérosolve | Un ensemble d'apprentissage automatique construit pour les humains. |
| Framework Intel | Framework Intel® Deep Learning |
| Datawrapper | Une plate-forme de visualisation de données open source aidant tout le monde à créer des graphiques simples, corrects et intégrés. Aussi sur github.com |
| Débit du tenseur | Tensorflow est une bibliothèque de logiciels open source pour l'intelligence machine |
| Boîte à outils en langue naturelle | Une boîte à outils d'introduction mais puissante pour le traitement et la classification du langage naturel |
| Laboratoire d'annotation | Plate-forme sans code de bout en bout gratuite pour l'annotation de texte et la formation / réglage du modèle DL. Prise en charge prête à l'emploi pour la reconnaissance, la classification, l'extraction des relations et l'état d'assurance des modèles NLP de la classification, de l'extraction des relations et de l'état d'assurance. Support illimité pour les utilisateurs, les équipes, les projets, les documents. |
| NLP-Toolkit pour Node.js | Ce module couvre certains principes et implémentations de base de NLP. L'objectif principal est la performance. Lorsque nous traitons des données d'échantillons ou de formation dans la PNL, nous manquons rapidement de mémoire. Par conséquent, chaque implémentation de ce module est écrite en tant que flux pour ne contenir que ces données en mémoire qui sont actuellement traitées à n'importe quelle étape. |
| Julia | Langage de programmation dynamique de haut niveau et haute performance pour l'informatique technique |
| Ijulia | Un backend de Julia en langue combinée avec l'environnement interactif Jupyter |
| Apache Zeppelin | Note à jour basé sur le Web qui permet une analyse de données interactive et interactive et des documents collaboratifs avec SQL, Scala et plus |
| Featuretools | Un cadre open source pour l'ingénierie des fonctionnalités automatisées écrite en python |
| Optimus | Nettoyage, prétraitement, ingénierie des caractéristiques, analyse des données exploratoires et ML facile avec backend Pyspark. |
| Albumentations | Une bibliothèque d'augmentation d'image agnostique rapide et framework qui implémente un ensemble diversifié de techniques d'augmentation. Prend en charge la classification, la segmentation et la détection hors de la boîte. A été utilisé pour remporter un certain nombre de compétitions d'apprentissage en profondeur à Kaggle, Topcoder et celles qui faisaient partie des ateliers CVPR. |
| DVC | Un système de contrôle de version de la science des données open source. Il aide à suivre, à organiser et à rendre les projets de science des données reproductibles. Dans son scénario très basique, il aide à contrôler la version et à partager de grandes données et des fichiers de modèle. |
| Lambdo | est un moteur de workflow qui simplifie considérablement l'analyse des données en combinant dans un pipeline d'analyse (i) l'ingénierie des caractéristiques et l'apprentissage automatique (II) la formation et la prédiction (III) Population et évaluation de la colonne. |
| Festin | Un magasin de fonctionnalités pour la gestion, la découverte et l'accès des fonctionnalités d'apprentissage automatique. Feast fournit une vue cohérente des données sur les fonctionnalités pour la formation des modèles et le service du modèle. |
| Polyaxon | Une plate-forme pour l'apprentissage automatique reproductible et évolutif et l'apprentissage en profondeur. |
| Éclair | Outil d'annotation de texte pour les équipes |
| Ubiai | Outil d'annotation de texte facile à utiliser pour les équipes avec des fonctionnalités d'auto-annulation les plus complètes. Prend en charge le NER, les relations et la classification des documents ainsi que l'annotation OCR pour l'étiquetage de la facture |
| Trains | Gestionnaire d'expérimentation automatique, Contrôle de version et DevOps pour l'IA |
| Houblon | Plateforme d'apprentissage automatique à forte intensité de données open source avec un magasin de fonctionnalités. Ingérer et gérer les fonctionnalités pour les modèles en ligne (cluster MySQL) et hors ligne (Apache Hive), entraîner et servir les modèles à grande échelle. |
| MINDSDB | MINDSDB est un framework Automl explicable pour les développeurs. Avec MindsDB, vous pouvez construire, former et utiliser des modèles de pointe de State of the Art en une seule ligne de code. |
| Bois léger | Un cadre basé sur Pytorch qui décompose les problèmes d'apprentissage automatique en blocs plus petits qui peuvent être collés ensemble de manière transparente avec un objectif pour construire des modèles prédictifs avec une ligne de code. |
| AWS Data Wrangler | Un package Python open source qui étend la puissance de la bibliothèque Pandas à AWS connectant les services liés aux données DataFrames et AWS (Amazon Redshift, AWS Glue, Amazon Athena, Amazon EMR, etc.). |
| Amazon Rekognition | AWS Rekognition est un service qui permet aux développeurs de travailler avec les services Web d'Amazon ajouter une analyse d'image à leurs applications. Catalogue des actifs, automatiser les workflows et extraire la signification de vos médias et applications. |
| Amazon textract | Extraire automatiquement du texte imprimé, de l'écriture manuscrite et des données de n'importe quel document. |
| Amazon Lookout pour la vision | Défauts de produits ponctuels utilisant la vision de l'ordinateur pour automatiser l'inspection de qualité. Identifiez les composants du produit manquant, les dommages causés par les véhicules et la structure et les irrégularités pour un contrôle de qualité complet. |
| Amazon Codeguru | Automatiser les révisions de code et optimiser les performances de l'application avec des recommandations alimentées par ML. |
| Cml | Une boîte à outils open source pour utiliser l'intégration continue dans les projets de science des données. Former et tester automatiquement les modèles dans des environnements de type production avec GitHub Actions et GitLab CI, et les rapports visuels automatiquement sur les demandes de traction / fusion. |
| Arder | Une bibliothèque Python open source pour transmettre sans douleur votre code d'analyse aux systèmes informatiques distribués (Big Data) |
| Statistiques | Un cadre inférentiel basé sur Python, les tests d'hypothèse et le cadre de régression |
| Gensim | Une bibliothèque open source pour la modélisation de sujet du texte du langage naturel |
| spality | Une boîte à outils de traitement du langage naturel performant |
| Studio de grille | Grid Studio est une application de feuille de calcul en ligne avec une intégration complète du langage de programmation Python. |
| Manuel de science des données python | Python Data Science Handbook: Texte intégral dans Jupyter Notebooks |
| Trail | Un cadre basé sur les données pour quantifier la valeur des classificateurs dans un ensemble d'apprentissage automatique. |
| Dagshub | Une plate-forme construite sur des outils open source pour la gestion des données, des modèles et des pipelines. |
| En profondeur | Un nouveau type de cahier de science des données. Jupyter-compatible, avec une collaboration en temps réel et une course dans le cloud. |
| Valohai | Une plate-forme MLOPS qui gère l'orchestration des machines, la reproductibilité automatique et le déploiement. |
| Pymc3 | Une bibliothèque Python pour la programmation probabalistique (inférence bayésienne et apprentissage automatique) |
| Pystan | Interface python à Stan (inférence bayésienne et modélisation) |
| hmmlearn | Apprentissage non surveillé et inférence des modèles de Markov cachés |
| Génie du chaos | Moteur d'analyse alimenté par ML pour la détection et l'analyse des causes profondes des valeurs aberrantes / anomalies |
| Noublement | Une plate-forme MLOPS complète conçue pour aider les scientifiques des données et les praticiens de l'apprentissage automatique du monde entier découvrent, créent et lancent des applications multi-cloud à partir de leur navigateur Web. |
| Remorquer | Une bibliothèque Python qui vous aide à coder vos données non structurées dans des intégres. |
| Lineapy | Avez-vous déjà été frustré de nettoyer longtemps et désordonné des cahiers de jupyter? Avec Lineapy, une bibliothèque Python open source, il faut aussi peu que deux lignes de code pour transformer le code de développement désordonné en pipelines de production. |
| enviser | ? ️ Environnement de développement d'apprentissage automatique pour les équipes d'ingénierie en science des données et en AI / ML |
| Explorez les bibliothèques de la science des données | Un moteur de recherche? Outil pour découvrir et trouver une liste organisée de bibliothèques populaires et nouvelles, des principaux auteurs, des kits de projet tendance, des discussions, des tutoriels et des ressources d'apprentissage |
| Mlem | ? Version et déployez vos modèles ML en suivant les principes Gitops |
| Mlflow | Framework Mlops pour gérer les modèles ML tout au long de leur cycle de vie complet |
| cleanLab | Bibliothèque Python pour l'IA centrée sur les données et détection automatiquement de divers problèmes dans les ensembles de données ML |
| Autogluon | Automl pour produire facilement des prédictions précises pour l'image, le texte, le tabulaire, les séries chronologiques et les données multimodales |
| Arize Ai | Arisez l'outil d'observabilité de niveau communautaire AI pour surveiller les modèles d'apprentissage automatique dans les problèmes de production et de caution tels que la qualité des données et la dérive des performances. |
| Aureo.io | Aureo.io est une plate-forme à faible code qui se concentre sur la construction de l'intelligence artificielle. Il offre aux utilisateurs la capacité de créer des pipelines, des automatisations et de les intégrer avec des modèles d'intelligence artificielle - le tout avec leurs données de base. |
| Laboratoire ERD | Outil gratuit du schéma de relation d'entité basée sur le cloud (ERD) conçu pour les développeurs. |
| Arizer-phoenix | Mlops dans un cahier - Découvrez les informations, les problèmes de surface, le moniteur et affinez vos modèles. |
| Comète | Une plate-forme MLOPS avec suivi des expériences, gestion de la production de modèles, registre de modèles et lignée complète de données pour soutenir votre flux de travail ML de la formation directement à la production. |
| Opik | Évaluer, tester et expédier les applications LLM dans vos cycles de vie de développement et de production. |
| Synthétique | Environnement collaboratif alimenté par AI pour la recherche. Trouvez des articles pertinents, créez des collections pour gérer la bibliographie et résumer le contenu - tout en un seul endroit |
| treuil | Outil de flux de travail pour organiser automatiquement la sortie de visualisation des données |
| Rationaliser | Framework d'applications pour l'apprentissage automatique et les projets de science des données |
| Gradio | Créer des composants d'interface utilisateur personnalisables autour des modèles d'apprentissage automatique |
| Poids et préjugés | Suivi des expériences, version de jeu de données et gestion des modèles |
| DVC | Système de contrôle de version open source pour les projets d'apprentissage automatique |
| Optuna | Framework logiciel d'optimisation hyperparamètre automatique |
| Mélodie de rayon | Bibliothèque de réglage hyperparamètre évolutif |
| Flux d'air d'Apache | Plateforme pour autoriser, planifier et surveiller les workflows programmatiques |
| Préfet | Système de gestion du flux de travail pour les piles de données modernes |
| Kedro | Framework Python open source pour créer un code de science des données reproductible et maintenable |
| Hamilton | Bibliothèque légère pour l'auteur et gérer des transformations de données fiables |
| Forage | Approche théorique du jeu pour expliquer la sortie de tout modèle d'apprentissage automatique |
| CITRON VERT | Expliquer les prédictions de tout classificateur d'apprentissage automatique |
| flyte | Plate-forme d'automatisation du flux de travail pour l'apprentissage automatique |
| dbt | Outil de construction de données |
| Forage | Approche théorique du jeu pour expliquer la sortie de tout modèle d'apprentissage automatique |
| CITRON VERT | Expliquer les prédictions de tout classificateur d'apprentissage automatique |
^ back to top ^
Cette section comprend du matériel de lecture supplémentaire, des chaînes à regarder et des discussions à écouter.
^ back to top ^
eBook sale - Save up to 45% on eBooks!
Causal Machine Learning
Managing ML Projects
Causal Inference for Data Science
Data for All
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
Below are some Social Media links. Connect with other data scientists!
^ back to top ^
^ back to top ^
| Gazouillement | Description |
|---|---|
| Big Data Combine | Rapid-fire, live tryouts for data scientists seeking to monetize their models as trading strategies |
| Big Data Mania | Data Viz Wiz, Data Journalist, Growth Hacker, Author of Data Science for Dummies (2015) |
| Big Data Science | Big Data, Data Science, Predictive Modeling, Business Analytics, Hadoop, Decision and Operations Research. |
| Charlie Greenbacker | Director of Data Science at @ExploreAltamira |
| Chris Said | Data scientist at Twitter |
| Clare Corthell | Dev, Design, Data Science @mattermark #hackerei |
| DADI Charles-Abner | #datascientist @Ekimetrics. , #machinelearning #dataviz #DynamicCharts #Hadoop #R #Python #NLP #Bitcoin #dataenthousiast |
| Data Science Central | Data Science Central is the industry's single resource for Big Data practitioners. |
| Data Science London | Data Science. Big Data. Data Hacks. Data Junkies. Data Startups. Open Data |
| Data Science Renee | Documenting my path from SQL Data Analyst pursuing an Engineering Master's Degree to Data Scientist |
| Data Science Report | Mission is to help guide & advance careers in Data Science & Analytics |
| Data Science Tips | Tips and Tricks for Data Scientists around the world! #datascience #bigdata |
| Data Vizzard | DataViz, Security, Military |
| DataScienceX | |
| deeplearning4j | |
| DJ Patil | White House Data Chief, VP @ RelateIQ. |
| Domino Data Lab | |
| Drew Conway | Data nerd, hacker, student of conflict. |
| Emilio Ferrara | #Networks, #MachineLearning and #DataScience. I work on #Social Media. Postdoc at @IndianaUniv |
| Erin Bartolo | Running with #BigData--enjoying a love/hate relationship with its hype. @iSchoolSU #DataScience Program Mgr. |
| Greg Reda | Working @ GrubHub about data and pandas |
| Gregory Piatetsky | KDnuggets President, Analytics/Big Data/Data Mining/Data Science expert, KDD & SIGKDD co-founder, was Chief Scientist at 2 startups, part-time philosopher. |
| Hadley Wickham | Chief Scientist at RStudio, and an Adjunct Professor of Statistics at the University of Auckland, Stanford University, and Rice University. |
| Hakan Kardas | Data Scientist |
| Hilary Mason | Data Scientist in Residence at @accel. |
| Jeff Hammerbacher | ReTweeting about data science |
| John Myles White | Scientist at Facebook and Julia developer. Author of Machine Learning for Hackers and Bandit Algorithms for Website Optimization. Tweets reflect my views only. |
| Juan Miguel Lavista | Principal Data Scientist @ Microsoft Data Science Team |
| Julia Evans | Hacker - Pandas - Data Analyze |
| Kenneth Cukier | The Economist's Data Editor and co-author of Big Data (http://www.big-data-book.com/). |
| Kevin Davenport | Organizer of https://www.meetup.com/San-Diego-Data-Science-R-Users-Group/ |
| Kevin Markham | Data science instructor, and founder of Data School |
| Kim Rees | Interactive data visualization and tools. Data flaneur. |
| Kirk Borne | DataScientist, PhD Astrophysicist, Top #BigData Influencer. |
| Linda Regber | Data storyteller, visualizations. |
| Luis Rei | PhD Student. Programming, Mobile, Web. Artificial Intelligence, Intelligent Robotics Machine Learning, Data Mining, Natural Language Processing, Data Science. |
| Mark Stevenson | Data Analytics Recruitment Specialist at Salt (@SaltJobs) Analytics - Insight - Big Data - Data science |
| Matt Harrison | Opinions of full-stack Python guy, author, instructor, currently playing Data Scientist. Occasional fathering, husbanding, organic gardening. |
| Matthew Russell | Mining the Social Web. |
| Mert Nuhoğlu | Data Scientist at BizQualify, Developer |
| Monica Rogati | Data @ Jawbone. Turned data into stories & products at LinkedIn. Text mining, applied machine learning, recommender systems. Ex-gamer, ex-machine coder; namer. |
| Noah Iliinsky | Visualization & interaction designer. Practical cyclist. Author of vis books: https://www.oreilly.com/pub/au/4419 |
| Paul Miller | Cloud Computing/ Big Data/ Open Data Analyst & Consultant. Writer, Speaker & Moderator. Gigaom Research Analyst. |
| Peter Skomoroch | Creating intelligent systems to automate tasks & improve decisions. Entrepreneur, ex-Principal Data Scientist @LinkedIn. Machine Learning, ProductRei, Networks |
| Prash Chan | Solution Architect @ IBM, Master Data Management, Data Quality & Data Governance Blogger. Data Science, Hadoop, Big Data & Cloud. |
| Quora Data Science | Quora's data science topic |
| R-Bloggers | Tweet blog posts from the R blogosphere, data science conferences, and (!) open jobs for data scientists. |
| Rand Hindi | |
| Randy Olson | Computer scientist researching artificial intelligence. Data tinkerer. Community leader for @DataIsBeautiful. #OpenScience advocate. |
| Recep Erol | Data Science geek @ UALR |
| Ryan Orban | Data scientist, genetic origamist, hardware aficionado |
| Sean J. Taylor | Social Scientist. Hacker. Facebook Data Science Team. Keywords: Experiments, Causal Inference, Statistics, Machine Learning, Economics. |
| Silvia K. Spiva | #DataScience at Cisco |
| Harsh B. Gupta | Data Scientist at BBVA Compass |
| Spencer Nelson | Data nerd |
| Talha Oz | Enjoys ABM, SNA, DM, ML, NLP, HI, Python, Java. Top percentile Kaggler/data scientist |
| Tasos Skarlatidis | Complex Event Processing, Big Data, Artificial Intelligence and Machine Learning. Passionate about programming and open-source. |
| Terry Timko | InfoGov; Bigdata; Data as a Service; Data Science; Open, Social & Business Data Convergence |
| Tony Baer | IT analyst with Ovum covering Big Data & data management with some systems engineering thrown in. |
| Tony Ojeda | Data Scientist , Author , Entrepreneur. Co-founder @DataCommunityDC. Founder @DistrictDataLab. #DataScience #BigData #DataDC |
| Vamshi Ambati | Data Science @ PayPal. #NLP, #machinelearning; PhD, Carnegie Mellon alumni (Blog: https://allthingsds.wordpress.com ) |
| Wes McKinney | Pandas (Python Data Analysis library). |
| WileyEd | Senior Manager - @Seagate Big Data Analytics @McKinsey Alum #BigData + #Analytics Evangelist #Hadoop, #Cloud, #Digital, & #R Enthusiast |
| WNYC Data News Team | The data news crew at @WNYC. Practicing data-driven journalism, making it visual, and showing our work. |
| Alexey Grigorev | Data science author |
| İlker Arslan | Data science author. Shares mostly about Julia programming |
| INÉVITABLE | AI & Data Science Start-up Company based in England, UK |
^ back to top ^
haut
Some data mining competition platforms
^ back to top ^
| Prévisualisation | Description |
|---|---|
| Key differences of a data scientist vs. data engineer | |
| A visual guide to Becoming a Data Scientist in 8 Steps by DataCamp (img) | |
| Mindmap on required skills (img) | |
| Swami Chandrasekaran made a Curriculum via Metro map. | |
| by @kzawadz via twitter | |
| By Data Science Central | |
| Data Science Wars: R vs Python | |
| How to select statistical or machine learning techniques | |
| Choosing the Right Estimator | |
| The Data Science Industry: Who Does What | |
| Science des données | |
| Different Data Science Skills and Roles from this article by Springboard | |
| A simple and friendly way of teaching your non-data scientist/non-statistician colleagues how to avoid mistakes with data. From Geckoboard's Data Literacy Lessons. |
^ back to top ^
^ back to top ^