Téléchargement awesome datascience - Téléchargement de code awesome datascience

Awesome Data Science

Un référentiel de science des données open source pour apprendre et s'appliquer à la résolution des problèmes du monde réel.

Il s'agit d'un chemin de raccourci pour commencer à étudier la science des données . Suivez simplement les étapes pour répondre aux questions: "Qu'est-ce que la science des données et que dois-je étudier pour apprendre la science des données?"

Parrainer	Pas
---	Soyez le premier à parrainer! `[email protected]`

Table des matières

Qu'est-ce que la science des données?
Par où commencer?
Ressources de formation
- Tutoriels
- Cours gratuits
- Cours en ligne massivement ouverts
- Programmes intensifs
- Collèges
La boîte à outils de science des données
- Algorithmes
  - Apprentissage supervisé
  - Apprentissage non surveillé
  - Apprentissage semi-supervisé
  - Apprentissage du renforcement
  - Algorithmes d'exploration de données
  - Architectures d'apprentissage en profondeur
- Packages généraux d'apprentissage automatique
- Packages d'apprentissage en profondeur
  - Écosystème de pytorch
  - Écosystème de TensorFlow
  - Écosystème de kéras
- Outils de visualisation
- Outils divers
Littérature et médias
- Livres
  - Offres de livres (affiliée)
- Revues, publications et magazines
- Newsletters
- Blogueurs
- Présentations
- Podcasts
- Vidéos et chaînes YouTube
Socialiser
- Comptes Facebook
- Comptes Twitter
- Canaux télégrammes
- Communautés moules
- Groupes GitHub
- Concours de science des données
Amusant
- Infographie
- Ensembles de données
- Bandes dessinées
Autres listes impressionnantes
- Passe-temps

Qu'est-ce que la science des données?

^ back to top ^

La science des données est l'un des sujets les plus chauds de l'ordinateur et des terres agricoles Internet de nos jours. Les gens ont recueilli des données à partir d'applications et de systèmes jusqu'à aujourd'hui et est le moment de les analyser. Les prochaines étapes consistent à produire des suggestions à partir des données et à créer des prédictions sur l'avenir. Ici, vous pouvez trouver la plus grande question pour la science des données et des centaines de réponses d'experts.

Lien	Prévisualisation
Qu'est-ce que la science des données @ O'Reilly	Les scientifiques des données combinent l'entrepreneuriat et la patience, la volonté de construire des produits de données progressivement, la capacité d'explorer et la capacité d'itérer une solution. Ils sont intrinsèquement interdisciplinaires. Ils peuvent s'attaquer à tous les aspects d'un problème, de la collecte initiale de données et du conditionnement des données aux conclusions de tir. Ils peuvent sortir des sentiers battus pour trouver de nouvelles façons de voir le problème ou de travailler avec des problèmes très largement définis: «Voici beaucoup de données, que pouvez-vous en faire?»
Qu'est-ce que Data Science @ Quora	La science des données est une combinaison d'un certain nombre d'aspects de données telles que la technologie, le développement d'algorithmes et les interférences des données pour étudier les données, les analyser et trouver des solutions innovantes à des problèmes difficiles. Fondamentalement, la science des données consiste à analyser les données et à conduire pour la croissance des entreprises en trouvant des moyens créatifs.
Le travail le plus sexy du 21e siècle	Les scientifiques des données s'apparentent aujourd'hui aux «quants» de Wall Street des années 80 et 1990. À cette époque, des personnes ayant des antécédents en physique et en mathématiques ont diffusé des banques d'investissement et des hedge funds, où ils pourraient concevoir des algorithmes et des stratégies de données entièrement nouveaux. Ensuite, une variété d'universités ont développé des programmes de maîtrise en génie financier, qui ont produit une deuxième génération de talents plus accessibles aux entreprises grand public. Le modèle a été répété plus tard dans les années 1990 avec des ingénieurs de recherche, dont les compétences raréfiées ont rapidement été enseignées dans des programmes d'informatique.
Wikipedia	La science des données est un domaine interdisciplinaire qui utilise des méthodes scientifiques, des processus, des algorithmes et des systèmes pour extraire les connaissances et les idées de nombreuses données structurelles et non structurées. La science des données est liée à l'exploration de données, à l'apprentissage automatique et aux mégadonnées.
Comment devenir un scientifique des données	Les scientifiques des données sont des big data, la collecte et l'analyse de grands ensembles de données structurées et non structurées. Le rôle d'un data scientifique combine l'informatique, les statistiques et les mathématiques. Ils analysent, traitent et modélisent les données, puis interprètent les résultats pour créer des plans exploitables pour les entreprises et autres organisations.
Une très courte histoire de #datascience	L'histoire de la façon dont les scientifiques des données sont devenus sexy est principalement l'histoire du couplage de la discipline mature des statistiques avec une science très jeune. Le terme «science des données» n'a émergé que récemment pour désigner spécifiquement une nouvelle profession qui devrait donner un sens aux vastes magasins de mégadonnées. Mais donner un sens aux données a une longue histoire et a été discutée par des scientifiques, des statisticiens, des bibliothécaires, des informaticiens et d'autres depuis des années. Le calendrier suivant retrace l'évolution du terme «science des données» et son utilisation, tente de la définir et des termes connexes.
Ressources de développement logiciel pour les scientifiques des données	Les scientifiques des données se concentrent sur le sens des données grâce à l'analyse exploratoire, aux statistiques et aux modèles. Les développeurs de logiciels appliquent un ensemble distinct de connaissances avec différents outils. Bien que leur objectif puisse ne sembler pas lié, les équipes de science des données peuvent bénéficier de l'adoption des meilleures pratiques de développement de logiciels. Le contrôle de la version, les tests automatisés et d'autres compétences de développement aident à créer un code et des outils reproductibles prêts pour la production.
Feuille de route des data scientifiques	La science des données est un excellent choix de carrière dans le monde actuel axé sur les données où environ 328,77 millions de téraoctets de données sont générés quotidiennement. Et ce nombre ne fait qu'augmenter de jour en jour, ce qui augmente à son tour la demande de scientifiques des données qualifiés qui peuvent utiliser ces données pour stimuler la croissance des entreprises.
Naviguer sur votre chemin pour devenir un scientifique des données	_DATA La science est l'une des carrières les plus demandées aujourd'hui. Les entreprises s'appuyant de plus en plus sur les données pour prendre des décisions, le besoin de scientifiques des données qualifiés s'est développé rapidement. Que ce soit des entreprises technologiques, des organisations de soins de santé ou même des institutions gouvernementales, les scientifiques des données jouent un rôle crucial en transformant les données brutes en informations précieuses. Mais comment devenez-vous un scientifique des données, surtout si vous débutez? _

Par où commencer?

^ back to top ^

Bien qu'il ne soit pas strictement nécessaire, avoir un langage de programmation est une compétence cruciale pour être efficace en tant que scientifique des données. Actuellement, le langage le plus populaire est Python , suivi de près par r . Python est un langage de script à usage général qui voit les applications dans une grande variété de domaines. R est un langage spécifique au domaine pour les statistiques, qui contient de nombreux outils statistiques courants hors de la boîte.

Python est de loin le langage le plus populaire en science, en grande partie en grande partie à la facilité à laquelle il peut être utilisé et à l'écosystème dynamique des packages générés par l'utilisateur. Pour installer des packages, il existe deux méthodes principales: PIP (invoqué en tant pip install ), le gestionnaire de packages qui est livré avec Python et Anaconda (invoqué comme conda install ), un puissant gestionnaire de packages qui peut installer des packages pour Python, R, et peut télécharger des exécutables comme Git.

Contrairement à R, Python n'a pas été construit à partir de zéro avec la science des données, mais il y a beaucoup de bibliothèques tierces pour compenser cela. Une liste de packages beaucoup plus exhaustive peut être trouvée plus tard dans ce document, mais ces quatre packages sont un bon ensemble de choix pour démarrer votre parcours de science des données avec: Scikit-Learn est un package de science des données à usage général qui implémente les algorithmes les plus populaires - il comprend également une documentation riche, des tutoriels et des exemples des modèles qu'il implémente. Même si vous préférez rédiger vos propres implémentations, Scikit-Learn est une référence précieuse aux noix et aux boules derrière de nombreux algorithmes communs que vous trouverez. Avec Pandas, on peut collecter et analyser leurs données dans un format de table pratique. Numpy fournit des outils très rapides pour les opérations mathématiques, en mettant l'accent sur les vecteurs et les matrices. SeaBorn, lui-même basé sur le package Matplotlib, est un moyen rapide de générer de belles visualisations de vos données, avec de nombreux bons défauts disponibles à l'extérieur de la boîte, ainsi qu'une galerie montrant comment produire de nombreuses visualisations communes de vos données.

Lorsque vous vous lancez dans votre voyage pour devenir un scientifique des données, le choix du langage n'est pas particulièrement important, et Python et R ont leurs avantages et leurs inconvénients. Choisissez une langue que vous aimez et consultez l'un des cours gratuits que nous avons énumérés ci-dessous!

Monde réel

^ back to top ^

La science des données est un outil puissant qui est utilisé dans divers domaines pour résoudre les problèmes du monde réel en extrayant des informations et des modèles à partir de données complexes.

Catastrophe

^ back to top ^

DegRrem-Ml Aya: Açık Yazılım Ağı (+ 25K développeurs) essaie d'aider à une réponse en cas de catastrophe en utilisant l'intelligence artificielle. Tout est open source afet.org.

Ressources de formation

^ back to top ^

Comment apprenez-vous la science des données? En faisant la science des données, bien sûr! D'accord, d'accord - ce n'est peut-être pas particulièrement utile lorsque vous débutez pour la première fois. Dans cette section, nous avons répertorié certaines ressources d'apprentissage, en ordre difficile du moins au plus grand engagement - des tutoriels, des cours en ligne massivement ouverts (MOOC), des programmes intensifs et des collèges.

Tutoriels

^ back to top ^

1000 projets de science des données Vous pouvez exécuter sur le navigateur avec Ipython.
#tidytuesday Un projet de données hebdomadaire destiné à l'écosystème R.
Science des données à votre façon
Pyspark Cheatheet
Apprentissage automatique, science des données et apprentissage en profondeur avec Python
Comment étiqueter les données
Votre guide de l'allocation latente Dirichlet
Plus de 1000 cours en ligne de science des données sur le moteur de recherche en ligne Classpert
Tutoriels du code source du livre Algorithmes génétiques avec Python par Clinton Sheppard
Tutoriels pour commencer le traitement du signal pour l'apprentissage automatique
Tutoriel de déploiement en temps réel sur le déploiement du modèle de séries chronologiques Python.
Python pour la science des données: un guide du débutant
Plan d'étude minimum viable pour les entretiens d'apprentissage automatique
Comprendre et connaître l'ingénierie de l'apprentissage automatique en construisant des projets solides
12 Projets de science des données gratuites pour pratiquer Python et Pandas
Meilleur CV / CV pour les recrues en science des données
Comprendre le cours de science des données à Java
Questions d'entrevue d'analyse des données (débutant à avancé)
Top 100+ Questions et réponses d'entrevue en science des données

Cours gratuits

^ back to top ^

Data Scientist avec R
Data Scientist avec Python
Algorithmes génétiques Cours OCW
Feuille de route experte AI - Feuille de route pour devenir un expert en intelligence artificielle
Optimisation convexe - Optimisation convexe (base de l'analyse convexe; moindres carrés, programmes linéaires et quadratiques, programmation semi-fini, minimax, volume extrêle et autres problèmes; conditions d'optimalité, théorie de la dualité ...)
SkillCombo - Science des données - 1000+ Cours de science des données en ligne gratuites
Apprentissage des données - Introduction à l'apprentissage automatique couvrant la théorie, les algorithmes et les applications de base
Kaggle - Découvrez la science des données, l'apprentissage automatique, Python, etc.
Fondamentaux de l'observabilité ML - Apprenez à surveiller et à la production de causes profondes ML Production.
Poids et biais Mlops efficaces: Développement du modèle - Cours gratuit et certification pour construire une machine de bout en bout à l'aide de W&B
Python pour l'apprentissage automatique - commencez votre voyage vers l'apprentissage automatique avec Python, l'un des langages de programmation les plus puissants.
Python pour la science des données par Scalmer - Ce cours est conçu pour autonomiser les débutants avec les compétences essentielles pour exceller dans le monde actuel axé sur les données. Le programme complet vous donnera une base solide dans les statistiques, la programmation, la visualisation des données et l'apprentissage automatique.
MLSYS-NYU-2022 - Diapositives, scripts et matériel pour le cours Machine Learning in Finance à NYU Tandon, 2022.
Train pratique et déploiement ML - un cours pratique pour former et déployer une API sans serveur qui prédit les prix de la cryptographie.
LLMOPS: Création d'applications du monde réel avec des modèles de grands langues - Apprenez à créer des logiciels modernes avec des LLM en utilisant les nouveaux outils et techniques dans le domaine.
Ingénierie rapide pour les modèles de vision - Apprenez à prompter des modèles de vision informatique de pointe avec un langage naturel, des points de coordonnées, des boîtes de délimitation, des masques de segmentation et même d'autres images dans ce cours gratuit de Deeplearning.ai.
Cours de science des données par IBM - Ressources gratuites et apprenez ce qu'est la science des données et comment elles sont utilisées dans différentes industries.

MOOC

^ back to top ^

Coursera Introduction à la science des données
Science des données - 9 étapes Cours, une spécialisation sur Coursera
Exploration de données - 5 étapes cours, une spécialisation sur Coursera
Apprentissage automatique - Cours de 5 étapes, une spécialisation sur Coursera
CS 109 Science des données
OpenIntro
Visualisation CS 171
Minage de processus: science des données en action
Oxford Deep Learning
Oxford Deep Learning - Vidéo
Oxford Machine Learning
Apprentissage automatique UBC - vidéo
Spécialisation de la science des données
Coursera Big Data Specialisation
Pensée statistique pour la science et l'analyse des données par EDX
Classe cognitive AI par IBM
Udacity - apprentissage en profondeur
Keras en mouvement
Programme professionnel Microsoft pour la science des données
COMP3222 / COMP6246 - technologies d'apprentissage automatique
CS 231 - Réseaux de neurones convolutionnels pour la reconnaissance visuelle
Coursera Tensorflow dans la pratique
Coursera Deep Learning Specialisation
365 Data Science Course
Coursera Spécialisation de traitement du langage naturel
Spécialisation de Coursera Gan
La science des données de Codecademy
Algèbre linéaire - Cours d'algèbre linéaire par Gilbert Strang
Une vision 2020 de l'algèbre linéaire (G. Strang)
Python for Data Science Foundation Course
Science des données: statistiques et apprentissage automatique
Génie de l'apprentissage automatique pour la production (MOPL)
La spécialisation des systèmes de recommandation de l'Université du Minnesota est une spécialisation de niveau intermédiaire / avancé axée sur le système de recommandation sur la plate-forme Coursera.
Programme professionnel de l'intelligence artificielle de Stanford
Data Scientist avec Python
Programmation avec Julia
Programme de science des données et d'apprentissage de l'échelle
Arbre de compétences en science des données
Science des données pour les débutants - Apprenez avec un tuteur AI
Apprentissage automatique pour les débutants - Apprenez avec un tuteur AI

Programmes intensifs

^ back to top ^

S2DS

Collèges

^ back to top ^

Une liste des collèges et universités offrant des diplômes en science des données.
Data Science Degree @ Berkeley
Data Science Degree @ UVA
Data Science Degree @ Wisconsin
BS en science des données et applications
MS dans les systèmes d'information informatique à l'Université de Boston
MS dans Business Analytics @ ASU en ligne
MS dans la science des données appliquée @ syracuse
MS Management & Data Science @ Leuphana
Master of Data Science @ Melbourne University
MSC en science des données @ Université d'Édimbourg
Master of Management Analytics @ Queen's University
Master of Data Science @ Illinois Institute of Technology
Master of Applied Data Science @ Université du Michigan
Master Data Science and Artificial Intelligence @ Eindhoven University of Technology
Master en science des données et génie informatique @ Université de Grenade

La boîte à outils de science des données

^ back to top ^

Cette section est une collection de packages, d'outils, d'algorithmes et d'autres éléments utiles dans le monde de la science des données.

Algorithmes

^ back to top ^

Ce sont des algorithmes et modèles d'apprentissage automatique et d'exploration de données vous aident à comprendre vos données et à en tirer un sens.

Trois types de systèmes d'apprentissage automatique

Basé sur la formation avec la supervision humaine
Basé sur l'apprentissage progressivement sur la mouche
Basé sur la comparaison des points de données et la détection de motifs

Comparaison

DataCompy - DataCompy est un package pour comparer deux Pandas DataFrames.

Apprentissage supervisé

Régression
Régression linéaire
Les moindres carrés ordinaires
Régression logistique
Régression par étapes
Splines de régression adaptative multivariée
Régression softmax
Lissage de la boîte de dispersion estimée localement
Classification
- voisin k-nearest
- Machines vectorielles de support
- Arbres de décision
- Algorithme ID3
- Algorithme C4.5
Apprentissage d'ensemble
- Renforcement
- Empilement
- Engage
- Forêt aléatoire
- Adaboost

Apprentissage non surveillé

Regroupement
- Clustering hiérologique
- k-means
- Regroupement basé sur la densité
- Regroupement flou
- Modèles de mélange
Réduction des dimensions
- Analyse des composants principaux (PCA)
- t-sne; Conseil stochastique distribué en T
- Analyse factorielle
- Allocation latente Dirichlet (LDA)
Réseaux neuronaux
Carte d'auto-organisation
Théorie de la résonance adaptative
Modèles de Markov cachés (HMM)

Apprentissage semi-supervisé

S3VM
Regroupement
Modèles génératifs
Séparation de basse densité
Régularisation laplacienne
Approches heuristiques

Apprentissage du renforcement

Q Apprentissage
Algorithme SARSA (État-action-récompense-action)
Apprentissage de la différence temporelle

Algorithmes d'exploration de données

C4.5
k-means
SVM (support Vector Machine)
Abriri.
EM (attente-maximisation)
Pagerank
Adaboost
KNN (K-nearest voisins)
Bayes naïf
Chariot (arbres de classification et de régression)

Architectures d'apprentissage en profondeur

Perceptron multicouche
Réseau neuronal convolutionnel (CNN)
Réseau neuronal récurrent (RNN)
Machines Boltzmann
Autoencodeur
Réseau adversaire génératif (GAN)
Cartes auto-organisées
Transformateur
Champ aléatoire conditionnel (CRF)
Conceptions du système ML)

Packages généraux d'apprentissage automatique

^ back to top ^

scikit-apprend
Scikit-Multilearn
sklearn-expertsys
scikit-feature
Scikit-Rebate
seqlearn
sklearn-bayes
sklearn-crfsuite
sklearn-deap
sigopt_sklearn
sklearn-évaluation
scikit-image
scikit-opt
scikit-posthocs
pystruct
Chagrin
xlearn
cuml
causalml
mlpack
Mlxtend
modal
Apparition à Sparkit
hyperléraire
dlib
imodel
Règle
pygam
Profondeur
scikit-survie
interprétable
Xgboost
LightGBM
Catboost
Jax

Packages d'apprentissage en profondeur

Écosystème de pytorch

Pytorch
torchion
torch
torch audio
enflammer
Pytorchnet
Pytoune
faire un skorch
Pyvarinf
pytorch_geometric
Gpytorch
pyro
Catalyseur
pytorch_tabular
Yolov3
Yolov5
Yolov8

Écosystème de TensorFlow

Tensorflow
Tensorlayer
Tflearn
Sonnet
tensorpack
Trfl
Polyaxon
Neuf
tfdeploy
Tensorflow-upstream
Pli de tensorflow
tensorlm
Tensorlight
Tensorflow
Ludwig
Agents TF
Tensorforce

Écosystème de kéras

Kéras
Keras-Contrib
Hyperas
Éléphas
Héra
Spektral
Qkeras
keras-rl
Talos

Outils de visualisation

^ back to top ^

altair
adjoint
amacharts
anychart
bokeh
Comète
slemma
cartodb
Cube
d3plus
Documents basés sur les données (D3J)
dygraphes
Échartes
exposition
géphi
ggplot2
Colle
Galerie Google Chart
charcuterie
import.io
jqplot
Matplotlib
nvd3
Netron
OpenRefine
tracer.ly
brut
Resseract Lite
Marin
techanjs
Chronologie
variancecharts
vida
vizzu
Cow-boy
r2d3
NetworkX
Redash
C3
Tensorwatch
géomap
Tiret

Outils divers

^ back to top ^

Lien	Description
Le processus de cycle de vie des sciences des données	Le processus de cycle de vie des sciences des données est un processus pour faire passer les équipes de science des données de l'idée à la valeur à plusieurs reprises et durablement. Le processus est documenté dans ce repo
Data Science Lifecycle Template Repo	Projet de cycle de vie de la science des données
Rexmex	Une bibliothèque de métriques de recommandation générale pour l'évaluation équitable.
Chemicalx	Une bibliothèque en profondeur basée sur Pytorch pour la notation des paires de médicaments.
Pytorch Géométrique temporel	Représentation Apprentissage sur des graphiques dynamiques.
Petite boule de fourrure	Une bibliothèque d'échantillonnage de graphiques pour NetworkX avec une API Scikit-Learn.
Karaté	Une bibliothèque d'extension d'apprentissage automatique non supervisée pour NetworkX avec une API Scikit-Learn.
Espace de travail ML	IDE Web tout-en-un pour l'apprentissage automatique et la science des données. L'espace de travail est déployé comme un conteneur Docker et est préchargé avec une variété de bibliothèques de science des données populaires (par exemple, Tensorflow, Pytorch) et Dev Tools (par exemple, Jupyter, vs code)
Neptune.ai	Plateforme adaptée à la communauté soutenant les scientifiques des données dans la création et le partage de modèles d'apprentissage automatique. Neptune facilite le travail d'équipe, la gestion des infrastructures, la comparaison des modèles et la reproductibilité.
étanche	Bibliothèque python légère pour une expérimentation d'apprentissage automatique rapide et reproductible. Introduit une interface très simple qui permet une conception de pipeline d'apprentissage automatique propre.
tooll	Collection organisée des réseaux de neurones, transformateurs et modèles qui rendent votre apprentissage automatique plus rapide et plus efficace.
Datalab de Google	Explorez, visualisez, analysez et transformez facilement les données à l'aide de langages familiers, tels que Python et SQL, de manière interactive.
Sandbox de Hortonworks	est un environnement Hadoop personnel et portable qui vient avec une douzaine de tutoriels Hadoop interactifs.
R	est un environnement logiciel gratuit pour l'informatique statistique et les graphiques.
Bidyverse	est une collection d'opinion de packages R conçus pour la science des données. Tous les packages partagent une philosophie de conception sous-jacente, une grammaire et des structures de données.
Rstudio	IDE - Interface utilisateur puissante pour R. Il est gratuit et open source, et fonctionne sur Windows, Mac et Linux.
Python - Pandas - Anaconda	Distribution Python entièrement prête à l'entreprise pour le traitement des données à grande échelle, l'analyse prédictive et l'informatique scientifique
GUI PANDAS	GUI PANDAS
Scikit-apprend	Apprentissage automatique à Python
Nombant	Numpy est fondamental pour l'informatique scientifique avec Python. Il prend en charge de grands tableaux et matrices multidimensionnels et comprend un assortiment de fonctions mathématiques de haut niveau pour fonctionner sur ces tableaux.
Vaex	VAEX est une bibliothèque Python qui vous permet de visualiser de grands ensembles de données et de calculer les statistiques à grande vitesse.
Cavalier	Scipy fonctionne avec des tableaux Numpy et fournit des routines efficaces pour l'intégration et l'optimisation numériques.
Data Science Toolbox	Coursera Courser
Data Science Toolbox	Blog
Plateforme de science des données de Wolfram	Prenez des données numériques, textuelles, d'image, SIG ou d'autres données et donnez-lui le traitement Wolfram, effectuant un spectre complet de l'analyse et de la visualisation des sciences des données et génèrent automatiquement de riches rapports interactifs - tous alimentés par le langage Wolfram basé sur les connaissances révolutionnaires.
Médecin de données	Solutions, code et DevOps pour la science des données à grande échelle.
Variance	Créer des visualisations de données puissantes pour le Web sans écrire JavaScript
Kite de développement	Le kit de développement de logiciels Kite (Licence Apache, version 2.0), ou Kite For Short, est un ensemble de bibliothèques, d'outils, d'exemples et de documentation axés sur la création de systèmes plus facile en plus de l'écosystème Hadoop.
Domino Data Labs	Exécutez, échelle, partager et déployer vos modèles - sans aucune infrastructure ni configuration.
Apache Flink	Une plate-forme de traitement de données efficace, distribué et à usage général.
Apache Hama	Apache Hama est un projet open source de haut niveau Apache, vous permettant de faire des analyses avancées au-delà de MapReduce.
Weka	Weka est une collection d'algorithmes d'apprentissage automatique pour les tâches d'exploration de données.
Octave	GNU Octave est un langage interprété de haut niveau, principalement destiné aux calculs numériques. (Matlab libre)
Apache Spark	Computement de cluster rapide à la foudre
Brume d'hydrosphère	Un service pour exposer les emplois et les modèles d'apprentissage automatique Apache Spark en tant que services Web en temps réel, lots ou réactifs.
Mécanique des données	Une plate-forme de science et d'ingénierie des données rendant Apache Spark plus adapté aux développeurs et rentables.
Caffe	Cadre d'apprentissage en profondeur
Torche	Un cadre informatique scientifique pour Luajit
Framework d'apprentissage en profondeur basé sur le Python de Nervana	Intel® Nervana ™ Reference Deep Learning Framework engagé dans les meilleures performances sur tout le matériel.
Skale	Traitement de données distribué à haute performance dans NodeJS
Aérosolve	Un ensemble d'apprentissage automatique construit pour les humains.
Framework Intel	Framework Intel® Deep Learning
Datawrapper	Une plate-forme de visualisation de données open source aidant tout le monde à créer des graphiques simples, corrects et intégrés. Aussi sur github.com
Débit du tenseur	Tensorflow est une bibliothèque de logiciels open source pour l'intelligence machine
Boîte à outils en langue naturelle	Une boîte à outils d'introduction mais puissante pour le traitement et la classification du langage naturel
Laboratoire d'annotation	Plate-forme sans code de bout en bout gratuite pour l'annotation de texte et la formation / réglage du modèle DL. Prise en charge prête à l'emploi pour la reconnaissance, la classification, l'extraction des relations et l'état d'assurance des modèles NLP de la classification, de l'extraction des relations et de l'état d'assurance. Support illimité pour les utilisateurs, les équipes, les projets, les documents.
NLP-Toolkit pour Node.js	Ce module couvre certains principes et implémentations de base de NLP. L'objectif principal est la performance. Lorsque nous traitons des données d'échantillons ou de formation dans la PNL, nous manquons rapidement de mémoire. Par conséquent, chaque implémentation de ce module est écrite en tant que flux pour ne contenir que ces données en mémoire qui sont actuellement traitées à n'importe quelle étape.
Julia	Langage de programmation dynamique de haut niveau et haute performance pour l'informatique technique
Ijulia	Un backend de Julia en langue combinée avec l'environnement interactif Jupyter
Apache Zeppelin	Note à jour basé sur le Web qui permet une analyse de données interactive et interactive et des documents collaboratifs avec SQL, Scala et plus
Featuretools	Un cadre open source pour l'ingénierie des fonctionnalités automatisées écrite en python
Optimus	Nettoyage, prétraitement, ingénierie des caractéristiques, analyse des données exploratoires et ML facile avec backend Pyspark.
Albumentations	Une bibliothèque d'augmentation d'image agnostique rapide et framework qui implémente un ensemble diversifié de techniques d'augmentation. Prend en charge la classification, la segmentation et la détection hors de la boîte. A été utilisé pour remporter un certain nombre de compétitions d'apprentissage en profondeur à Kaggle, Topcoder et celles qui faisaient partie des ateliers CVPR.
DVC	Un système de contrôle de version de la science des données open source. Il aide à suivre, à organiser et à rendre les projets de science des données reproductibles. Dans son scénario très basique, il aide à contrôler la version et à partager de grandes données et des fichiers de modèle.
Lambdo	est un moteur de workflow qui simplifie considérablement l'analyse des données en combinant dans un pipeline d'analyse (i) l'ingénierie des caractéristiques et l'apprentissage automatique (II) la formation et la prédiction (III) Population et évaluation de la colonne.
Festin	Un magasin de fonctionnalités pour la gestion, la découverte et l'accès des fonctionnalités d'apprentissage automatique. Feast fournit une vue cohérente des données sur les fonctionnalités pour la formation des modèles et le service du modèle.
Polyaxon	Une plate-forme pour l'apprentissage automatique reproductible et évolutif et l'apprentissage en profondeur.
Éclair	Outil d'annotation de texte pour les équipes
Ubiai	Outil d'annotation de texte facile à utiliser pour les équipes avec des fonctionnalités d'auto-annulation les plus complètes. Prend en charge le NER, les relations et la classification des documents ainsi que l'annotation OCR pour l'étiquetage de la facture
Trains	Gestionnaire d'expérimentation automatique, Contrôle de version et DevOps pour l'IA
Houblon	Plateforme d'apprentissage automatique à forte intensité de données open source avec un magasin de fonctionnalités. Ingérer et gérer les fonctionnalités pour les modèles en ligne (cluster MySQL) et hors ligne (Apache Hive), entraîner et servir les modèles à grande échelle.
MINDSDB	MINDSDB est un framework Automl explicable pour les développeurs. Avec MindsDB, vous pouvez construire, former et utiliser des modèles de pointe de State of the Art en une seule ligne de code.
Bois léger	Un cadre basé sur Pytorch qui décompose les problèmes d'apprentissage automatique en blocs plus petits qui peuvent être collés ensemble de manière transparente avec un objectif pour construire des modèles prédictifs avec une ligne de code.
AWS Data Wrangler	Un package Python open source qui étend la puissance de la bibliothèque Pandas à AWS connectant les services liés aux données DataFrames et AWS (Amazon Redshift, AWS Glue, Amazon Athena, Amazon EMR, etc.).
Amazon Rekognition	AWS Rekognition est un service qui permet aux développeurs de travailler avec les services Web d'Amazon ajouter une analyse d'image à leurs applications. Catalogue des actifs, automatiser les workflows et extraire la signification de vos médias et applications.
Amazon textract	Extraire automatiquement du texte imprimé, de l'écriture manuscrite et des données de n'importe quel document.
Amazon Lookout pour la vision	Défauts de produits ponctuels utilisant la vision de l'ordinateur pour automatiser l'inspection de qualité. Identifiez les composants du produit manquant, les dommages causés par les véhicules et la structure et les irrégularités pour un contrôle de qualité complet.
Amazon Codeguru	Automatiser les révisions de code et optimiser les performances de l'application avec des recommandations alimentées par ML.
Cml	Une boîte à outils open source pour utiliser l'intégration continue dans les projets de science des données. Former et tester automatiquement les modèles dans des environnements de type production avec GitHub Actions et GitLab CI, et les rapports visuels automatiquement sur les demandes de traction / fusion.
Arder	Une bibliothèque Python open source pour transmettre sans douleur votre code d'analyse aux systèmes informatiques distribués (Big Data)
Statistiques	Un cadre inférentiel basé sur Python, les tests d'hypothèse et le cadre de régression
Gensim	Une bibliothèque open source pour la modélisation de sujet du texte du langage naturel
spality	Une boîte à outils de traitement du langage naturel performant
Studio de grille	Grid Studio est une application de feuille de calcul en ligne avec une intégration complète du langage de programmation Python.
Manuel de science des données python	Python Data Science Handbook: Texte intégral dans Jupyter Notebooks
Trail	Un cadre basé sur les données pour quantifier la valeur des classificateurs dans un ensemble d'apprentissage automatique.
Dagshub	Une plate-forme construite sur des outils open source pour la gestion des données, des modèles et des pipelines.
En profondeur	Un nouveau type de cahier de science des données. Jupyter-compatible, avec une collaboration en temps réel et une course dans le cloud.
Valohai	Une plate-forme MLOPS qui gère l'orchestration des machines, la reproductibilité automatique et le déploiement.
Pymc3	Une bibliothèque Python pour la programmation probabalistique (inférence bayésienne et apprentissage automatique)
Pystan	Interface python à Stan (inférence bayésienne et modélisation)
hmmlearn	Apprentissage non surveillé et inférence des modèles de Markov cachés
Génie du chaos	Moteur d'analyse alimenté par ML pour la détection et l'analyse des causes profondes des valeurs aberrantes / anomalies
Noublement	Une plate-forme MLOPS complète conçue pour aider les scientifiques des données et les praticiens de l'apprentissage automatique du monde entier découvrent, créent et lancent des applications multi-cloud à partir de leur navigateur Web.
Remorquer	Une bibliothèque Python qui vous aide à coder vos données non structurées dans des intégres.
Lineapy	Avez-vous déjà été frustré de nettoyer longtemps et désordonné des cahiers de jupyter? Avec Lineapy, une bibliothèque Python open source, il faut aussi peu que deux lignes de code pour transformer le code de développement désordonné en pipelines de production.
enviser	? ️ Environnement de développement d'apprentissage automatique pour les équipes d'ingénierie en science des données et en AI / ML
Explorez les bibliothèques de la science des données	Un moteur de recherche? Outil pour découvrir et trouver une liste organisée de bibliothèques populaires et nouvelles, des principaux auteurs, des kits de projet tendance, des discussions, des tutoriels et des ressources d'apprentissage
Mlem	? Version et déployez vos modèles ML en suivant les principes Gitops
Mlflow	Framework Mlops pour gérer les modèles ML tout au long de leur cycle de vie complet
cleanLab	Bibliothèque Python pour l'IA centrée sur les données et détection automatiquement de divers problèmes dans les ensembles de données ML
Autogluon	Automl pour produire facilement des prédictions précises pour l'image, le texte, le tabulaire, les séries chronologiques et les données multimodales
Arize Ai	Arisez l'outil d'observabilité de niveau communautaire AI pour surveiller les modèles d'apprentissage automatique dans les problèmes de production et de caution tels que la qualité des données et la dérive des performances.
Aureo.io	Aureo.io est une plate-forme à faible code qui se concentre sur la construction de l'intelligence artificielle. Il offre aux utilisateurs la capacité de créer des pipelines, des automatisations et de les intégrer avec des modèles d'intelligence artificielle - le tout avec leurs données de base.
Laboratoire ERD	Outil gratuit du schéma de relation d'entité basée sur le cloud (ERD) conçu pour les développeurs.
Arizer-phoenix	Mlops dans un cahier - Découvrez les informations, les problèmes de surface, le moniteur et affinez vos modèles.
Comète	Une plate-forme MLOPS avec suivi des expériences, gestion de la production de modèles, registre de modèles et lignée complète de données pour soutenir votre flux de travail ML de la formation directement à la production.
Opik	Évaluer, tester et expédier les applications LLM dans vos cycles de vie de développement et de production.
Synthétique	Environnement collaboratif alimenté par AI pour la recherche. Trouvez des articles pertinents, créez des collections pour gérer la bibliographie et résumer le contenu - tout en un seul endroit
treuil	Outil de flux de travail pour organiser automatiquement la sortie de visualisation des données
Rationaliser	Framework d'applications pour l'apprentissage automatique et les projets de science des données
Gradio	Créer des composants d'interface utilisateur personnalisables autour des modèles d'apprentissage automatique
Poids et préjugés	Suivi des expériences, version de jeu de données et gestion des modèles
DVC	Système de contrôle de version open source pour les projets d'apprentissage automatique
Optuna	Framework logiciel d'optimisation hyperparamètre automatique
Mélodie de rayon	Bibliothèque de réglage hyperparamètre évolutif
Flux d'air d'Apache	Plateforme pour autoriser, planifier et surveiller les workflows programmatiques
Préfet	Système de gestion du flux de travail pour les piles de données modernes
Kedro	Framework Python open source pour créer un code de science des données reproductible et maintenable
Hamilton	Bibliothèque légère pour l'auteur et gérer des transformations de données fiables
Forage	Approche théorique du jeu pour expliquer la sortie de tout modèle d'apprentissage automatique
CITRON VERT	Expliquer les prédictions de tout classificateur d'apprentissage automatique
flyte	Plate-forme d'automatisation du flux de travail pour l'apprentissage automatique
dbt	Outil de construction de données
Forage	Approche théorique du jeu pour expliquer la sortie de tout modèle d'apprentissage automatique
CITRON VERT	Expliquer les prédictions de tout classificateur d'apprentissage automatique

Littérature et médias

^ back to top ^

Cette section comprend du matériel de lecture supplémentaire, des chaînes à regarder et des discussions à écouter.

Livres

^ back to top ^

Science des données à partir de zéro: premiers principes avec python
Intelligence artificielle avec Python - TutorialSpoint
Apprentissage automatique de zéro
Apprentissage automatique probabiliste: une introduction
Un guide complet de l'apprentissage automatique
Comment diriger dans la science des données - Accès précoce
Combattre le désabonnement avec les données
Science des données à grande échelle avec Python et Dask
Manuel de science des données python
Le manuel de la science des données: conseils et idées de 25 scientifiques des données incroyables
Pensez comme un scientifique des données
Introducing Data Science
Practical Data Science with R
Everyday Data Science & (cheaper PDF version)
Exploring Data Science - free eBook sampler
Exploring the Data Jungle - free eBook sampler
Classic Computer Science Problems in Python
Math for Programmers Early access
R in Action, Third Edition Early Access
Data Science Bookcamp Early access
Data Science Thinking: The Next Scientific, Technological and Economic Revolution
Applied Data Science: Lessons Learned for the Data-Driven Business
The Data Science Handbook
Essential Natural Language Processing - Early access
Mining Massive Datasets - free e-book comprehended by an online course
Pandas in Action - Early access
Genetic Algorithms and Genetic Programming
Advances in Evolutionary Algorithms - Free Download
Genetic Programming: New Approaches and Successful Applications - Free Download
Evolutionary Algorithms - Free Download
Advances in Genetic Programming, Vol. 3 - Free Download
Global Optimization Algorithms: Theory and Application - Free Download
Genetic Algorithms and Evolutionary Computation - Free Download
Convex Optimization - Convex Optimization book by Stephen Boyd - Free Download
Data Analysis with Python and PySpark - Early Access
R for Data Science
Build a Career in Data Science
Machine Learning Bookcamp - Early access
Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition
Effective Data Science Infrastructure
Practical MLOps: How to Get Ready for Production Models
Data Analysis with Python and PySpark
Regression, a Friendly guide - Early Access
Streaming Systems: The What, Where, When, and How of Large-Scale Data Processing
Data Science at the Command Line: Facing the Future with Time-Tested Tools
Machine Learning - CIn UFPE
Machine Learning with Python - Tutorialspoint
Apprentissage en profondeur
Designing Cloud Data Platforms - Early Access
An Introduction to Statistical Learning with Applications in R
The Elements of Statistical Learning: Data Mining, Inference, and Prediction
Deep Learning with PyTorch
Neural Networks and Deep Learning
Deep Learning Cookbook
Introduction to Machine Learning with Python
Artificial Intelligence: Foundations of Computational Agents, 2nd Edition - Free HTML version
The Quest for Artificial Intelligence: A History of Ideas and Achievements - Free Download
Graph Algorithms for Data Science - Early Access
Data Mesh in Action - Early Access
Julia for Data Analysis - Early Access
Casual Inference for Data Science - Early Access
Regular Expression Puzzles and AI Coding Assistants by David Mertz
Dive into Deep Learning
Data for All
Interpretable Machine Learning: A Guide for Making Black Box Models Explainable - Free GitHub version
Foundations of Data Science Free Download
Comet for DataScience: Enhance your ability to manage and optimize the life cycle of your data science project
Software Engineering for Data Scientists - Early Access
Julia for Data Science - Early Access
An Introduction to Statistical Learning - Download Page
Machine Learning For Absolute Beginners
Unifying Business, Data, and Code: Designing Data Products with JSON Schema

Book Deals (Affiliated) ?

eBook sale - Save up to 45% on eBooks!
Causal Machine Learning
Managing ML Projects
Causal Inference for Data Science
Data for All

Journals, Publications and Magazines

^ back to top ^

ICML - International Conference on Machine Learning
GECCO - The Genetic and Evolutionary Computation Conference (GECCO)
epjdatascience
Journal of Data Science - an international journal devoted to applications of statistical methods at large
Big Data Research
Journal of Big Data
Big Data & Society
Data Science Journal
datatau.com/news - Like Hacker News, but for data
Data Science Trello Board
Medium Data Science Topic - Data Science related publications on medium
Towards Data Science Genetic Algorithm Topic -Genetic Algorithm related Publications towards Data Science
all AI news - The AI/ML/Big Data news aggregator platform

Newsletters

^ back to top ^

AI Digest. A weekly newsletter to keep up to date with AI, machine learning, and data science. Archive.
DataTalks.Club. A weekly newsletter about data-related things. Archive.
The Analytics Engineering Roundup. A newsletter about data science. Archive.

Bloggers

^ back to top ^

Wes McKinney - Wes McKinney Archives.
Matthew Russell - Mining The Social Web.
Greg Reda - Greg Reda Personal Blog
Kevin Davenport - Kevin Davenport Personal Blog
Julia Evans - Recurse Center alumna
Hakan Kardas - Personal Web Page
Sean J. Taylor - Personal Web Page
Drew Conway - Personal Web Page
Hilary Mason - Personal Web Page
Noah Iliinsky - Personal Blog
Matt Harrison - Personal Blog
Vamshi Ambati - AllThings Data Sciene
Prash Chan - Tech Blog on Master Data Management And Every Buzz Surrounding It
Clare Corthell - The Open Source Data Science Masters
Paul Miller Based in the UK and working globally, Cloud of Data's consultancy services help clients understand the implications of taking data and more to the Cloud.
Data Science London Data Science London is a non-profit organization dedicated to the free, open, dissemination of data science. We are the largest data science community in Europe. We are more than 3,190 data scientists and data geeks in our community.
Datawrangling by Peter Skomoroch. MACHINE LEARNING, DATA MINING, AND MORE
Quora Data Science - Data Science Questions and Answers from experts
Siah a PhD student at Berkeley
Louis Dorard a technology guy with a penchant for the web and for data, big and small
Machine Learning Mastery about helping professional programmers confidently apply machine learning algorithms to address complex problems.
Daniel Forsyth - Personal Blog
Data Science Weekly - Weekly News Blog
Revolution Analytics - Data Science Blog
R Bloggers - R Bloggers
The Practical Quant Big data
Yet Another Data Blog Yet Another Data Blog
Spenczar a data scientist at Twitch . I handle the whole data pipeline, from tracking to model-building to reporting.
KD Nuggets Data Mining, Analytics, Big Data, Data, Science not a blog a portal
Meta Brown - Personal Blog
Data Scientist is building the data scientist culture.
WhatSTheBigData is some of, all of, or much more than the above and this blog explores its impact on information technology, the business world, government agencies, and our lives.
Tevfik Kosar - Magnus Notitia
New Data Scientist How a Social Scientist Jumps into the World of Big Data
Harvard Data Science - Thoughts on Statistical Computing and Visualization
Data Science 101 - Learning To Be A Data Scientist
Kaggle Past Solutions
DataScientistJourney
NYC Taxi Visualization Blog
Learning Lover
Dataists
Data-Mania
Data-Magnum
P-value - Musings on data science, machine learning, and stats.
datascopeanalytics
Digital transformation
datascientistjourney
Data Mania Blog - The File Drawer - Chris Said's science blog
Emilio Ferrara's web page
DataNews
Reddit TextMining
Periscopic
Hilary Parker
Data Stories
Data Science Lab
Meaning of
Adventures in Data Land
DATA MINERS BLOG
Dataclysm
FlowingData - Visualization and Statistics
Calculated Risk
O'reilly Learning Blog
Dominodatalab
i am trask - A Machine Learning Craftsmanship Blog
Vademecum of Practical Data Science - Handbook and recipes for data-driven solutions of real-world problems
Dataconomy - A blog on the newly emerging data economy
Springboard - A blog with resources for data science learners
Analytics Vidhya - A full-fledged website about data science and analytics study material.
Occam's Razor - Focused on Web Analytics.
Data School - Data science tutorials for beginners!
Colah's Blog - Blog for understanding Neural Networks!
Sebastian's Blog - Blog for NLP and transfer learning!
Distill - Dedicated to clear explanations of machine learning!
Chris Albon's Website - Data Science and AI notes
Andrew Carr - Data Science with Esoteric programming languages
floydhub - Blog for Evolutionary Algorithms
Jingles - Review and extract key concepts from academic papers
nbshare - Data Science notebooks
Deep and Shallow - All things Deep and Shallow in Data Science
Loic Tetrel - Data science blog
Chip Huyen's Blog - ML Engineering, MLOps, and the use of ML in startups
Maria Khalusova - Data science blog
Aditi Rastogi - ML,DL,Data Science blog
Santiago Basulto - Data Science with Python
Akhil Soni - ML, DL and Data Science
Akhil Soni - ML, DL and Data Science

Presentations

^ back to top ^

How to Become a Data Scientist
Introduction to Data Science
Intro to Data Science for Enterprise Big Data
How to Interview a Data Scientist
How to Share Data with a Statistician
The Science of a Great Career in Data Science
What Does a Data Scientist Do?
Building Data Start-Ups: Fast, Big, and Focused
How to win data science competitions with Deep Learning
Full-Stack Data Scientist

Podcasts

^ back to top ^

AI at Home
AI Today
Adversarial Learning
Becoming a Data Scientist
Chai time Data Science
Data Crunch
Data Engineering Podcast
Data Science at Home
Data Science Mixer
Data Skeptic
Data Stories
Datacast
DataFramed
DataTalks.Club
Descente de dégradé
Learning Machines 101
Let's Data (Brazil)
Linear Digressions
Not So Standard Deviations
O'Reilly Data Show Podcast
Partially Derivative
Superdatascience
The Data Engineering Show
The Radical AI Podcast
The Robot Brains Podcast
What's The Point
How AI Built This
The Analytics Engineering Podcast

YouTube Videos & Channels

^ back to top ^

Qu'est-ce que l'apprentissage automatique?
Andrew Ng: Deep Learning, Self-Taught Learning and Unsupervised Feature Learning
Data36 - Data Science for Beginners by Tomi Mester
Deep Learning: Intelligence from Big Data
Interview with Google's AI and Deep Learning 'Godfather' Geoffrey Hinton
Introduction to Deep Learning with Python
What is machine learning, and how does it work?
Data School - Data Science Education
Neural Nets for Newbies by Melanie Warrick (May 2015)
Neural Networks video series by Hugo Larochelle
Google DeepMind co-founder Shane Legg - Machine Super Intelligence
Data Science Primer
Data Science with Genetic Algorithms
Data Science for Beginners
DataTalks.Club
Mildlyoverfitted - Tutorials on intermediate ML/DL topics
mlops.community - Interviews of industry experts about production ML
ML Street Talk - Unabashedly technical and non-commercial, so you will hear no annoying pitches.
Neural networks by 3Blue1Brown
Neural networks from scratch by Sentdex
Manning Publications YouTube channel
Ask Dr Chong: How to Lead in Data Science - Part 1
Ask Dr Chong: How to Lead in Data Science - Part 2
Ask Dr Chong: How to Lead in Data Science - Part 3
Ask Dr Chong: How to Lead in Data Science - Part 4
Ask Dr Chong: How to Lead in Data Science - Part 5
Ask Dr Chong: How to Lead in Data Science - Part 6
Regression Models: Applying simple Poisson regression
Deep Learning Architectures
Time Series Modelling and Analysis

Socialiser

^ back to top ^

Below are some Social Media links. Connect with other data scientists!

Facebook Accounts
Twitter Accounts
Telegram Channels
Slack Communities
GitHub Groups
Data Science Competitions

Facebook Accounts

^ back to top ^

Données
Big Data Scientist
Data Science Day
Data Science Academy
Facebook Data Science Page
Data Science London
Data Science Technology and Corporation
Data Science - Closed Group
Center for Data Science
Big data hadoop NOSQL Hive Hbase
Analytics, Data Mining, Predictive Modeling, Artificial Intelligence
Big Data Analytics using R
Big Data Analytics with R and Hadoop
Big Data Learnings
Big Data, Data Science, Data Mining & Statistics
BigData/Hadoop Expert
Data Mining / Machine Learning / AI
Data Mining/Big Data - Social Network Ana
Vademecum of Practical Data Science
Veri Bilimi Istanbul
The Data Science Blog

Twitter Accounts

^ back to top ^

Gazouillement	Description
Big Data Combine	Rapid-fire, live tryouts for data scientists seeking to monetize their models as trading strategies
Big Data Mania	Data Viz Wiz, Data Journalist, Growth Hacker, Author of Data Science for Dummies (2015)
Big Data Science	Big Data, Data Science, Predictive Modeling, Business Analytics, Hadoop, Decision and Operations Research.
Charlie Greenbacker	Director of Data Science at @ExploreAltamira
Chris Said	Data scientist at Twitter
Clare Corthell	Dev, Design, Data Science @mattermark #hackerei
DADI Charles-Abner	#datascientist @Ekimetrics. , #machinelearning #dataviz #DynamicCharts #Hadoop #R #Python #NLP #Bitcoin #dataenthousiast
Data Science Central	Data Science Central is the industry's single resource for Big Data practitioners.
Data Science London	Data Science. Big Data. Data Hacks. Data Junkies. Data Startups. Open Data
Data Science Renee	Documenting my path from SQL Data Analyst pursuing an Engineering Master's Degree to Data Scientist
Data Science Report	Mission is to help guide & advance careers in Data Science & Analytics
Data Science Tips	Tips and Tricks for Data Scientists around the world! #datascience #bigdata
Data Vizzard	DataViz, Security, Military
DataScienceX
deeplearning4j
DJ Patil	White House Data Chief, VP @ RelateIQ.
Domino Data Lab
Drew Conway	Data nerd, hacker, student of conflict.
Emilio Ferrara	#Networks, #MachineLearning and #DataScience. I work on #Social Media. Postdoc at @IndianaUniv
Erin Bartolo	Running with #BigData--enjoying a love/hate relationship with its hype. @iSchoolSU #DataScience Program Mgr.
Greg Reda	Working @ GrubHub about data and pandas
Gregory Piatetsky	KDnuggets President, Analytics/Big Data/Data Mining/Data Science expert, KDD & SIGKDD co-founder, was Chief Scientist at 2 startups, part-time philosopher.
Hadley Wickham	Chief Scientist at RStudio, and an Adjunct Professor of Statistics at the University of Auckland, Stanford University, and Rice University.
Hakan Kardas	Data Scientist
Hilary Mason	Data Scientist in Residence at @accel.
Jeff Hammerbacher	ReTweeting about data science
John Myles White	Scientist at Facebook and Julia developer. Author of Machine Learning for Hackers and Bandit Algorithms for Website Optimization. Tweets reflect my views only.
Juan Miguel Lavista	Principal Data Scientist @ Microsoft Data Science Team
Julia Evans	Hacker - Pandas - Data Analyze
Kenneth Cukier	The Economist's Data Editor and co-author of Big Data (http://www.big-data-book.com/).
Kevin Davenport	Organizer of https://www.meetup.com/San-Diego-Data-Science-R-Users-Group/
Kevin Markham	Data science instructor, and founder of Data School
Kim Rees	Interactive data visualization and tools. Data flaneur.
Kirk Borne	DataScientist, PhD Astrophysicist, Top #BigData Influencer.
Linda Regber	Data storyteller, visualizations.
Luis Rei	PhD Student. Programming, Mobile, Web. Artificial Intelligence, Intelligent Robotics Machine Learning, Data Mining, Natural Language Processing, Data Science.
Mark Stevenson	Data Analytics Recruitment Specialist at Salt (@SaltJobs) Analytics - Insight - Big Data - Data science
Matt Harrison	Opinions of full-stack Python guy, author, instructor, currently playing Data Scientist. Occasional fathering, husbanding, organic gardening.
Matthew Russell	Mining the Social Web.
Mert Nuhoğlu	Data Scientist at BizQualify, Developer
Monica Rogati	Data @ Jawbone. Turned data into stories & products at LinkedIn. Text mining, applied machine learning, recommender systems. Ex-gamer, ex-machine coder; namer.
Noah Iliinsky	Visualization & interaction designer. Practical cyclist. Author of vis books: https://www.oreilly.com/pub/au/4419
Paul Miller	Cloud Computing/ Big Data/ Open Data Analyst & Consultant. Writer, Speaker & Moderator. Gigaom Research Analyst.
Peter Skomoroch	Creating intelligent systems to automate tasks & improve decisions. Entrepreneur, ex-Principal Data Scientist @LinkedIn. Machine Learning, ProductRei, Networks
Prash Chan	Solution Architect @ IBM, Master Data Management, Data Quality & Data Governance Blogger. Data Science, Hadoop, Big Data & Cloud.
Quora Data Science	Quora's data science topic
R-Bloggers	Tweet blog posts from the R blogosphere, data science conferences, and (!) open jobs for data scientists.
Rand Hindi
Randy Olson	Computer scientist researching artificial intelligence. Data tinkerer. Community leader for @DataIsBeautiful. #OpenScience advocate.
Recep Erol	Data Science geek @ UALR
Ryan Orban	Data scientist, genetic origamist, hardware aficionado
Sean J. Taylor	Social Scientist. Hacker. Facebook Data Science Team. Keywords: Experiments, Causal Inference, Statistics, Machine Learning, Economics.
Silvia K. Spiva	#DataScience at Cisco
Harsh B. Gupta	Data Scientist at BBVA Compass
Spencer Nelson	Data nerd
Talha Oz	Enjoys ABM, SNA, DM, ML, NLP, HI, Python, Java. Top percentile Kaggler/data scientist
Tasos Skarlatidis	Complex Event Processing, Big Data, Artificial Intelligence and Machine Learning. Passionate about programming and open-source.
Terry Timko	InfoGov; Bigdata; Data as a Service; Data Science; Open, Social & Business Data Convergence
Tony Baer	IT analyst with Ovum covering Big Data & data management with some systems engineering thrown in.
Tony Ojeda	Data Scientist , Author , Entrepreneur. Co-founder @DataCommunityDC. Founder @DistrictDataLab. #DataScience #BigData #DataDC
Vamshi Ambati	Data Science @ PayPal. #NLP, #machinelearning; PhD, Carnegie Mellon alumni (Blog: https://allthingsds.wordpress.com )
Wes McKinney	Pandas (Python Data Analysis library).
WileyEd	Senior Manager - @Seagate Big Data Analytics @McKinsey Alum #BigData + #Analytics Evangelist #Hadoop, #Cloud, #Digital, & #R Enthusiast
WNYC Data News Team	The data news crew at @WNYC. Practicing data-driven journalism, making it visual, and showing our work.
Alexey Grigorev	Data science author
İlker Arslan	Data science author. Shares mostly about Julia programming
INÉVITABLE	AI & Data Science Start-up Company based in England, UK

Telegram Channels

^ back to top ^

Open Data Science – First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former.
Loss function porn — Beautiful posts on DS/ML theme with video or graphic visualization.
Machinelearning – Daily ML news.

Slack Communities

haut

DataTalks.Club
Women Who Code - Data Science

GitHub Groups

Berkeley Institute for Data Science

Data Science Competitions

Some data mining competition platforms

Kaggle
DrivenData
Analytics Vidhya
InnoCentive
Microprediction

Amusant

Infographie
Ensembles de données
Bandes dessinées

Infographics

^ back to top ^

Prévisualisation	Description
	Key differences of a data scientist vs. data engineer
	A visual guide to Becoming a Data Scientist in 8 Steps by DataCamp (img)
	Mindmap on required skills (img)
	Swami Chandrasekaran made a Curriculum via Metro map.
	by @kzawadz via twitter
	By Data Science Central
	Data Science Wars: R vs Python
	How to select statistical or machine learning techniques
	Choosing the Right Estimator
	The Data Science Industry: Who Does What
	Science des données ~~Venn~~ Euler Diagram
	Different Data Science Skills and Roles from this article by Springboard
	A simple and friendly way of teaching your non-data scientist/non-statistician colleagues how to avoid mistakes with data. From Geckoboard's Data Literacy Lessons.

Ensembles de données

^ back to top ^

Academic Torrents
ADS-B Exchange - Specific datasets for aircraft and Automatic Dependent Surveillance-Broadcast (ADS-B) sources.
hadoopilluminated.com
data.gov - The home of the US Government's open data
United States Census Bureau
usgovxml.com
enigma.com - Navigate the world of public data - Quickly search and analyze billions of public records published by governments, companies and organizations.
datahub.io
aws.amazon.com/datasets
datacite.org
The official portal for European data
NASDAQ:DATA - Nasdaq Data Link A premier source for financial, economic and alternative datasets.
figshare.com
GeoLite Legacy Downloadable Databases
Quora's Big Datasets Answer
Public Big Data Sets
Kaggle Datasets
A Deep Catalog of Human Genetic Variation
A community-curated database of well-known people, places, and things
Google Public Data
World Bank Data
NYC Taxi data
Open Data Philly Connecting people with data for Philadelphia
grouplens.org Sample movie (with ratings), book and wiki datasets
UC Irvine Machine Learning Repository - contains data sets good for machine learning
research-quality data sets by Hilary Mason
National Centers for Environmental Information
ClimateData.us (related: US Climate Resilience Toolkit)
r/datasets
MapLight - provides a variety of data free of charge for uses that are freely available to the general public. Click on a data set below to learn more
GHDx - Institute for Health Metrics and Evaluation - a catalog of health and demographic datasets from around the world and including IHME results
St. Louis Federal Reserve Economic Data - FRED
New Zealand Institute of Economic Research – Data1850
Open Data Sources
UNICEF Data
undata
NASA SocioEconomic Data and Applications Center - SEDAC
The GDELT Project
Sweden, Statistics
StackExchange Data Explorer - an open source tool for running arbitrary queries against public data from the Stack Exchange network.
SocialGrep - a collection of open Reddit datasets.
San Fransisco Government Open Data
IBM Asset Dataset
Open data Index
Public Git Archive
GHTorrent
Microsoft Research Open Data
Open Government Data Platform India
Google Dataset Search (beta)
NAYN.CO Turkish News with categories
COVID-19 [feminine
Covid-19 Google
Enron Email Dataset
5000 Images of Clothes
IBB Open Portal
The Humanitarian Data Exchange

Bandes dessinées

^ back to top ^

Comic compilation
Caricatures
Data Science Cartoons
Data Science: The XKCD Edition

Other Awesome Lists

Other amazingly awesome lists can be found in the awesome-awesomeness
Awesome Machine Learning
lists
awesome-dataviz
awesome-python
Data Science IPython Notebooks.
awesome-r
awesome-datasets
awesome-Machine Learning & Deep Learning Tutorials
Awesome Data Science Ideas
Machine Learning for Software Engineers
Community Curated Data Science Resources
Awesome Machine Learning On Source Code
Awesome Community Detection
Awesome Graph Classification
Awesome Decision Tree Papers
Awesome Fraud Detection Papers
Awesome Gradient Boosting Papers
Awesome Computer Vision Models
Awesome Monte Carlo Tree Search
Glossary of common statistics and ML terms
100 NLP Papers
Awesome Game Datasets
Data Science Interviews Questions
Awesome Explainable Graph Reasoning
Top Data Science Interview Questions
Awesome Drug Synergy, Interaction and Polypharmacy Prediction
Deep Learning Interview Questions
Top Future Trends in Data Science in 2023
How Generative AI Is Changing Creative Work
What is generative AI?
Top 100+ Machine Learning Interview Questions (Beginner to Advanced)

Passe-temps

Awesome Music Production

Développer

awesome datascience

Awesome Data Science

Sponsors

Table des matières

Qu'est-ce que la science des données?

Par où commencer?

Monde réel

Catastrophe

Ressources de formation

Tutoriels

Cours gratuits

MOOC

Programmes intensifs

Collèges

La boîte à outils de science des données

Algorithmes

Trois types de systèmes d'apprentissage automatique

Comparaison

Apprentissage supervisé

Apprentissage non surveillé

Apprentissage semi-supervisé

Apprentissage du renforcement

Algorithmes d'exploration de données

Architectures d'apprentissage en profondeur

Packages généraux d'apprentissage automatique

Packages d'apprentissage en profondeur

Écosystème de pytorch

Écosystème de TensorFlow

Écosystème de kéras

Outils de visualisation

Outils divers

Littérature et médias

Livres

Book Deals (Affiliated) ?

Journals, Publications and Magazines

Newsletters

Bloggers

Presentations

Podcasts

YouTube Videos & Channels

Socialiser

Facebook Accounts

Twitter Accounts

Telegram Channels

Slack Communities

GitHub Groups

Data Science Competitions

Amusant

Infographics

Ensembles de données

Bandes dessinées

Other Awesome Lists

Passe-temps