awesome datascience Download - awesome datascience Source Code Download

Fantastische Datenwissenschaft

Ein Open-Source-Data Science-Repository, um Probleme mit der Lösung realer Welt zu lernen und zu bewerben.

Dies ist ein Abkürzungspfad, um die Datenwissenschaft zu untersuchen. Befolgen Sie einfach die Schritte, um die Fragen zu beantworten: "Was ist Datenwissenschaft und was soll ich studieren, um Datenwissenschaft zu lernen?"

Sponsoren

Sponsor	Tonhöhe
---	Sei der erste, der sponsert! `[email protected]`

Inhaltsverzeichnis

Was ist Data Science?
Wo fange ich an?
Trainingsressourcen
- Tutorials
- Kostenlose Kurse
- Massiv offene Online -Kurse
- Intensive Programme
- Colleges
Die Data Science Toolbox
- Algorithmen
  - Überwachendes Lernen
  - Unbeaufsichtigtes Lernen
  - Semi-betriebliches Lernen
  - Verstärkungslernen
  - Data Mining -Algorithmen
  - Tiefe Lernarchitekturen
- Allgemeine maschinelle Lernpakete
- Deep Learning Pakete
  - Pytorch -Ökosystem
  - Tensorflow -Ökosystem
  - Keras -Ökosystem
- Visualisierungstools
- Verschiedene Werkzeuge
Literatur und Medien
- Bücher
  - Buchangebote (verbunden)
- Zeitschriften, Veröffentlichungen und Zeitschriften
- Newsletter
- Blogger
- Präsentationen
- Podcasts
- YouTube -Videos und Kanäle
Sozialisieren
- Facebook -Konten
- Twitter -Konten
- Telegrammkanäle
- Slack Communities
- Github -Gruppen
- Datenwissenschaftswettbewerbe
Spaß
- Infografiken
- Datensätze
- Comics
Andere großartige Listen
- Hobby

Was ist Data Science?

^ back to top ^

Data Science ist heutzutage eines der heißesten Themen auf dem Computer- und Internet -Ackerland. Menschen haben bis heute Daten von Anwendungen und Systemen gesammelt und ist jetzt an der Zeit, sie zu analysieren. Die nächsten Schritte erzeugen Vorschläge aus den Daten und erstellen Vorhersagen über die Zukunft. Hier finden Sie die größte Frage für Data Science und Hunderte von Antworten von Experten.

Link	Vorschau
Was ist Data Science @ O'Reilly	Datenwissenschaftler kombinieren Unternehmertum mit Geduld, die Bereitschaft, Datenprodukte schrittweise zu erstellen, die Fähigkeit zu erforschen und die Fähigkeit, über eine Lösung zu iterieren. Sie sind von Natur aus interdisziplinär. Sie können alle Aspekte eines Problems in Angriff nehmen, von der anfänglichen Datenerfassung und der Datenkonditionierung bis hin zum Zeichnen von Schlussfolgerungen. Sie können über den Tellerrand hinaus nachdenken, um neue Wege zu finden, um das Problem anzusehen oder mit sehr breit definierten Problemen zu arbeiten: "Hier sind viele Daten, was können Sie daraus machen?"
Was ist Data Science @ quora	Data Science ist eine Kombination aus einer Reihe von Aspekten von Daten wie Technologie, Algorithmusentwicklung und Dateninterferenz, um die Daten zu untersuchen, sie zu analysieren und innovative Lösungen für schwierige Probleme zu finden. Im Grunde genommen geht es bei Data Science nur darum, Daten zu analysieren und für das Geschäftswachstum zu fördern, indem es kreative Wege finden.
Die sexieste Arbeit des 21. Jahrhunderts	Datenwissenschaftler sind heute den „Quants“ der Wall Street der 1980er und 1990er Jahre ähnlich. In jenen Tagen steuerten Menschen mit Hintergründen in Physik und Mathematik an Investmentbanken und Hedgefonds, wo sie völlig neue Algorithmen und Datenstrategien entwickeln konnten. Anschließend entwickelten eine Vielzahl von Universitäten Master -Programme in Financial Engineering, die eine zweite Generation von Talenten herausstellten, die für Mainstream -Unternehmen zugänglicher war. Das Muster wurde später in den neunziger Jahren mit Suchingenieuren wiederholt, deren verdünnte Fähigkeiten bald in Informatikprogrammen unterrichtet wurden.
Wikipedia	Data Science ist ein interdisziplinäres Gebiet, das wissenschaftliche Methoden, Prozesse, Algorithmen und Systeme verwendet, um Wissen und Erkenntnisse aus vielen strukturellen und unstrukturierten Daten zu extrahieren. Data Science bezieht sich auf Data Mining, maschinelles Lernen und Big Data.
Wie man Datenwissenschaftler wird	Datenwissenschaftler sind Big Data Wrangler, die große Sätze strukturierter und unstrukturierter Daten sammeln und analysieren. Die Rolle eines Datenwissenschaftlers kombiniert Informatik, Statistik und Mathematik. Sie analysieren, verarbeiten und modellieren dann die Ergebnisse, um umsetzbare Pläne für Unternehmen und andere Organisationen zu erstellen.
Eine sehr kurze Geschichte von #Datascience	Die Geschichte, wie Datenwissenschaftler sexy geworden sind, ist hauptsächlich die Geschichte der Kopplung der reifen Disziplin von Statistiken mit einer sehr jungen Einheit. Der Begriff „Data Science“ hat sich erst kürzlich entstanden, um einen neuen Beruf ausdrücklich zu bezeichnen, der für die riesigen Läden von Big Data erwartet wird. Daten zu verstehen, hat jedoch eine lange Geschichte und wird seit Jahren von Wissenschaftlern, Statistikern, Bibliothekaren, Informatikern und anderen diskutiert. Die folgende Zeitleiste verfolgt die Entwicklung des Begriffs „Datenwissenschaft“ und seiner Verwendung, versucht ihn zu definieren und verwandte Begriffe.
Softwareentwicklungsressourcen für Datenwissenschaftler	Datenwissenschaftler konzentrieren sich darauf, Daten durch explorative Analyse, Statistiken und Modelle zu verstehen. Softwareentwickler wenden einen separaten Wissenssatz mit unterschiedlichen Tools an. Obwohl ihr Fokus nicht miteinander in Zusammenhang steht, können Data Science -Teams von der Einführung von Best Practices der Softwareentwicklung profitieren. Versionskontrolle, automatisierte Tests und andere Entwicklungsfähigkeiten tragen dazu bei, reproduzierbare, produktionsbereite Code und Tools zu erstellen.
Data Scientist Roadmap	Data Science ist eine hervorragende Berufswahl in der heutigen datengesteuerten Welt, in der täglich ca. 328,77 Millionen Terabyte Daten generiert werden. Und diese Zahl nimmt nur von Tag zu Tag zu, was wiederum die Nachfrage nach qualifizierten Datenwissenschaftlern erhöht, die diese Daten nutzen können, um das Geschäftswachstum voranzutreiben.
Navigieren Sie Ihren Weg zum Datenwissenschaftler	_Data Science ist heute eine der gefragtesten Karrieren. Da Unternehmen zunehmend auf Daten angewiesen sind, um Entscheidungen zu treffen, ist die Notwendigkeit von qualifizierten Datenwissenschaftlern schnell gewachsen. Ob technische Unternehmen, Gesundheitsorganisationen oder sogar staatliche Institutionen, Datenwissenschaftler spielen eine entscheidende Rolle bei der Umwandlung von Rohdaten in wertvolle Erkenntnisse. Aber wie werden Sie Datenwissenschaftler, besonders wenn Sie gerade erst anfangen? _

Wo fange ich an?

^ back to top ^

Obwohl es nicht streng notwendig ist, ist eine Programmiersprache eine entscheidende Fähigkeit, als Datenwissenschaftler effektiv zu sein. Derzeit ist die beliebteste Sprache Python , genau gefolgt von r . Python ist eine allgemeine Skriptsprache, die Anwendungen in einer Vielzahl von Feldern sieht. R ist eine domänenspezifische Sprache für Statistiken, die viele gängige Statistikwerkzeuge aus der Box enthält.

Python ist bei weitem die beliebteste Sprache in der Wissenschaft, die nicht zuletzt auf die Leichtigkeit zurückzuführen ist, bei der es verwendet werden kann, und das lebendige Ökosystem von benutzergenerierten Paketen. Um Pakete zu installieren, gibt es zwei Hauptmethoden: PIP (als pip install aufgerufen), dem Paketmanager, der mit Python geliefert wird, und Anaconda (aufgerufen als conda install ), einem leistungsstarken Paketmanager, mit dem Pakete für Python, R, installiert werden können, und ausführbare Direktinvestitionen wie Git herunterladen können.

Im Gegensatz zu R wurde Python nicht aus Grund mit der Datenwissenschaft aufgebaut, aber es gibt viele Bibliotheken von Drittanbietern, die dies ausgleichen. Eine viel umfassendere Liste von Paketen finden Sie später in diesem Dokument. Diese vier Pakete sind jedoch eine gute Auswahl, um Ihre Data Science-Reise zu beginnen: Scikit-Learn ist ein allgemeines Datenwissenschaftspaket, das die beliebtesten Algorithmen implementiert. Auch wenn Sie es vorziehen, Ihre eigenen Implementierungen zu schreiben, ist Scikit-Learn ein wertvoller Hinweis auf die Nüsse und Verstürze hinter vielen der gemeinsamen Algorithmen, die Sie finden. Mit Pandas kann man ihre Daten in ein bequemes Tabellenformat sammeln und analysieren. Numpy bietet ein sehr schnelles Werkzeug für mathematische Operationen mit Schwerpunkt auf Vektoren und Matrizen. Seeborn, selbst basierend auf dem Matplotlib -Paket, ist eine schnelle Möglichkeit, schöne Visualisierungen Ihrer Daten zu generieren, wobei viele gute Standardeinstellungen außerhalb des Box verfügbar sind, sowie eine Galerie, die zeigt, wie viele gemeinsame Visualisierungen Ihrer Daten erstellt werden.

Wenn Sie sich auf Ihre Reise zum Datenwissenschaftler machen, ist die Wahl der Sprache nicht besonders wichtig, und sowohl Python als auch R haben ihre Vor- und Nachteile. Wählen Sie eine Sprache aus, die Ihnen gefällt, und sehen Sie sich einen der kostenlosen Kurse an, die wir unten aufgeführt haben!

Reale Welt

^ back to top ^

Data Science ist ein leistungsstarkes Tool, das in verschiedenen Bereichen verwendet wird, um reale Probleme zu lösen, indem Erkenntnisse und Muster aus komplexen Daten extrahiert werden.

Katastrophe

^ back to top ^

Deprem-Ml Aya: Açık Yazılım Ağı (+25K-Entwickler) versucht, die Katastrophenreaktion mit künstlicher Intelligenz zu unterstützen. Alles ist Open Sourced afet.org.

Trainingsressourcen

^ back to top ^

Wie lernen Sie Datenwissenschaft? Natürlich durch Datenwissenschaft! Okay, okay - das ist möglicherweise nicht besonders hilfreich, wenn Sie zum ersten Mal anfangen. In diesem Abschnitt haben wir einige Lernressourcen aufgelistet, in groben Reihenfolge von den meisten bis zum größten Engagement - Tutorials, massiv offene Online -Kurse (MOOCs), intensive Programme und Hochschulen.

Tutorials

^ back to top ^

1000 Data Science -Projekte Sie können mit Ipython im Browser ausführen.
#Tidytuesday Ein wöchentliches Datenprojekt für das R -Ökosystem.
Data Science Ihr Weg
Pyspark -Cheatsblatt
Maschinelles Lernen, Datenwissenschaft und tiefes Lernen mit Python
So kennzeichnen Sie Daten
Ihr Leitfaden zur Latent Dirichlet -Zuweisung
Über 1000 Data Science Online -Kurse bei Classipert Online -Suchmaschine
Tutorials mit Quellcode aus dem Buch Genetischer Algorithmen mit Python von Clinton Sheppard
Tutorials zur Signalverarbeitung für maschinelles Lernen
Tutorial für das Echtzeit-Bereitstellungs-Tutorial zur Modellbereitstellung von Python Time-Series.
Python für Data Science: Ein Anfängerleitfaden
Minimum lebensfähiges Studienplan für Interviews für maschinelles Lernen
Verstehen und kennenlernen Sie das Maschinenlernen -Engineering, indem Sie solide Projekte erstellen
12 kostenlose Datenwissenschaftsprojekte zum Üben von Python und Pandas
Bester Lebenslauf/Lebenslauf für Data Science Freshers
Datenwissenschaftskurs in Java verstehen
Datenanalyse -Interviewfragen (Anfänger für Fortgeschrittene)
Top 100+ Data Science Interview Fragen und Antworten

Kostenlose Kurse

^ back to top ^

Datenwissenschaftler mit r
Datenwissenschaftler mit Python
Genetische Algorithmen OCW -Kurs
KI -Experte Roadmap - Roadmap, um ein Experte für künstliche Intelligenz zu werden
Konvexe Optimierung - Konvex -Optimierung (Grundlagen der konvexen Analyse; kleinste Quadrate, lineare und quadratische Programme, semidefinitische Programmierung, Minimax, extremes Volumen und andere Probleme; Optimalitätsbedingungen, Dualitätstheorie ...)
Skillcombo - Data Science - 1000+ kostenlose Online -Datenwissenschaftskurse
Lernen aus Daten - Einführung in das maschinelle Lernen, die grundlegende Theorie, Algorithmen und Anwendungen abdecken
Kaggle - Erfahren Sie mehr über Datenwissenschaft, maschinelles Lernen, Python usw.
ML Observability Fundamentaldaten - Erfahren Sie, wie ML -Probleme der Produktion von Produktion und Wurzeln überwacht werden können.
Gewichte und Verzerrungen effektiver MLOPS: Modellentwicklung-kostenloser Kurs und Zertifizierung für den Aufbau einer End-to-End-Maschine mit W & B
Python für maschinelles Lernen - Beginnen Sie Ihre Reise zum maschinellen Lernen mit Python, einer der leistungsstärksten Programmiersprachen.
Python for Data Science by Scaler - Dieser Kurs soll Anfänger die wesentlichen Fähigkeiten in der heutigen datengesteuerten Welt ermöglichen. Der umfassende Lehrplan bietet Ihnen eine solide Grundlage für Statistiken, Programmier, Datenvisualisierung und maschinelles Lernen.
MLSYS-NYU-2022-Folien, Skripte und Materialien für das maschinelle Lernen im Finanzkurs bei NYU Tandon, 2022.
Praktische Zug und Bereitstellung von ML-Ein praktischer Kurs zum Training und Bereitstellen einer serverlosen API, die Kryptopreise vorhersagt.
LLMOPS: Erstellen realer Anwendungen mit großsprachigen Modellen - Lernen Sie, moderne Software mit LLMs mit den neuesten Tools und Techniken im Bereich zu erstellen.
Schnelltechnik für Visionsmodelle - Lernen Sie, modernste Computer -Vision -Modelle mit natürlicher Sprache, Koordinatenpunkte, Begrenzungsboxen, Segmentierungsmasken und sogar anderen Bildern in diesem kostenlosen Kurs von DeepLearning.ai zu erfahren.
Data Science -Kurs von IBM - Kostenlose Ressourcen und lernen Sie, was Datenwissenschaft ist und wie sie in verschiedenen Branchen verwendet wird.

Mooc's

^ back to top ^

Coursera Einführung in die Datenwissenschaft
Data Science - 9 Stufenkurse, eine Spezialisierung auf Coursera
Data Mining - 5 Stufenkurse, eine Spezialisierung auf Coursera
Maschinelles Lernen - 5 Stufenkurse, eine Spezialisierung auf Coursera
CS 109 Data Science
OpenIntro
CS 171 Visualisierung
Prozessabbau: Datenwissenschaft in Aktion
Oxford Deep Learning
Oxford Deep Learning - Video
Oxford Maschinelles Lernen
UBC maschinelles Lernen - Video
Datenwissenschaftspezialisierung
Coursera Big Data Spezialisierung
Statistisches Denken für Data Science und Analytics von EDX
Kognitive Klasse AI von IBM
Udacity - tiefes Lernen
Keras in Bewegung
Microsoft Professional Program for Data Science
Comp3222/Comp6246 - Technologien für maschinelles Lernen
CS 231 - Faltungsnetzwerke für visuelle Erkennung
Coursera Tensorflow in der Praxis
Coursera Deep Learning Spezialisierung
365 Datenwissenschaftskurs
Coursera natürliche Sprachverarbeitungspezialisierung
Coursera Gan Spezialisierung
Die Datenwissenschaft von Codecademy
Lineare Algebra - linearer Algebra -Kurs von Gilbert Strang
Eine 2020 Vision von linearer Algebra (G. Strang)
Python für die Data Science Foundation Kurs
Datenwissenschaft: Statistik und maschinelles Lernen
Maschinenlerntechnik für die Produktion (MLOPS)
Die Spezialisierung von Repection Systems von der University of Minnesota ist eine Spezialisierung mit mittlerer/fortgeschrittener Ebene, die sich auf das Empfehlungssystem auf der Coursera -Plattform konzentriert.
Stanford künstliche Intelligenzprofisprogramm
Datenwissenschaftler mit Python
Programmierung mit Julia
Scaler Data Science & Machine Learning Program
Data Science Skill Tree
Datenwissenschaft für Anfänger - Lernen Sie mit KI -Tutor
Maschinelles Lernen für Anfänger - Lernen Sie mit KI -Tutor

Intensive Programme

^ back to top ^

S2ds

Colleges

^ back to top ^

Eine Liste von Hochschulen und Universitäten, die Abschlüsse in der Datenwissenschaft bieten.
Data Science Degree @ Berkeley
Data Science Degree @ UVA
Data Science Degree @ Wisconsin
BS in Data Science & Applications
MS in Computer Information Systems @ Boston University
MS in Business Analytics @ ASU online
MS in Applied Data Science @ Syracuse
MS Management & Data Science @ leuphana
Master of Data Science @ Melbourne University
MSC in Data Science @ der Universität von Edinburgh
Master of Management Analytics @ Queen's University
Master of Data Science @ Illinois Institute of Technology
Master of Applied Data Science @ der Universität von Michigan
Master Data Science und künstliche Intelligenz @ Eindhoven Universität für Technologie
Master -Abschluss in Data Science and Computer Engineering @ University of Granada

Die Data Science Toolbox

^ back to top ^

Dieser Abschnitt ist eine Sammlung von Paketen, Tools, Algorithmen und anderen nützlichen Elementen in der Datenwissenschaftswelt.

Algorithmen

^ back to top ^

Dies sind einige Algorithmen für maschinelles Lernen und Data Mining, und Modelle helfen Ihnen, Ihre Daten zu verstehen und eine Bedeutung daraus abzuleiten.

Drei Arten von maschinellen Lernsystemen

Basierend auf dem Training mit menschlicher Aufsicht
Basierend auf dem inkrementellen Lernen auf Fliegen
Basierend auf Datenpunkten Vergleich und Mustererkennung

Vergleich

DataCompy - DataCompy ist ein Paket zum Vergleich von zwei PANDAS -Datenrahmen.

Überwachendes Lernen

Regression
Lineare Regression
Gewöhnliche kleinste Quadrate
Logistische Regression
Schrittweise Regression
Multivariate adaptive Regressionsspiegel
Softmax -Regression
Lokal geschätzte Streuplot -Glättung
Einstufung
- K-nearest Nachbar
- Vektormaschinen unterstützen
- Entscheidungsbäume
- ID3 -Algorithmus
- C4.5 Algorithmus
Ensemble -Lernen
- Steigern
- Stapelung
- Eintacken
- Zufallswald
- Adaboost

Unbeaufsichtigtes Lernen

Clustering
- Hierchical Clustering
- K-Means
- Dichtebasierte Clusterbildung
- Fuzzy -Clustering
- Mischmodelle
Dimensionsreduzierung
- Hauptkomponentenanalyse (PCA)
- T-Sne; T-verteilte stochastische Nachbarn einbettet
- Faktoranalyse
- Latent Dirichlet Allocation (LDA)
Neuronale Netze
Selbstorganisierende Karte
Adaptive Resonanztheorie
Versteckte Markov -Modelle (Hmm)

Semi-betriebliches Lernen

S3vm
Clustering
Generative Modelle
Trennung mit geringer Dichte
Laplace -Regularisierung
Heuristische Ansätze

Verstärkungslernen

Q Lernen
Sarsa (State-Action-Reward-State-Action) -Algorithmus
Zeitliches Unterschied Lernen

Data Mining -Algorithmen

C4.5
K-Means
SVM (Support Vector Machine)
Apriori
EM (Erwartungsmaximierung)
PageRank
Adaboost
KNN (K-Nearste Nachbarn)
Naive Bayes
Wagen (Klassifizierung und Regressionsbäume)

Tiefe Lernarchitekturen

Mehrschichtiger Perceptron
Faltungsnetzwerk (CNN)
Wiederkehrendes neuronales Netzwerk (RNN)
Boltzmann -Maschinen
AUTOCODER
Generatives Gegnernetzwerk (GaN)
Selbstorganisierte Karten
Transformator
Bedingte Zufallsfeld (CRF)
ML -Systemdesigns)

Allgemeine maschinelle Lernpakete

^ back to top ^

Scikit-Learn
scikit-multilearn
Sklearn-Expertsys
Scikit-Feature
Scikit-Rebate
Seqlearn
Sklearn-Bayes
sklearn-crfsuite
Sklearn-Deap
Sigopt_Sklearn
Sklearn-Evaluierung
Scikit-Image
scikit-opt
Scikit-Posthocs
Pystruktur
Shogun
Xlearn
cuml
kausalml
mlpack
Mlxtend
modal
Sparkit-Learn
Hyperlearn
DLIB
Imodelle
Regelfit
Pygam
Deepchecks
Scikit-Überleben
interpretierbar
Xgboost
Lightgbm
Catboost
Jax

Deep Learning Pakete

Pytorch -Ökosystem

Pytorch
Torchvision
Torchtext
Torchaudio
entzünden
Pytorchnet
Pytoune
Skorch
Pyvarinf
pytorch_geometric
Gpytorch
Pyro
Katalysator
pytorch_tabular
Yolov3
Yolov5
Yolov8

Tensorflow -Ökosystem

Tensorflow
TensorLayer
Tlearn
Sonett
Tensorpack
Trfl
Polyaxon
Neupy
tfdeploy
Tensorflow-Upstream
Tensorflow -Falte
Tensorlm
Tensorlight
Mesh Tensorflow
Ludwig
TF-Agents
Tensorforce

Keras -Ökosystem

Keras
Keras-Contrib
Hyperas
Elephas
Hera
Spektral
Qkeras
Keras-Rl
Talos

Visualisierungstools

^ back to top ^

Altair
Addepar
Amcharts
Anychart
Bokeh
Komet
Slemma
Cartodb
Würfel
d3plus
Datengesteuerte Dokumente (D3JS)
Dygraphen
Echarts
ausstellen
Gephi
ggplot2
Kleber
Google Chart Gallery
Highcarts
Import.io
jqplot
Matplotlib
NVD3
Netron
OpenRefine
Handlung.ly
roh
Resseract Lite
Seeborn
Techanjs
Zeitleiste
Variancecharts
Vida
Vizzu
Wrangler
R2D3
NetworkX
REDASH
C3
Tensorwatch
Geomap
Bindestrich

Verschiedene Werkzeuge

^ back to top ^

Link	Beschreibung
Der Datenwissenschaftslifezyklusprozess	Der Prozess des Datenwissenschaftslebenszyklus ist ein Prozess, mit dem Data Science -Teams wiederholt und nachhaltig von der Idee bewertet werden können. Der Prozess ist in diesem Repo dokumentiert
Data Science Lifecycle Vorlage Repo	Template -Repository für Datenwissenschaftslebenszyklusprojekt
Rexmex	Ein allgemeiner Empfehlungsbibliothek für Metriken zur fairen Bewertung.
Chemicalx	Eine Pytorch -basierte Deep Learning Library für das Tor von Drogenpaaren.
Pytorch geometrische zeitliche	Repräsentationslernen in dynamischen Graphen.
Kleiner Fellball	Eine Diagrammabtastbibliothek für NetworkX mit einem Scikit-Learn-ähnlichen API.
Karate Club	Eine unbeaufsichtigte Erweiterungsbibliothek für maschinelles Lernen für NetworkX mit einem scikit-larn-ähnlichen API.
ML Arbeitsbereich	All-in-One-webbasierte IDE für maschinelles Lernen und Datenwissenschaft. Der Arbeitsbereich wird als Docker -Container bereitgestellt und mit einer Vielzahl beliebter Datenwissenschaftsbibliotheken (z.
Neptune.ai	Community-freundliche Plattform, die Datenwissenschaftler beim Erstellen und Teilen von Modellen für maschinelles Lernen unterstützt. Neptun ermöglicht Teamarbeit, Infrastrukturmanagement, Modelle Vergleich und Reproduzierbarkeit.
Steppy	Leichte, Python -Bibliothek für schnelles und reproduzierbares Experimentieren für maschinelles Lernen. Führt eine sehr einfache Schnittstelle ein, die das Design Clean Machine Learning Pipeline Design ermöglicht.
Steppy-Toolkit	Kuratierte Sammlung der neuronalen Netzwerke, Transformatoren und Modelle, die Ihr maschinelles Lernen schneller und effektiver funktionieren.
Datalab von Google	Erforschen, visualisieren, analysieren und transformieren Sie Daten mithilfe bekannter Sprachen wie Python und SQL interaktiv.
Hortonworks Sandbox	ist eine persönliche, tragbare Hadoop -Umgebung, die mit einem Dutzend interaktiven Hadoop -Tutorials ausgestattet ist.
R	ist eine kostenlose Software -Umgebung für statistisches Computer und Grafiken.
Tidyverse	ist eine Meinung von R -Paketen, die für die Datenwissenschaft entwickelt wurden. Alle Pakete haben eine zugrunde liegende Designphilosophie, Grammatik und Datenstrukturen.
RSTUDIO	IDE - leistungsstarke Benutzeroberfläche für R. Es ist kostenlos und open Source und funktioniert unter Windows, Mac und Linux.
Python - Pandas - Anaconda	VOLLSTÄNDIG FREE ENTERPRISE-FEHLER PYTHON-Verteilung für die Datenverarbeitung in großem Maßstab, prädiktive Analysen und wissenschaftliches Computing
Pandas GUI	Pandas GUI
Scikit-Learn	Maschinelles Lernen in Python
Numpy	Numpy ist grundlegend für wissenschaftliches Computing mit Python. Es unterstützt große, mehrdimensionale Arrays und Matrizen und umfasst eine Auswahl an mathematischen Funktionen auf hoher Ebene, um auf diesen Arrays zu arbeiten.
Vaex	VAEX ist eine Python -Bibliothek, mit der Sie große Datensätze visualisieren und Statistiken bei hohen Geschwindigkeiten berechnen können.
Scipy	Scipy arbeitet mit Numpy -Arrays zusammen und bietet effiziente Routinen für die numerische Integration und Optimierung.
Data Science Toolbox	Coursera Kurs
Data Science Toolbox	Blog
Wolfram Data Science Plattform	Nehmen Sie numerische, textuelle, Bild, GIS oder andere Daten und geben Sie ihm die Wolfram-Behandlung an, indem Sie ein vollständiges Spektrum an Datenwissenschaftsanalyse und -visualisierung durchführen und automatisch umfangreiche interaktive Berichte erzeugen-alle mit der revolutionären wissensbasierten Wolfram-Sprache.
Datadog	Lösungen, Code und DevOps für hochwertige Datenwissenschaft.
Varianz	Erstellen Sie leistungsstarke Datenvisualisierungen für das Web, ohne JavaScript zu schreiben
Kite Development Kit	Das Kite Software Development Kit (Apache -Lizenz, Version 2.0) oder kurz Kite ist eine Reihe von Bibliotheken, Tools, Beispielen und Dokumentationen, die darauf ausgerichtet sind, Systeme über dem Hadoop -Ökosystem zu erstellen.
Domino Data Labs	Führen Sie Ihre Modelle ohne Infrastruktur oder Setup aus, skalieren, teilen und bereitstellen Sie Ihre Modelle ein.
Apache Flink	Eine Plattform für eine effiziente, verteilte allgemeine Datenverarbeitung.
Apache Hama	Apache Hama ist ein Open-Source-Projekt von Apache, sodass Sie erweiterte Analysen jenseits von MapReduce durchführen können.
Weka	Weka ist eine Sammlung von Algorithmen für maschinelles Lernen für Data Mining -Aufgaben.
Oktave	GNU Octave ist eine hochrangige interpretierte Sprache, die hauptsächlich für numerische Berechnungen bestimmt ist. (Freie Matlab)
Apache Funken	Lightning-Fast Cluster Computing
Hydrosphere Nebel	Ein Dienst zur Aufdeckung von Apache Spark Analytics -Jobs und maschinellem Lernmodellen als Echtzeit-, Batch- oder Reaktiv -Webdienste.
Datenmechanik	Eine Data Science and Engineering-Plattform, die Apache-Funderfunchierer-freundlicher und kostengünstiger macht.
Kaffe	Deep Learning Framework
Fackel	Ein wissenschaftliches Computergerüst für Luajit
Nervanas Python -basierter Deep Learning Framework	Intel® Nervana ™ Referenz Deep Learning Framework für die beste Leistung für alle Hardware.
Skala	Hochleistungsverteilte Datenverarbeitung in NodeJs
Aerosolve	Ein maschinelles Lernpaket für Menschen.
Intel Framework	Intel® Deep Learning Framework
Datawrapper	Eine Open -Source -Datenvisualisierungsplattform hilft jedem, einfache, korrekte und einbettbare Diagramme zu erstellen. Auch bei Github.com
Tensorfluss	TensorFlow ist eine Open -Source -Software -Bibliothek für Machine Intelligence
Natürliches Sprach -Toolkit	Ein einführendes, aber leistungsfähiges Toolkit für die Verarbeitung und Klassifizierung natürlicher Sprache
Annotationslabor	Kostenlose End-to-End-No-Code-Plattform für Textanmerkungen und DL-Modelltraining/-abstimmung. Out-of-the-Box-Unterstützung für die genannte Entitätserkennungs-, Klassifizierungs-, Beziehungsextraktions- und Behauptungsstatus-Funken-NLP-Modelle. Unbegrenzte Unterstützung für Benutzer, Teams, Projekte, Dokumente.
nlp-toolkit für node.js	Dieses Modul deckt einige grundlegende NLP -Prinzipien und -implementierungen ab. Das Hauptaugenmerk liegt auf der Leistung. Wenn wir uns mit Beispiel- oder Trainingsdaten in NLP befassen, haben wir schnell den Speicher mehr. Daher wird jede Implementierung in diesem Modul als Stream geschrieben, um nur diese Daten in Speicher zu behalten, die derzeit in jedem Schritt verarbeitet werden.
Julia	Hochleistungsdynamische Programmiersprache für technisches Computing mit hoher Leistung
Ijulia	Ein Julia-Sprach-Backend in Kombination mit der Jupyter Interactive Environment
Apache Zeppelin	Webbasiertes Notizbuch, das datengesteuerte, interaktive Datenanalysen und kollaborative Dokumente mit SQL, Scala und mehr ermöglicht
Featuretools	Ein Open -Source -Framework für automatisierte Features Engineering in Python geschrieben
Optimus	Reinigung, Vorverarbeitung, Feature Engineering, Explorationsdatenanalyse und einfaches ML mit PYSPark-Backend.
Albumentationen	Eine schnelle und Framework Agnostic Image Augmentation Library, die eine Vielzahl von Augmentationstechniken implementiert. Unterstützt die Klassifizierung, Segmentierung und Erkennung von der Box. Wurde verwendet, um eine Reihe von Deep -Learning -Wettbewerben in Kaggle, Topcoder und diejenigen zu gewinnen, die Teil der CVPR -Workshops waren.
DVC	Ein Open-Source Data Science-Versionskontrollsystem. Es hilft, Datenwissenschaftsprojekte zu verfolgen, zu organisieren und reproduzierbar zu machen. In seinem sehr grundlegenden Szenario hilft es, die Version zu steuern und große Daten- und Modelldateien zu teilen.
Lambdo	ist eine Workflow -Engine, die die Datenanalyse signifikant vereinfacht, indem sie in einer Analyse -Pipeline (i) Feature Engineering und maschinelles Lernen (ii) Modelltraining und Vorhersage (III) Tabellenpopulation und Spaltenbewertung (II) vereinfacht.
Fest	Ein Feature -Store für die Verwaltung, Entdeckung und den Zugriff maschineller Lernen. Feast bietet eine konsistente Sichtweise der Merkmalsdaten sowohl für das Modelltraining als auch für die Modelldienste.
Polyaxon	Eine Plattform für reproduzierbare und skalierbare maschinelle Lernen und tiefes Lernen.
LightTag	Textannotationstool für Teams
Ubiai	Einfach zu bedienender Textanmerkmale für Teams mit umfassendsten Funktionen für Autoannotation. Unterstützt NER, Beziehungen und Dokumentenklassifizierung sowie OCR -Annotation für die Rechnungskennzeichnung
Züge	Auto-Magical Experiment Manager, Versionskontrolle und DevOps für KI
Hopsschalen	Open-Source-datenintensive maschinelle Lernplattform mit einem Feature-Store. Nehmen und verwalten Sie Funktionen für Online (MySQL Cluster) und Offline (Apache Hive), trainieren und servieren Modelle im Maßstab.
Mindsdb	Mindsdb ist ein erklärbares Automl -Framework für Entwickler. Mit Mindsdb können Sie hochmoderne ML -Modelle so einfach wie eine Codezeile erstellen, trainieren und verwenden.
Lightwood	Ein Pytorch -basiertes Framework, das maschinelles Lernen in kleinere Blöcke unterteilt, die nahtlos mit einem Ziel zusammengeklebt werden können, Vorhersagemodelle mit einer Codezeile zu erstellen.
AWS Data Wrangler	Ein Open-Source-Python-Paket, das die Leistung der Pandas-Bibliothek auf AWS-Verbindungsdatenrahmen und AWS-Datenbezogene Dienste erweitert (Amazon Redshift, AWS-Glue, Amazon Athena, Amazon EMR usw.).
Amazon Rekognition	AWS Rekognition ist ein Dienst, mit dem Entwickler, die mit Amazon Web Services arbeiten, ihren Anwendungen eine Bildanalyse hinzufügen. Katalogische Vermögenswerte, automatisieren Workflows und extrahieren Sie Bedeutung aus Ihren Medien und Anwendungen.
Amazon Textract	Extrahieren Sie automatisch gedruckten Text, Handschrift und Daten aus jedem Dokument.
Amazon Ausschau nach Vision	Stellen Sie Produktfehler mit Computer Vision an, um die Qualitätsinspektion zu automatisieren. Identifizieren Sie fehlende Produktkomponenten, Fahrzeug- und Strukturschäden sowie Unregelmäßigkeiten für eine umfassende Qualitätskontrolle.
Amazon Codeguru	Automatisieren Sie Code-Bewertungen und optimieren Sie die Anwendungsleistung mit ML-angetriebenen Empfehlungen.
CML	Ein Open -Source -Toolkit zur Verwendung kontinuierlicher Integration in Datenwissenschaftsprojekte. Trainieren und testen Modelle automatisch in produktionsähnlichen Umgebungen mit GitHub-Aktionen und Gitlab CI und autogener visueller Berichte über Pull/Merge-Anfragen.
Dask	Eine Open -Source -Python -Bibliothek, um Ihren Analysecode schmerzlos in verteilte Computersysteme (Big Data) zu übergangen
StatsModels	Ein Python-basierter Inferenzstatistik, Hypothesentest und Regressionsrahmen
Gensim	Eine Open-Source-Bibliothek zur Thema Thema für natürliche Sprachtext
Spacy	Ein leistungsfähiges Toolkit für natürliche Sprachverarbeitung
Grid Studio	Grid Studio ist eine webbasierte Tabellenkalkulationsanwendung mit vollständiger Integration der Python-Programmiersprache.
Python Data Science Handbuch	Python Data Science Handbook: Volltext in Jupyter -Notizbüchern
Shapley	Ein datengesteuerter Framework zur Quantifizierung des Werts von Klassifikatoren in einem maschinellen Lernensemble.
Dagshub	Eine Plattform, die auf Open -Source -Tools für Daten, Modell und Pipeline -Management basiert.
Tiefnote	Eine neue Art von Data Science Notebook. Jupyter-kompatibel, mit Echtzeit zusammenarbeiten und in der Cloud ausgeführt werden.
Valohai	Eine MLOPS -Plattform, die die Maschinenorchestrierung, die automatische Reproduzierbarkeit und die Bereitstellung übernimmt.
PYMC3	Eine Python -Bibliothek für probabalistische Programmierung (Bayes'sche Inferenz und maschinelles Lernen)
Pystan	Python -Schnittstelle zu Stan (Bayes'sche Inferenz und Modellierung)
Hmmlearn	Unbeaufsichtigtes Lernen und Schlussfolgerung versteckter Markov -Modelle
Chaos Genie	ML Powered Analytics Engine zur Erkennung von Ausreißer/Anomalie und Ursache Ursache Analyse
NimbleBox	Eine MLOPS-Plattform in voller Stack, die Datenwissenschaftlern und maschinellem Lernen auf der ganzen Welt helfen soll, Multi-Cloud-Apps aus ihrem Webbrowser zu entdecken, zu erstellen und zu starten.
Towhee	Eine Python -Bibliothek, mit der Sie Ihre unstrukturierten Daten in Einbettungen einbinden können.
Linienbezogene	Haben Sie jemals frustriert darüber, lange, unordentliche Jupyter -Notizbücher aufzuräumen? Mit Lineapy, einer Open -Source -Python -Bibliothek, dauert es nur zwei Codezeilen, um den chaotischen Entwicklungscode in Produktionspipelines umzuwandeln.
envd	?
Erforschen Sie Datenwissenschaftsbibliotheken	Eine Suchmaschine? Tool zum Entdecken und Finden einer kuratierten Liste beliebter und neuer Bibliotheken, Top -Autoren, Trendprojektkits, Diskussionen, Tutorials und Lernressourcen
Mlem	? Version und Bereitstellung Ihrer ML -Modelle nach Gitops -Prinzipien
Mlflow	MLOPS -Framework zum Verwalten von ML -Modellen in ihrem gesamten Lebenszyklus
CleanLab	Python-Bibliothek für datenzentrierte KI und automatisch Erkennung verschiedener Probleme in ML-Datensätzen
Autogluon	AutomL erstellen Sie problemlos genaue Vorhersagen für Bild-, Text-, Tabellen-, Zeitreihen- und multimodale Daten
Arize ai	ARIZE AI Community Tier Observability Tool zur Überwachung maschineller Lernmodelle in der Produktion und in den rootverursachenden Problemen wie Datenqualität und Leistungsdrift.
Aureo.io	Aureo.io ist eine Plattform mit niedrigem Code, die sich auf den Aufbau künstlicher Intelligenz konzentriert. Es bietet den Benutzern die Möglichkeit, Pipelines, Automatisierungen zu erstellen und sie in Modelle für künstliche Intelligenz zu integrieren - alles mit ihren grundlegenden Daten.
ERD Lab	Free Cloud -basierte Entitäts -Beziehungsdiagramm (ERD) -Tool für Entwickler.
Arize-Phoenix	Mlops in einem Notebook - Entdecken Sie Erkenntnisse, Oberflächenprobleme, überwachen und fein Ihre Modelle.
Komet	Eine MLOPS -Plattform mit Experimentverfolgung, Modellproduktionsmanagement, einer Modellregistrierung und einer vollständigen Datenlinie, um Ihren ML -Workflow von der Schulung direkt bis zur Produktion zu unterstützen.
Opik	Bewerten Sie LLM -Anwendungen in Ihren Entwicklungs- und Produktionslebenszyklen.
Synthisch	KI-betriebenes kollaboratives Umfeld für die Forschung. Finden Sie relevante Arbeiten, erstellen Sie Sammlungen, um die Bibliographie zu verwalten, und fassen Sie Inhalte zusammen - alles an einem Ort
Teeplot	Workflow -Tool zum automatischen Organisieren der Datenvisualisierungsausgabe
Straffung	App -Framework für maschinelles Lernen und Datenwissenschaftsprojekte
Gradio	Erstellen Sie anpassbare UI -Komponenten in Bezug auf maschinelles Lernmodelle
Gewichte & Vorurteile	Experimentverfolgung, Datensatzversionierung und Modellverwaltung
DVC	Open-Source-Versionskontrollsystem für maschinelle Lernprojekte
Optuna	Automatischer Software -Framework für Hyperparameteroptimierung
Ray Melodie	Skalierbare Hyperparameter -Tuning -Bibliothek
Apache -Luftstrom	Plattform zur programmgesteuerten Autorik-, Zeitplan- und Überwachung von Workflows
Präfekt	Workflow -Management -System für moderne Datenstapel
Kedro	Open-Source-Python-Framework zum Erstellen reproduzierbarer, wartbarer Data Science Code
Hamilton	Leichte Bibliothek, um zuverlässige Datentransformationen zu autorisieren und zu verwalten
Form	Spiele theoretischer Ansatz zur Erklärung der Ausgabe eines maschinellen Lernmodells
KALK	Erklären Sie die Vorhersagen eines Klassifikators für maschinelles Lernen
Flyte	Workflow -Automatisierungsplattform für maschinelles Lernen
DBT	Datenbauwerkzeug
Form	Spiele theoretischer Ansatz zur Erklärung der Ausgabe eines maschinellen Lernmodells
KALK	Erklären Sie die Vorhersagen eines Klassifikators für maschinelles Lernen

Literatur und Medien

^ back to top ^

Dieser Abschnitt enthält einige zusätzliche Lesematerialien, Kanäle, die Sie ansehen können und Gespräche zum Anhören.

Bücher

^ back to top ^

Datenwissenschaft von Grund auf neu: Erste Prinzipien mit Python
Künstliche Intelligenz mit Python - TutorialPoint
Maschinelles Lernen von Grund auf neu
Probabilistisches maschinelles Lernen: Eine Einführung
Ein umfassender Leitfaden zum maschinellen Lernen
Wie man in Data Science führt - Frühzugriff
Kämpfe gegen Daten kämpfen
Data Science in Skala mit Python und Dask
Python Data Science Handbuch
The Data Science Handbook: Advice and Insights from 25 Amazing Data Scientists
Think Like a Data Scientist
Introducing Data Science
Practical Data Science with R
Everyday Data Science & (cheaper PDF version)
Exploring Data Science - free eBook sampler
Exploring the Data Jungle - free eBook sampler
Classic Computer Science Problems in Python
Math for Programmers Early access
R in Action, Third Edition Early Access
Data Science Bookcamp Early access
Data Science Thinking: The Next Scientific, Technological and Economic Revolution
Applied Data Science: Lessons Learned for the Data-Driven Business
The Data Science Handbook
Essential Natural Language Processing - Early access
Mining Massive Datasets - free e-book comprehended by an online course
Pandas in Action - Early access
Genetic Algorithms and Genetic Programming
Advances in Evolutionary Algorithms - Free Download
Genetic Programming: New Approaches and Successful Applications - Free Download
Evolutionary Algorithms - Free Download
Advances in Genetic Programming, Vol. 3 - Free Download
Global Optimization Algorithms: Theory and Application - Free Download
Genetic Algorithms and Evolutionary Computation - Free Download
Convex Optimization - Convex Optimization book by Stephen Boyd - Free Download
Data Analysis with Python and PySpark - Early Access
R for Data Science
Build a Career in Data Science
Machine Learning Bookcamp - Early access
Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition
Effective Data Science Infrastructure
Practical MLOps: How to Get Ready for Production Models
Data Analysis with Python and PySpark
Regression, a Friendly guide - Early Access
Streaming Systems: The What, Where, When, and How of Large-Scale Data Processing
Data Science at the Command Line: Facing the Future with Time-Tested Tools
Machine Learning - CIn UFPE
Machine Learning with Python - Tutorialspoint
Deep Learning
Designing Cloud Data Platforms - Early Access
An Introduction to Statistical Learning with Applications in R
The Elements of Statistical Learning: Data Mining, Inference, and Prediction
Deep Learning with PyTorch
Neural Networks and Deep Learning
Deep Learning Cookbook
Introduction to Machine Learning with Python
Artificial Intelligence: Foundations of Computational Agents, 2nd Edition - Free HTML version
The Quest for Artificial Intelligence: A History of Ideas and Achievements - Free Download
Graph Algorithms for Data Science - Early Access
Data Mesh in Action - Early Access
Julia for Data Analysis - Early Access
Casual Inference for Data Science - Early Access
Regular Expression Puzzles and AI Coding Assistants by David Mertz
Dive into Deep Learning
Data for All
Interpretable Machine Learning: A Guide for Making Black Box Models Explainable - Free GitHub version
Foundations of Data Science Free Download
Comet for DataScience: Enhance your ability to manage and optimize the life cycle of your data science project
Software Engineering for Data Scientists - Early Access
Julia for Data Science - Early Access
An Introduction to Statistical Learning - Download Page
Machine Learning For Absolute Beginners
Unifying Business, Data, and Code: Designing Data Products with JSON Schema

Book Deals (Affiliated) ?

eBook sale - Save up to 45% on eBooks!
Causal Machine Learning
Managing ML Projects
Causal Inference for Data Science
Data for All

Journals, Publications and Magazines

^ back to top ^

ICML - International Conference on Machine Learning
GECCO - The Genetic and Evolutionary Computation Conference (GECCO)
epjdatascience
Journal of Data Science - an international journal devoted to applications of statistical methods at large
Big Data Research
Journal of Big Data
Big Data & Society
Data Science Journal
datatau.com/news - Like Hacker News, but for data
Data Science Trello Board
Medium Data Science Topic - Data Science related publications on medium
Towards Data Science Genetic Algorithm Topic -Genetic Algorithm related Publications towards Data Science
all AI news - The AI/ML/Big Data news aggregator platform

Newsletters

^ back to top ^

AI Digest. A weekly newsletter to keep up to date with AI, machine learning, and data science. Archive.
DataTalks.Club. A weekly newsletter about data-related things. Archive.
The Analytics Engineering Roundup. A newsletter about data science. Archive.

Bloggers

^ back to top ^

Wes McKinney - Wes McKinney Archives.
Matthew Russell - Mining The Social Web.
Greg Reda - Greg Reda Personal Blog
Kevin Davenport - Kevin Davenport Personal Blog
Julia Evans - Recurse Center alumna
Hakan Kardas - Personal Web Page
Sean J. Taylor - Personal Web Page
Drew Conway - Personal Web Page
Hilary Mason - Personal Web Page
Noah Iliinsky - Personal Blog
Matt Harrison - Personal Blog
Vamshi Ambati - AllThings Data Sciene
Prash Chan - Tech Blog on Master Data Management And Every Buzz Surrounding It
Clare Corthell - The Open Source Data Science Masters
Paul Miller Based in the UK and working globally, Cloud of Data's consultancy services help clients understand the implications of taking data and more to the Cloud.
Data Science London Data Science London is a non-profit organization dedicated to the free, open, dissemination of data science. We are the largest data science community in Europe. We are more than 3,190 data scientists and data geeks in our community.
Datawrangling by Peter Skomoroch. MACHINE LEARNING, DATA MINING, AND MORE
Quora Data Science - Data Science Questions and Answers from experts
Siah a PhD student at Berkeley
Louis Dorard a technology guy with a penchant for the web and for data, big and small
Machine Learning Mastery about helping professional programmers confidently apply machine learning algorithms to address complex problems.
Daniel Forsyth - Personal Blog
Data Science Weekly - Weekly News Blog
Revolution Analytics - Data Science Blog
R Bloggers - R Bloggers
The Practical Quant Big data
Yet Another Data Blog Yet Another Data Blog
Spenczar a data scientist at Twitch . I handle the whole data pipeline, from tracking to model-building to reporting.
KD Nuggets Data Mining, Analytics, Big Data, Data, Science not a blog a portal
Meta Brown - Personal Blog
Data Scientist is building the data scientist culture.
WhatSTheBigData is some of, all of, or much more than the above and this blog explores its impact on information technology, the business world, government agencies, and our lives.
Tevfik Kosar - Magnus Notitia
New Data Scientist How a Social Scientist Jumps into the World of Big Data
Harvard Data Science - Thoughts on Statistical Computing and Visualization
Data Science 101 - Learning To Be A Data Scientist
Kaggle Past Solutions
DataScientistJourney
NYC Taxi Visualization Blog
Learning Lover
Dataists
Data-Mania
Data-Magnum
P-value - Musings on data science, machine learning, and stats.
datascopeanalytics
Digital transformation
datascientistjourney
Data Mania Blog - The File Drawer - Chris Said's science blog
Emilio Ferrara's web page
DataNews
Reddit TextMining
Periscopic
Hilary Parker
Data Stories
Data Science Lab
Meaning of
Adventures in Data Land
DATA MINERS BLOG
Dataclysm
FlowingData - Visualization and Statistics
Calculated Risk
O'reilly Learning Blog
Dominodatalab
i am trask - A Machine Learning Craftsmanship Blog
Vademecum of Practical Data Science - Handbook and recipes for data-driven solutions of real-world problems
Dataconomy - A blog on the newly emerging data economy
Springboard - A blog with resources for data science learners
Analytics Vidhya - A full-fledged website about data science and analytics study material.
Occam's Razor - Focused on Web Analytics.
Data School - Data science tutorials for beginners!
Colah's Blog - Blog for understanding Neural Networks!
Sebastian's Blog - Blog for NLP and transfer learning!
Distill - Dedicated to clear explanations of machine learning!
Chris Albon's Website - Data Science and AI notes
Andrew Carr - Data Science with Esoteric programming languages
floydhub - Blog for Evolutionary Algorithms
Jingles - Review and extract key concepts from academic papers
nbshare - Data Science notebooks
Deep and Shallow - All things Deep and Shallow in Data Science
Loic Tetrel - Data science blog
Chip Huyen's Blog - ML Engineering, MLOps, and the use of ML in startups
Maria Khalusova - Data science blog
Aditi Rastogi - ML,DL,Data Science blog
Santiago Basulto - Data Science with Python
Akhil Soni - ML, DL and Data Science
Akhil Soni - ML, DL and Data Science

Presentations

^ back to top ^

How to Become a Data Scientist
Introduction to Data Science
Intro to Data Science for Enterprise Big Data
How to Interview a Data Scientist
How to Share Data with a Statistician
The Science of a Great Career in Data Science
What Does a Data Scientist Do?
Building Data Start-Ups: Fast, Big, and Focused
How to win data science competitions with Deep Learning
Full-Stack Data Scientist

Podcasts

^ back to top ^

AI at Home
AI Today
Adversarial Learning
Becoming a Data Scientist
Chai time Data Science
Data Crunch
Data Engineering Podcast
Data Science at Home
Data Science Mixer
Data Skeptic
Data Stories
Datacast
DataFramed
DataTalks.Club
Gradient Descent
Learning Machines 101
Let's Data (Brazil)
Linear Digressions
Not So Standard Deviations
O'Reilly Data Show Podcast
Partially Derivative
Superdatascience
The Data Engineering Show
The Radical AI Podcast
The Robot Brains Podcast
What's The Point
How AI Built This
The Analytics Engineering Podcast

YouTube Videos & Channels

^ back to top ^

What is machine learning?
Andrew Ng: Deep Learning, Self-Taught Learning and Unsupervised Feature Learning
Data36 - Data Science for Beginners by Tomi Mester
Deep Learning: Intelligence from Big Data
Interview with Google's AI and Deep Learning 'Godfather' Geoffrey Hinton
Introduction to Deep Learning with Python
What is machine learning, and how does it work?
Data School - Data Science Education
Neural Nets for Newbies by Melanie Warrick (May 2015)
Neural Networks video series by Hugo Larochelle
Google DeepMind co-founder Shane Legg - Machine Super Intelligence
Data Science Primer
Data Science with Genetic Algorithms
Data Science for Beginners
DataTalks.Club
Mildlyoverfitted - Tutorials on intermediate ML/DL topics
mlops.community - Interviews of industry experts about production ML
ML Street Talk - Unabashedly technical and non-commercial, so you will hear no annoying pitches.
Neural networks by 3Blue1Brown
Neural networks from scratch by Sentdex
Manning Publications YouTube channel
Ask Dr Chong: How to Lead in Data Science - Part 1
Ask Dr Chong: How to Lead in Data Science - Part 2
Ask Dr Chong: How to Lead in Data Science - Part 3
Ask Dr Chong: How to Lead in Data Science - Part 4
Ask Dr Chong: How to Lead in Data Science - Part 5
Ask Dr Chong: How to Lead in Data Science - Part 6
Regression Models: Applying simple Poisson regression
Deep Learning Architectures
Time Series Modelling and Analysis

Sozialisieren

^ back to top ^

Below are some Social Media links. Connect with other data scientists!

Facebook Accounts
Twitter Accounts
Telegram Channels
Slack Communities
GitHub Groups
Data Science Competitions

Facebook Accounts

^ back to top ^

Daten
Big Data Scientist
Data Science Day
Data Science Academy
Facebook Data Science Page
Data Science London
Data Science Technology and Corporation
Data Science - Closed Group
Center for Data Science
Big data hadoop NOSQL Hive Hbase
Analytics, Data Mining, Predictive Modeling, Artificial Intelligence
Big Data Analytics using R
Big Data Analytics with R and Hadoop
Big Data Learnings
Big Data, Data Science, Data Mining & Statistics
BigData/Hadoop Expert
Data Mining / Machine Learning / AI
Data Mining/Big Data - Social Network Ana
Vademecum of Practical Data Science
Veri Bilimi Istanbul
The Data Science Blog

Twitter Accounts

^ back to top ^

Twitter	Beschreibung
Big Data Combine	Rapid-fire, live tryouts for data scientists seeking to monetize their models as trading strategies
Big Data Mania	Data Viz Wiz, Data Journalist, Growth Hacker, Author of Data Science for Dummies (2015)
Big Data Science	Big Data, Data Science, Predictive Modeling, Business Analytics, Hadoop, Decision and Operations Research.
Charlie Greenbacker	Director of Data Science at @ExploreAltamira
Chris Said	Data scientist at Twitter
Clare Corthell	Dev, Design, Data Science @mattermark #hackerei
DADI Charles-Abner	#datascientist @Ekimetrics. , #machinelearning #dataviz #DynamicCharts #Hadoop #R #Python #NLP #Bitcoin #dataenthousiast
Data Science Central	Data Science Central is the industry's single resource for Big Data practitioners.
Data Science London	Data Science. Big Data. Data Hacks. Data Junkies. Data Startups. Open Data
Data Science Renee	Documenting my path from SQL Data Analyst pursuing an Engineering Master's Degree to Data Scientist
Data Science Report	Mission is to help guide & advance careers in Data Science & Analytics
Data Science Tips	Tips and Tricks for Data Scientists around the world! #datascience #bigdata
Data Vizzard	DataViz, Security, Military
DataScienceX
deeplearning4j
DJ Patil	White House Data Chief, VP @ RelateIQ.
Domino Data Lab
Drew Conway	Data nerd, hacker, student of conflict.
Emilio Ferrara	#Networks, #MachineLearning and #DataScience. I work on #Social Media. Postdoc at @IndianaUniv
Erin Bartolo	Running with #BigData--enjoying a love/hate relationship with its hype. @iSchoolSU #DataScience Program Mgr.
Greg Reda	Working @ GrubHub about data and pandas
Gregory Piatetsky	KDnuggets President, Analytics/Big Data/Data Mining/Data Science expert, KDD & SIGKDD co-founder, was Chief Scientist at 2 startups, part-time philosopher.
Hadley Wickham	Chief Scientist at RStudio, and an Adjunct Professor of Statistics at the University of Auckland, Stanford University, and Rice University.
Hakan Kardas	Data Scientist
Hilary Mason	Data Scientist in Residence at @accel.
Jeff Hammerbacher	ReTweeting about data science
John Myles White	Scientist at Facebook and Julia developer. Author of Machine Learning for Hackers and Bandit Algorithms for Website Optimization. Tweets reflect my views only.
Juan Miguel Lavista	Principal Data Scientist @ Microsoft Data Science Team
Julia Evans	Hacker - Pandas - Data Analyze
Kenneth Cukier	The Economist's Data Editor and co-author of Big Data (http://www.big-data-book.com/).
Kevin Davenport	Organizer of https://www.meetup.com/San-Diego-Data-Science-R-Users-Group/
Kevin Markham	Data science instructor, and founder of Data School
Kim Rees	Interactive data visualization and tools. Data flaneur.
Kirk Borne	DataScientist, PhD Astrophysicist, Top #BigData Influencer.
Linda Regber	Data storyteller, visualizations.
Luis Rei	PhD Student. Programming, Mobile, Web. Artificial Intelligence, Intelligent Robotics Machine Learning, Data Mining, Natural Language Processing, Data Science.
Mark Stevenson	Data Analytics Recruitment Specialist at Salt (@SaltJobs) Analytics - Insight - Big Data - Data science
Matt Harrison	Opinions of full-stack Python guy, author, instructor, currently playing Data Scientist. Occasional fathering, husbanding, organic gardening.
Matthew Russell	Mining the Social Web.
Mert Nuhoğlu	Data Scientist at BizQualify, Developer
Monica Rogati	Data @ Jawbone. Turned data into stories & products at LinkedIn. Text mining, applied machine learning, recommender systems. Ex-gamer, ex-machine coder; namer.
Noah Iliinsky	Visualization & interaction designer. Practical cyclist. Author of vis books: https://www.oreilly.com/pub/au/4419
Paul Miller	Cloud Computing/ Big Data/ Open Data Analyst & Consultant. Writer, Speaker & Moderator. Gigaom Research Analyst.
Peter Skomoroch	Creating intelligent systems to automate tasks & improve decisions. Entrepreneur, ex-Principal Data Scientist @LinkedIn. Machine Learning, ProductRei, Networks
Prash Chan	Solution Architect @ IBM, Master Data Management, Data Quality & Data Governance Blogger. Data Science, Hadoop, Big Data & Cloud.
Quora Data Science	Quora's data science topic
R-Bloggers	Tweet blog posts from the R blogosphere, data science conferences, and (!) open jobs for data scientists.
Rand Hindi
Randy Olson	Computer scientist researching artificial intelligence. Data tinkerer. Community leader for @DataIsBeautiful. #OpenScience advocate.
Recep Erol	Data Science geek @ UALR
Ryan Orban	Data scientist, genetic origamist, hardware aficionado
Sean J. Taylor	Sozialwissenschaftler. Hacker. Facebook Data Science Team. Keywords: Experiments, Causal Inference, Statistics, Machine Learning, Economics.
Silvia K. Spiva	#DataScience at Cisco
Harsh B. Gupta	Data Scientist at BBVA Compass
Spencer Nelson	Data nerd
Talha Oz	Enjoys ABM, SNA, DM, ML, NLP, HI, Python, Java. Top percentile Kaggler/data scientist
Tasos Skarlatidis	Complex Event Processing, Big Data, Artificial Intelligence and Machine Learning. Passionate about programming and open-source.
Terry Timko	InfoGov; Bigdata; Data as a Service; Data Science; Open, Social & Business Data Convergence
Tony Baer	IT analyst with Ovum covering Big Data & data management with some systems engineering thrown in.
Tony Ojeda	Data Scientist , Author , Entrepreneur. Co-founder @DataCommunityDC. Founder @DistrictDataLab. #DataScience #BigData #DataDC
Vamshi Ambati	Data Science @ PayPal. #NLP, #machinelearning; PhD, Carnegie Mellon alumni (Blog: https://allthingsds.wordpress.com )
Wes McKinney	Pandas (Python Data Analysis library).
WileyEd	Senior Manager - @Seagate Big Data Analytics @McKinsey Alum #BigData + #Analytics Evangelist #Hadoop, #Cloud, #Digital, & #R Enthusiast
WNYC Data News Team	The data news crew at @WNYC. Practicing data-driven journalism, making it visual, and showing our work.
Alexey Grigorev	Data science author
İlker Arslan	Data science author. Shares mostly about Julia programming
UNVERMEIDLICH	AI & Data Science Start-up Company based in England, UK

Telegram Channels

^ back to top ^

Open Data Science – First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former.
Loss function porn — Beautiful posts on DS/ML theme with video or graphic visualization.
Machinelearning – Daily ML news.

Slack Communities

Spitze

DataTalks.Club
Women Who Code - Data Science

GitHub Groups

Berkeley Institute for Data Science

Data Science Competitions

Some data mining competition platforms

Kaggle
DrivenData
Analytics Vidhya
InnoCentive
Microprediction

Spaß

Infographic
Datasets
Comics

Infographics

^ back to top ^

Vorschau	Beschreibung
	Key differences of a data scientist vs. data engineer
	A visual guide to Becoming a Data Scientist in 8 Steps by DataCamp (img)
	Mindmap on required skills (img)
	Swami Chandrasekaran made a Curriculum via Metro map.
	by @kzawadz via twitter
	By Data Science Central
	Data Science Wars: R vs Python
	How to select statistical or machine learning techniques
	Choosing the Right Estimator
	The Data Science Industry: Who Does What
	Datenwissenschaft ~~Venn~~ Euler Diagram
	Different Data Science Skills and Roles from this article by Springboard
	A simple and friendly way of teaching your non-data scientist/non-statistician colleagues how to avoid mistakes with data. From Geckoboard's Data Literacy Lessons.

Datasets

^ back to top ^

Academic Torrents
ADS-B Exchange - Specific datasets for aircraft and Automatic Dependent Surveillance-Broadcast (ADS-B) sources.
hadoopilluminated.com
data.gov - The home of the US Government's open data
United States Census Bureau
usgovxml.com
enigma.com - Navigate the world of public data - Quickly search and analyze billions of public records published by governments, companies and organizations.
datahub.io
aws.amazon.com/datasets
datacite.org
The official portal for European data
NASDAQ:DATA - Nasdaq Data Link A premier source for financial, economic and alternative datasets.
figshare.com
GeoLite Legacy Downloadable Databases
Quora's Big Datasets Answer
Public Big Data Sets
Kaggle Datasets
A Deep Catalog of Human Genetic Variation
A community-curated database of well-known people, places, and things
Google Public Data
World Bank Data
NYC Taxi data
Open Data Philly Connecting people with data for Philadelphia
grouplens.org Sample movie (with ratings), book and wiki datasets
UC Irvine Machine Learning Repository - contains data sets good for machine learning
research-quality data sets by Hilary Mason
National Centers for Environmental Information
ClimateData.us (related: US Climate Resilience Toolkit)
r/datasets
MapLight - provides a variety of data free of charge for uses that are freely available to the general public. Click on a data set below to learn more
GHDx - Institute for Health Metrics and Evaluation - a catalog of health and demographic datasets from around the world and including IHME results
St. Louis Federal Reserve Economic Data - FRED
New Zealand Institute of Economic Research – Data1850
Open Data Sources
UNICEF Data
undata
NASA SocioEconomic Data and Applications Center - SEDAC
The GDELT Project
Sweden, Statistics
StackExchange Data Explorer - an open source tool for running arbitrary queries against public data from the Stack Exchange network.
SocialGrep - a collection of open Reddit datasets.
San Fransisco Government Open Data
IBM Asset Dataset
Open data Index
Public Git Archive
GHTorrent
Microsoft Research Open Data
Open Government Data Platform India
Google Dataset Search (beta)
NAYN.CO Turkish News with categories
COVID-19
Covid-19 Google
Enron Email Dataset
5000 Images of Clothes
IBB Open Portal
The Humanitarian Data Exchange

Comics

^ back to top ^

Comic compilation
Cartoons
Data Science Cartoons
Data Science: The XKCD Edition

Other Awesome Lists

Other amazingly awesome lists can be found in the awesome-awesomeness
Awesome Machine Learning
lists
awesome-dataviz
awesome-python
Data Science IPython Notebooks.
awesome-r
awesome-datasets
awesome-Machine Learning & Deep Learning Tutorials
Awesome Data Science Ideas
Machine Learning for Software Engineers
Community Curated Data Science Resources
Awesome Machine Learning On Source Code
Awesome Community Detection
Awesome Graph Classification
Awesome Decision Tree Papers
Awesome Fraud Detection Papers
Awesome Gradient Boosting Papers
Awesome Computer Vision Models
Awesome Monte Carlo Tree Search
Glossary of common statistics and ML terms
100 NLP Papers
Awesome Game Datasets
Data Science Interviews Questions
Awesome Explainable Graph Reasoning
Top Data Science Interview Questions
Awesome Drug Synergy, Interaction and Polypharmacy Prediction
Deep Learning Interview Questions
Top Future Trends in Data Science in 2023
How Generative AI Is Changing Creative Work
What is generative AI?
Top 100+ Machine Learning Interview Questions (Beginner to Advanced)

Hobby

Awesome Music Production

Expandieren