
Ein Open-Source-Data Science-Repository, um Probleme mit der Lösung realer Welt zu lernen und zu bewerben.
Dies ist ein Abkürzungspfad, um die Datenwissenschaft zu untersuchen. Befolgen Sie einfach die Schritte, um die Fragen zu beantworten: "Was ist Datenwissenschaft und was soll ich studieren, um Datenwissenschaft zu lernen?"
| Sponsor | Tonhöhe |
|---|---|
| --- | Sei der erste, der sponsert! [email protected] |
^ back to top ^
Data Science ist heutzutage eines der heißesten Themen auf dem Computer- und Internet -Ackerland. Menschen haben bis heute Daten von Anwendungen und Systemen gesammelt und ist jetzt an der Zeit, sie zu analysieren. Die nächsten Schritte erzeugen Vorschläge aus den Daten und erstellen Vorhersagen über die Zukunft. Hier finden Sie die größte Frage für Data Science und Hunderte von Antworten von Experten.
| Link | Vorschau |
|---|---|
| Was ist Data Science @ O'Reilly | Datenwissenschaftler kombinieren Unternehmertum mit Geduld, die Bereitschaft, Datenprodukte schrittweise zu erstellen, die Fähigkeit zu erforschen und die Fähigkeit, über eine Lösung zu iterieren. Sie sind von Natur aus interdisziplinär. Sie können alle Aspekte eines Problems in Angriff nehmen, von der anfänglichen Datenerfassung und der Datenkonditionierung bis hin zum Zeichnen von Schlussfolgerungen. Sie können über den Tellerrand hinaus nachdenken, um neue Wege zu finden, um das Problem anzusehen oder mit sehr breit definierten Problemen zu arbeiten: "Hier sind viele Daten, was können Sie daraus machen?" |
| Was ist Data Science @ quora | Data Science ist eine Kombination aus einer Reihe von Aspekten von Daten wie Technologie, Algorithmusentwicklung und Dateninterferenz, um die Daten zu untersuchen, sie zu analysieren und innovative Lösungen für schwierige Probleme zu finden. Im Grunde genommen geht es bei Data Science nur darum, Daten zu analysieren und für das Geschäftswachstum zu fördern, indem es kreative Wege finden. |
| Die sexieste Arbeit des 21. Jahrhunderts | Datenwissenschaftler sind heute den „Quants“ der Wall Street der 1980er und 1990er Jahre ähnlich. In jenen Tagen steuerten Menschen mit Hintergründen in Physik und Mathematik an Investmentbanken und Hedgefonds, wo sie völlig neue Algorithmen und Datenstrategien entwickeln konnten. Anschließend entwickelten eine Vielzahl von Universitäten Master -Programme in Financial Engineering, die eine zweite Generation von Talenten herausstellten, die für Mainstream -Unternehmen zugänglicher war. Das Muster wurde später in den neunziger Jahren mit Suchingenieuren wiederholt, deren verdünnte Fähigkeiten bald in Informatikprogrammen unterrichtet wurden. |
| Wikipedia | Data Science ist ein interdisziplinäres Gebiet, das wissenschaftliche Methoden, Prozesse, Algorithmen und Systeme verwendet, um Wissen und Erkenntnisse aus vielen strukturellen und unstrukturierten Daten zu extrahieren. Data Science bezieht sich auf Data Mining, maschinelles Lernen und Big Data. |
| Wie man Datenwissenschaftler wird | Datenwissenschaftler sind Big Data Wrangler, die große Sätze strukturierter und unstrukturierter Daten sammeln und analysieren. Die Rolle eines Datenwissenschaftlers kombiniert Informatik, Statistik und Mathematik. Sie analysieren, verarbeiten und modellieren dann die Ergebnisse, um umsetzbare Pläne für Unternehmen und andere Organisationen zu erstellen. |
| Eine sehr kurze Geschichte von #Datascience | Die Geschichte, wie Datenwissenschaftler sexy geworden sind, ist hauptsächlich die Geschichte der Kopplung der reifen Disziplin von Statistiken mit einer sehr jungen Einheit. Der Begriff „Data Science“ hat sich erst kürzlich entstanden, um einen neuen Beruf ausdrücklich zu bezeichnen, der für die riesigen Läden von Big Data erwartet wird. Daten zu verstehen, hat jedoch eine lange Geschichte und wird seit Jahren von Wissenschaftlern, Statistikern, Bibliothekaren, Informatikern und anderen diskutiert. Die folgende Zeitleiste verfolgt die Entwicklung des Begriffs „Datenwissenschaft“ und seiner Verwendung, versucht ihn zu definieren und verwandte Begriffe. |
| Softwareentwicklungsressourcen für Datenwissenschaftler | Datenwissenschaftler konzentrieren sich darauf, Daten durch explorative Analyse, Statistiken und Modelle zu verstehen. Softwareentwickler wenden einen separaten Wissenssatz mit unterschiedlichen Tools an. Obwohl ihr Fokus nicht miteinander in Zusammenhang steht, können Data Science -Teams von der Einführung von Best Practices der Softwareentwicklung profitieren. Versionskontrolle, automatisierte Tests und andere Entwicklungsfähigkeiten tragen dazu bei, reproduzierbare, produktionsbereite Code und Tools zu erstellen. |
| Data Scientist Roadmap | Data Science ist eine hervorragende Berufswahl in der heutigen datengesteuerten Welt, in der täglich ca. 328,77 Millionen Terabyte Daten generiert werden. Und diese Zahl nimmt nur von Tag zu Tag zu, was wiederum die Nachfrage nach qualifizierten Datenwissenschaftlern erhöht, die diese Daten nutzen können, um das Geschäftswachstum voranzutreiben. |
| Navigieren Sie Ihren Weg zum Datenwissenschaftler | _Data Science ist heute eine der gefragtesten Karrieren. Da Unternehmen zunehmend auf Daten angewiesen sind, um Entscheidungen zu treffen, ist die Notwendigkeit von qualifizierten Datenwissenschaftlern schnell gewachsen. Ob technische Unternehmen, Gesundheitsorganisationen oder sogar staatliche Institutionen, Datenwissenschaftler spielen eine entscheidende Rolle bei der Umwandlung von Rohdaten in wertvolle Erkenntnisse. Aber wie werden Sie Datenwissenschaftler, besonders wenn Sie gerade erst anfangen? _ |
^ back to top ^
Obwohl es nicht streng notwendig ist, ist eine Programmiersprache eine entscheidende Fähigkeit, als Datenwissenschaftler effektiv zu sein. Derzeit ist die beliebteste Sprache Python , genau gefolgt von r . Python ist eine allgemeine Skriptsprache, die Anwendungen in einer Vielzahl von Feldern sieht. R ist eine domänenspezifische Sprache für Statistiken, die viele gängige Statistikwerkzeuge aus der Box enthält.
Python ist bei weitem die beliebteste Sprache in der Wissenschaft, die nicht zuletzt auf die Leichtigkeit zurückzuführen ist, bei der es verwendet werden kann, und das lebendige Ökosystem von benutzergenerierten Paketen. Um Pakete zu installieren, gibt es zwei Hauptmethoden: PIP (als pip install aufgerufen), dem Paketmanager, der mit Python geliefert wird, und Anaconda (aufgerufen als conda install ), einem leistungsstarken Paketmanager, mit dem Pakete für Python, R, installiert werden können, und ausführbare Direktinvestitionen wie Git herunterladen können.
Im Gegensatz zu R wurde Python nicht aus Grund mit der Datenwissenschaft aufgebaut, aber es gibt viele Bibliotheken von Drittanbietern, die dies ausgleichen. Eine viel umfassendere Liste von Paketen finden Sie später in diesem Dokument. Diese vier Pakete sind jedoch eine gute Auswahl, um Ihre Data Science-Reise zu beginnen: Scikit-Learn ist ein allgemeines Datenwissenschaftspaket, das die beliebtesten Algorithmen implementiert. Auch wenn Sie es vorziehen, Ihre eigenen Implementierungen zu schreiben, ist Scikit-Learn ein wertvoller Hinweis auf die Nüsse und Verstürze hinter vielen der gemeinsamen Algorithmen, die Sie finden. Mit Pandas kann man ihre Daten in ein bequemes Tabellenformat sammeln und analysieren. Numpy bietet ein sehr schnelles Werkzeug für mathematische Operationen mit Schwerpunkt auf Vektoren und Matrizen. Seeborn, selbst basierend auf dem Matplotlib -Paket, ist eine schnelle Möglichkeit, schöne Visualisierungen Ihrer Daten zu generieren, wobei viele gute Standardeinstellungen außerhalb des Box verfügbar sind, sowie eine Galerie, die zeigt, wie viele gemeinsame Visualisierungen Ihrer Daten erstellt werden.
Wenn Sie sich auf Ihre Reise zum Datenwissenschaftler machen, ist die Wahl der Sprache nicht besonders wichtig, und sowohl Python als auch R haben ihre Vor- und Nachteile. Wählen Sie eine Sprache aus, die Ihnen gefällt, und sehen Sie sich einen der kostenlosen Kurse an, die wir unten aufgeführt haben!
^ back to top ^
Data Science ist ein leistungsstarkes Tool, das in verschiedenen Bereichen verwendet wird, um reale Probleme zu lösen, indem Erkenntnisse und Muster aus komplexen Daten extrahiert werden.
^ back to top ^
^ back to top ^
Wie lernen Sie Datenwissenschaft? Natürlich durch Datenwissenschaft! Okay, okay - das ist möglicherweise nicht besonders hilfreich, wenn Sie zum ersten Mal anfangen. In diesem Abschnitt haben wir einige Lernressourcen aufgelistet, in groben Reihenfolge von den meisten bis zum größten Engagement - Tutorials, massiv offene Online -Kurse (MOOCs), intensive Programme und Hochschulen.
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
Dieser Abschnitt ist eine Sammlung von Paketen, Tools, Algorithmen und anderen nützlichen Elementen in der Datenwissenschaftswelt.
^ back to top ^
Dies sind einige Algorithmen für maschinelles Lernen und Data Mining, und Modelle helfen Ihnen, Ihre Daten zu verstehen und eine Bedeutung daraus abzuleiten.
^ back to top ^
^ back to top ^
^ back to top ^
| Link | Beschreibung |
|---|---|
| Der Datenwissenschaftslifezyklusprozess | Der Prozess des Datenwissenschaftslebenszyklus ist ein Prozess, mit dem Data Science -Teams wiederholt und nachhaltig von der Idee bewertet werden können. Der Prozess ist in diesem Repo dokumentiert |
| Data Science Lifecycle Vorlage Repo | Template -Repository für Datenwissenschaftslebenszyklusprojekt |
| Rexmex | Ein allgemeiner Empfehlungsbibliothek für Metriken zur fairen Bewertung. |
| Chemicalx | Eine Pytorch -basierte Deep Learning Library für das Tor von Drogenpaaren. |
| Pytorch geometrische zeitliche | Repräsentationslernen in dynamischen Graphen. |
| Kleiner Fellball | Eine Diagrammabtastbibliothek für NetworkX mit einem Scikit-Learn-ähnlichen API. |
| Karate Club | Eine unbeaufsichtigte Erweiterungsbibliothek für maschinelles Lernen für NetworkX mit einem scikit-larn-ähnlichen API. |
| ML Arbeitsbereich | All-in-One-webbasierte IDE für maschinelles Lernen und Datenwissenschaft. Der Arbeitsbereich wird als Docker -Container bereitgestellt und mit einer Vielzahl beliebter Datenwissenschaftsbibliotheken (z. |
| Neptune.ai | Community-freundliche Plattform, die Datenwissenschaftler beim Erstellen und Teilen von Modellen für maschinelles Lernen unterstützt. Neptun ermöglicht Teamarbeit, Infrastrukturmanagement, Modelle Vergleich und Reproduzierbarkeit. |
| Steppy | Leichte, Python -Bibliothek für schnelles und reproduzierbares Experimentieren für maschinelles Lernen. Führt eine sehr einfache Schnittstelle ein, die das Design Clean Machine Learning Pipeline Design ermöglicht. |
| Steppy-Toolkit | Kuratierte Sammlung der neuronalen Netzwerke, Transformatoren und Modelle, die Ihr maschinelles Lernen schneller und effektiver funktionieren. |
| Datalab von Google | Erforschen, visualisieren, analysieren und transformieren Sie Daten mithilfe bekannter Sprachen wie Python und SQL interaktiv. |
| Hortonworks Sandbox | ist eine persönliche, tragbare Hadoop -Umgebung, die mit einem Dutzend interaktiven Hadoop -Tutorials ausgestattet ist. |
| R | ist eine kostenlose Software -Umgebung für statistisches Computer und Grafiken. |
| Tidyverse | ist eine Meinung von R -Paketen, die für die Datenwissenschaft entwickelt wurden. Alle Pakete haben eine zugrunde liegende Designphilosophie, Grammatik und Datenstrukturen. |
| RSTUDIO | IDE - leistungsstarke Benutzeroberfläche für R. Es ist kostenlos und open Source und funktioniert unter Windows, Mac und Linux. |
| Python - Pandas - Anaconda | VOLLSTÄNDIG FREE ENTERPRISE-FEHLER PYTHON-Verteilung für die Datenverarbeitung in großem Maßstab, prädiktive Analysen und wissenschaftliches Computing |
| Pandas GUI | Pandas GUI |
| Scikit-Learn | Maschinelles Lernen in Python |
| Numpy | Numpy ist grundlegend für wissenschaftliches Computing mit Python. Es unterstützt große, mehrdimensionale Arrays und Matrizen und umfasst eine Auswahl an mathematischen Funktionen auf hoher Ebene, um auf diesen Arrays zu arbeiten. |
| Vaex | VAEX ist eine Python -Bibliothek, mit der Sie große Datensätze visualisieren und Statistiken bei hohen Geschwindigkeiten berechnen können. |
| Scipy | Scipy arbeitet mit Numpy -Arrays zusammen und bietet effiziente Routinen für die numerische Integration und Optimierung. |
| Data Science Toolbox | Coursera Kurs |
| Data Science Toolbox | Blog |
| Wolfram Data Science Plattform | Nehmen Sie numerische, textuelle, Bild, GIS oder andere Daten und geben Sie ihm die Wolfram-Behandlung an, indem Sie ein vollständiges Spektrum an Datenwissenschaftsanalyse und -visualisierung durchführen und automatisch umfangreiche interaktive Berichte erzeugen-alle mit der revolutionären wissensbasierten Wolfram-Sprache. |
| Datadog | Lösungen, Code und DevOps für hochwertige Datenwissenschaft. |
| Varianz | Erstellen Sie leistungsstarke Datenvisualisierungen für das Web, ohne JavaScript zu schreiben |
| Kite Development Kit | Das Kite Software Development Kit (Apache -Lizenz, Version 2.0) oder kurz Kite ist eine Reihe von Bibliotheken, Tools, Beispielen und Dokumentationen, die darauf ausgerichtet sind, Systeme über dem Hadoop -Ökosystem zu erstellen. |
| Domino Data Labs | Führen Sie Ihre Modelle ohne Infrastruktur oder Setup aus, skalieren, teilen und bereitstellen Sie Ihre Modelle ein. |
| Apache Flink | Eine Plattform für eine effiziente, verteilte allgemeine Datenverarbeitung. |
| Apache Hama | Apache Hama ist ein Open-Source-Projekt von Apache, sodass Sie erweiterte Analysen jenseits von MapReduce durchführen können. |
| Weka | Weka ist eine Sammlung von Algorithmen für maschinelles Lernen für Data Mining -Aufgaben. |
| Oktave | GNU Octave ist eine hochrangige interpretierte Sprache, die hauptsächlich für numerische Berechnungen bestimmt ist. (Freie Matlab) |
| Apache Funken | Lightning-Fast Cluster Computing |
| Hydrosphere Nebel | Ein Dienst zur Aufdeckung von Apache Spark Analytics -Jobs und maschinellem Lernmodellen als Echtzeit-, Batch- oder Reaktiv -Webdienste. |
| Datenmechanik | Eine Data Science and Engineering-Plattform, die Apache-Funderfunchierer-freundlicher und kostengünstiger macht. |
| Kaffe | Deep Learning Framework |
| Fackel | Ein wissenschaftliches Computergerüst für Luajit |
| Nervanas Python -basierter Deep Learning Framework | Intel® Nervana ™ Referenz Deep Learning Framework für die beste Leistung für alle Hardware. |
| Skala | Hochleistungsverteilte Datenverarbeitung in NodeJs |
| Aerosolve | Ein maschinelles Lernpaket für Menschen. |
| Intel Framework | Intel® Deep Learning Framework |
| Datawrapper | Eine Open -Source -Datenvisualisierungsplattform hilft jedem, einfache, korrekte und einbettbare Diagramme zu erstellen. Auch bei Github.com |
| Tensorfluss | TensorFlow ist eine Open -Source -Software -Bibliothek für Machine Intelligence |
| Natürliches Sprach -Toolkit | Ein einführendes, aber leistungsfähiges Toolkit für die Verarbeitung und Klassifizierung natürlicher Sprache |
| Annotationslabor | Kostenlose End-to-End-No-Code-Plattform für Textanmerkungen und DL-Modelltraining/-abstimmung. Out-of-the-Box-Unterstützung für die genannte Entitätserkennungs-, Klassifizierungs-, Beziehungsextraktions- und Behauptungsstatus-Funken-NLP-Modelle. Unbegrenzte Unterstützung für Benutzer, Teams, Projekte, Dokumente. |
| nlp-toolkit für node.js | Dieses Modul deckt einige grundlegende NLP -Prinzipien und -implementierungen ab. Das Hauptaugenmerk liegt auf der Leistung. Wenn wir uns mit Beispiel- oder Trainingsdaten in NLP befassen, haben wir schnell den Speicher mehr. Daher wird jede Implementierung in diesem Modul als Stream geschrieben, um nur diese Daten in Speicher zu behalten, die derzeit in jedem Schritt verarbeitet werden. |
| Julia | Hochleistungsdynamische Programmiersprache für technisches Computing mit hoher Leistung |
| Ijulia | Ein Julia-Sprach-Backend in Kombination mit der Jupyter Interactive Environment |
| Apache Zeppelin | Webbasiertes Notizbuch, das datengesteuerte, interaktive Datenanalysen und kollaborative Dokumente mit SQL, Scala und mehr ermöglicht |
| Featuretools | Ein Open -Source -Framework für automatisierte Features Engineering in Python geschrieben |
| Optimus | Reinigung, Vorverarbeitung, Feature Engineering, Explorationsdatenanalyse und einfaches ML mit PYSPark-Backend. |
| Albumentationen | Eine schnelle und Framework Agnostic Image Augmentation Library, die eine Vielzahl von Augmentationstechniken implementiert. Unterstützt die Klassifizierung, Segmentierung und Erkennung von der Box. Wurde verwendet, um eine Reihe von Deep -Learning -Wettbewerben in Kaggle, Topcoder und diejenigen zu gewinnen, die Teil der CVPR -Workshops waren. |
| DVC | Ein Open-Source Data Science-Versionskontrollsystem. Es hilft, Datenwissenschaftsprojekte zu verfolgen, zu organisieren und reproduzierbar zu machen. In seinem sehr grundlegenden Szenario hilft es, die Version zu steuern und große Daten- und Modelldateien zu teilen. |
| Lambdo | ist eine Workflow -Engine, die die Datenanalyse signifikant vereinfacht, indem sie in einer Analyse -Pipeline (i) Feature Engineering und maschinelles Lernen (ii) Modelltraining und Vorhersage (III) Tabellenpopulation und Spaltenbewertung (II) vereinfacht. |
| Fest | Ein Feature -Store für die Verwaltung, Entdeckung und den Zugriff maschineller Lernen. Feast bietet eine konsistente Sichtweise der Merkmalsdaten sowohl für das Modelltraining als auch für die Modelldienste. |
| Polyaxon | Eine Plattform für reproduzierbare und skalierbare maschinelle Lernen und tiefes Lernen. |
| LightTag | Textannotationstool für Teams |
| Ubiai | Einfach zu bedienender Textanmerkmale für Teams mit umfassendsten Funktionen für Autoannotation. Unterstützt NER, Beziehungen und Dokumentenklassifizierung sowie OCR -Annotation für die Rechnungskennzeichnung |
| Züge | Auto-Magical Experiment Manager, Versionskontrolle und DevOps für KI |
| Hopsschalen | Open-Source-datenintensive maschinelle Lernplattform mit einem Feature-Store. Nehmen und verwalten Sie Funktionen für Online (MySQL Cluster) und Offline (Apache Hive), trainieren und servieren Modelle im Maßstab. |
| Mindsdb | Mindsdb ist ein erklärbares Automl -Framework für Entwickler. Mit Mindsdb können Sie hochmoderne ML -Modelle so einfach wie eine Codezeile erstellen, trainieren und verwenden. |
| Lightwood | Ein Pytorch -basiertes Framework, das maschinelles Lernen in kleinere Blöcke unterteilt, die nahtlos mit einem Ziel zusammengeklebt werden können, Vorhersagemodelle mit einer Codezeile zu erstellen. |
| AWS Data Wrangler | Ein Open-Source-Python-Paket, das die Leistung der Pandas-Bibliothek auf AWS-Verbindungsdatenrahmen und AWS-Datenbezogene Dienste erweitert (Amazon Redshift, AWS-Glue, Amazon Athena, Amazon EMR usw.). |
| Amazon Rekognition | AWS Rekognition ist ein Dienst, mit dem Entwickler, die mit Amazon Web Services arbeiten, ihren Anwendungen eine Bildanalyse hinzufügen. Katalogische Vermögenswerte, automatisieren Workflows und extrahieren Sie Bedeutung aus Ihren Medien und Anwendungen. |
| Amazon Textract | Extrahieren Sie automatisch gedruckten Text, Handschrift und Daten aus jedem Dokument. |
| Amazon Ausschau nach Vision | Stellen Sie Produktfehler mit Computer Vision an, um die Qualitätsinspektion zu automatisieren. Identifizieren Sie fehlende Produktkomponenten, Fahrzeug- und Strukturschäden sowie Unregelmäßigkeiten für eine umfassende Qualitätskontrolle. |
| Amazon Codeguru | Automatisieren Sie Code-Bewertungen und optimieren Sie die Anwendungsleistung mit ML-angetriebenen Empfehlungen. |
| CML | Ein Open -Source -Toolkit zur Verwendung kontinuierlicher Integration in Datenwissenschaftsprojekte. Trainieren und testen Modelle automatisch in produktionsähnlichen Umgebungen mit GitHub-Aktionen und Gitlab CI und autogener visueller Berichte über Pull/Merge-Anfragen. |
| Dask | Eine Open -Source -Python -Bibliothek, um Ihren Analysecode schmerzlos in verteilte Computersysteme (Big Data) zu übergangen |
| StatsModels | Ein Python-basierter Inferenzstatistik, Hypothesentest und Regressionsrahmen |
| Gensim | Eine Open-Source-Bibliothek zur Thema Thema für natürliche Sprachtext |
| Spacy | Ein leistungsfähiges Toolkit für natürliche Sprachverarbeitung |
| Grid Studio | Grid Studio ist eine webbasierte Tabellenkalkulationsanwendung mit vollständiger Integration der Python-Programmiersprache. |
| Python Data Science Handbuch | Python Data Science Handbook: Volltext in Jupyter -Notizbüchern |
| Shapley | Ein datengesteuerter Framework zur Quantifizierung des Werts von Klassifikatoren in einem maschinellen Lernensemble. |
| Dagshub | Eine Plattform, die auf Open -Source -Tools für Daten, Modell und Pipeline -Management basiert. |
| Tiefnote | Eine neue Art von Data Science Notebook. Jupyter-kompatibel, mit Echtzeit zusammenarbeiten und in der Cloud ausgeführt werden. |
| Valohai | Eine MLOPS -Plattform, die die Maschinenorchestrierung, die automatische Reproduzierbarkeit und die Bereitstellung übernimmt. |
| PYMC3 | Eine Python -Bibliothek für probabalistische Programmierung (Bayes'sche Inferenz und maschinelles Lernen) |
| Pystan | Python -Schnittstelle zu Stan (Bayes'sche Inferenz und Modellierung) |
| Hmmlearn | Unbeaufsichtigtes Lernen und Schlussfolgerung versteckter Markov -Modelle |
| Chaos Genie | ML Powered Analytics Engine zur Erkennung von Ausreißer/Anomalie und Ursache Ursache Analyse |
| NimbleBox | Eine MLOPS-Plattform in voller Stack, die Datenwissenschaftlern und maschinellem Lernen auf der ganzen Welt helfen soll, Multi-Cloud-Apps aus ihrem Webbrowser zu entdecken, zu erstellen und zu starten. |
| Towhee | Eine Python -Bibliothek, mit der Sie Ihre unstrukturierten Daten in Einbettungen einbinden können. |
| Linienbezogene | Haben Sie jemals frustriert darüber, lange, unordentliche Jupyter -Notizbücher aufzuräumen? Mit Lineapy, einer Open -Source -Python -Bibliothek, dauert es nur zwei Codezeilen, um den chaotischen Entwicklungscode in Produktionspipelines umzuwandeln. |
| envd | ? |
| Erforschen Sie Datenwissenschaftsbibliotheken | Eine Suchmaschine? Tool zum Entdecken und Finden einer kuratierten Liste beliebter und neuer Bibliotheken, Top -Autoren, Trendprojektkits, Diskussionen, Tutorials und Lernressourcen |
| Mlem | ? Version und Bereitstellung Ihrer ML -Modelle nach Gitops -Prinzipien |
| Mlflow | MLOPS -Framework zum Verwalten von ML -Modellen in ihrem gesamten Lebenszyklus |
| CleanLab | Python-Bibliothek für datenzentrierte KI und automatisch Erkennung verschiedener Probleme in ML-Datensätzen |
| Autogluon | AutomL erstellen Sie problemlos genaue Vorhersagen für Bild-, Text-, Tabellen-, Zeitreihen- und multimodale Daten |
| Arize ai | ARIZE AI Community Tier Observability Tool zur Überwachung maschineller Lernmodelle in der Produktion und in den rootverursachenden Problemen wie Datenqualität und Leistungsdrift. |
| Aureo.io | Aureo.io ist eine Plattform mit niedrigem Code, die sich auf den Aufbau künstlicher Intelligenz konzentriert. Es bietet den Benutzern die Möglichkeit, Pipelines, Automatisierungen zu erstellen und sie in Modelle für künstliche Intelligenz zu integrieren - alles mit ihren grundlegenden Daten. |
| ERD Lab | Free Cloud -basierte Entitäts -Beziehungsdiagramm (ERD) -Tool für Entwickler. |
| Arize-Phoenix | Mlops in einem Notebook - Entdecken Sie Erkenntnisse, Oberflächenprobleme, überwachen und fein Ihre Modelle. |
| Komet | Eine MLOPS -Plattform mit Experimentverfolgung, Modellproduktionsmanagement, einer Modellregistrierung und einer vollständigen Datenlinie, um Ihren ML -Workflow von der Schulung direkt bis zur Produktion zu unterstützen. |
| Opik | Bewerten Sie LLM -Anwendungen in Ihren Entwicklungs- und Produktionslebenszyklen. |
| Synthisch | KI-betriebenes kollaboratives Umfeld für die Forschung. Finden Sie relevante Arbeiten, erstellen Sie Sammlungen, um die Bibliographie zu verwalten, und fassen Sie Inhalte zusammen - alles an einem Ort |
| Teeplot | Workflow -Tool zum automatischen Organisieren der Datenvisualisierungsausgabe |
| Straffung | App -Framework für maschinelles Lernen und Datenwissenschaftsprojekte |
| Gradio | Erstellen Sie anpassbare UI -Komponenten in Bezug auf maschinelles Lernmodelle |
| Gewichte & Vorurteile | Experimentverfolgung, Datensatzversionierung und Modellverwaltung |
| DVC | Open-Source-Versionskontrollsystem für maschinelle Lernprojekte |
| Optuna | Automatischer Software -Framework für Hyperparameteroptimierung |
| Ray Melodie | Skalierbare Hyperparameter -Tuning -Bibliothek |
| Apache -Luftstrom | Plattform zur programmgesteuerten Autorik-, Zeitplan- und Überwachung von Workflows |
| Präfekt | Workflow -Management -System für moderne Datenstapel |
| Kedro | Open-Source-Python-Framework zum Erstellen reproduzierbarer, wartbarer Data Science Code |
| Hamilton | Leichte Bibliothek, um zuverlässige Datentransformationen zu autorisieren und zu verwalten |
| Form | Spiele theoretischer Ansatz zur Erklärung der Ausgabe eines maschinellen Lernmodells |
| KALK | Erklären Sie die Vorhersagen eines Klassifikators für maschinelles Lernen |
| Flyte | Workflow -Automatisierungsplattform für maschinelles Lernen |
| DBT | Datenbauwerkzeug |
| Form | Spiele theoretischer Ansatz zur Erklärung der Ausgabe eines maschinellen Lernmodells |
| KALK | Erklären Sie die Vorhersagen eines Klassifikators für maschinelles Lernen |
^ back to top ^
Dieser Abschnitt enthält einige zusätzliche Lesematerialien, Kanäle, die Sie ansehen können und Gespräche zum Anhören.
^ back to top ^
eBook sale - Save up to 45% on eBooks!
Causal Machine Learning
Managing ML Projects
Causal Inference for Data Science
Data for All
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
Below are some Social Media links. Connect with other data scientists!
^ back to top ^
^ back to top ^
| Beschreibung | |
|---|---|
| Big Data Combine | Rapid-fire, live tryouts for data scientists seeking to monetize their models as trading strategies |
| Big Data Mania | Data Viz Wiz, Data Journalist, Growth Hacker, Author of Data Science for Dummies (2015) |
| Big Data Science | Big Data, Data Science, Predictive Modeling, Business Analytics, Hadoop, Decision and Operations Research. |
| Charlie Greenbacker | Director of Data Science at @ExploreAltamira |
| Chris Said | Data scientist at Twitter |
| Clare Corthell | Dev, Design, Data Science @mattermark #hackerei |
| DADI Charles-Abner | #datascientist @Ekimetrics. , #machinelearning #dataviz #DynamicCharts #Hadoop #R #Python #NLP #Bitcoin #dataenthousiast |
| Data Science Central | Data Science Central is the industry's single resource for Big Data practitioners. |
| Data Science London | Data Science. Big Data. Data Hacks. Data Junkies. Data Startups. Open Data |
| Data Science Renee | Documenting my path from SQL Data Analyst pursuing an Engineering Master's Degree to Data Scientist |
| Data Science Report | Mission is to help guide & advance careers in Data Science & Analytics |
| Data Science Tips | Tips and Tricks for Data Scientists around the world! #datascience #bigdata |
| Data Vizzard | DataViz, Security, Military |
| DataScienceX | |
| deeplearning4j | |
| DJ Patil | White House Data Chief, VP @ RelateIQ. |
| Domino Data Lab | |
| Drew Conway | Data nerd, hacker, student of conflict. |
| Emilio Ferrara | #Networks, #MachineLearning and #DataScience. I work on #Social Media. Postdoc at @IndianaUniv |
| Erin Bartolo | Running with #BigData--enjoying a love/hate relationship with its hype. @iSchoolSU #DataScience Program Mgr. |
| Greg Reda | Working @ GrubHub about data and pandas |
| Gregory Piatetsky | KDnuggets President, Analytics/Big Data/Data Mining/Data Science expert, KDD & SIGKDD co-founder, was Chief Scientist at 2 startups, part-time philosopher. |
| Hadley Wickham | Chief Scientist at RStudio, and an Adjunct Professor of Statistics at the University of Auckland, Stanford University, and Rice University. |
| Hakan Kardas | Data Scientist |
| Hilary Mason | Data Scientist in Residence at @accel. |
| Jeff Hammerbacher | ReTweeting about data science |
| John Myles White | Scientist at Facebook and Julia developer. Author of Machine Learning for Hackers and Bandit Algorithms for Website Optimization. Tweets reflect my views only. |
| Juan Miguel Lavista | Principal Data Scientist @ Microsoft Data Science Team |
| Julia Evans | Hacker - Pandas - Data Analyze |
| Kenneth Cukier | The Economist's Data Editor and co-author of Big Data (http://www.big-data-book.com/). |
| Kevin Davenport | Organizer of https://www.meetup.com/San-Diego-Data-Science-R-Users-Group/ |
| Kevin Markham | Data science instructor, and founder of Data School |
| Kim Rees | Interactive data visualization and tools. Data flaneur. |
| Kirk Borne | DataScientist, PhD Astrophysicist, Top #BigData Influencer. |
| Linda Regber | Data storyteller, visualizations. |
| Luis Rei | PhD Student. Programming, Mobile, Web. Artificial Intelligence, Intelligent Robotics Machine Learning, Data Mining, Natural Language Processing, Data Science. |
| Mark Stevenson | Data Analytics Recruitment Specialist at Salt (@SaltJobs) Analytics - Insight - Big Data - Data science |
| Matt Harrison | Opinions of full-stack Python guy, author, instructor, currently playing Data Scientist. Occasional fathering, husbanding, organic gardening. |
| Matthew Russell | Mining the Social Web. |
| Mert Nuhoğlu | Data Scientist at BizQualify, Developer |
| Monica Rogati | Data @ Jawbone. Turned data into stories & products at LinkedIn. Text mining, applied machine learning, recommender systems. Ex-gamer, ex-machine coder; namer. |
| Noah Iliinsky | Visualization & interaction designer. Practical cyclist. Author of vis books: https://www.oreilly.com/pub/au/4419 |
| Paul Miller | Cloud Computing/ Big Data/ Open Data Analyst & Consultant. Writer, Speaker & Moderator. Gigaom Research Analyst. |
| Peter Skomoroch | Creating intelligent systems to automate tasks & improve decisions. Entrepreneur, ex-Principal Data Scientist @LinkedIn. Machine Learning, ProductRei, Networks |
| Prash Chan | Solution Architect @ IBM, Master Data Management, Data Quality & Data Governance Blogger. Data Science, Hadoop, Big Data & Cloud. |
| Quora Data Science | Quora's data science topic |
| R-Bloggers | Tweet blog posts from the R blogosphere, data science conferences, and (!) open jobs for data scientists. |
| Rand Hindi | |
| Randy Olson | Computer scientist researching artificial intelligence. Data tinkerer. Community leader for @DataIsBeautiful. #OpenScience advocate. |
| Recep Erol | Data Science geek @ UALR |
| Ryan Orban | Data scientist, genetic origamist, hardware aficionado |
| Sean J. Taylor | Sozialwissenschaftler. Hacker. Facebook Data Science Team. Keywords: Experiments, Causal Inference, Statistics, Machine Learning, Economics. |
| Silvia K. Spiva | #DataScience at Cisco |
| Harsh B. Gupta | Data Scientist at BBVA Compass |
| Spencer Nelson | Data nerd |
| Talha Oz | Enjoys ABM, SNA, DM, ML, NLP, HI, Python, Java. Top percentile Kaggler/data scientist |
| Tasos Skarlatidis | Complex Event Processing, Big Data, Artificial Intelligence and Machine Learning. Passionate about programming and open-source. |
| Terry Timko | InfoGov; Bigdata; Data as a Service; Data Science; Open, Social & Business Data Convergence |
| Tony Baer | IT analyst with Ovum covering Big Data & data management with some systems engineering thrown in. |
| Tony Ojeda | Data Scientist , Author , Entrepreneur. Co-founder @DataCommunityDC. Founder @DistrictDataLab. #DataScience #BigData #DataDC |
| Vamshi Ambati | Data Science @ PayPal. #NLP, #machinelearning; PhD, Carnegie Mellon alumni (Blog: https://allthingsds.wordpress.com ) |
| Wes McKinney | Pandas (Python Data Analysis library). |
| WileyEd | Senior Manager - @Seagate Big Data Analytics @McKinsey Alum #BigData + #Analytics Evangelist #Hadoop, #Cloud, #Digital, & #R Enthusiast |
| WNYC Data News Team | The data news crew at @WNYC. Practicing data-driven journalism, making it visual, and showing our work. |
| Alexey Grigorev | Data science author |
| İlker Arslan | Data science author. Shares mostly about Julia programming |
| UNVERMEIDLICH | AI & Data Science Start-up Company based in England, UK |
^ back to top ^
Spitze
Some data mining competition platforms
^ back to top ^
| Vorschau | Beschreibung |
|---|---|
| Key differences of a data scientist vs. data engineer | |
| A visual guide to Becoming a Data Scientist in 8 Steps by DataCamp (img) | |
| Mindmap on required skills (img) | |
| Swami Chandrasekaran made a Curriculum via Metro map. | |
| by @kzawadz via twitter | |
| By Data Science Central | |
| Data Science Wars: R vs Python | |
| How to select statistical or machine learning techniques | |
| Choosing the Right Estimator | |
| The Data Science Industry: Who Does What | |
| Datenwissenschaft | |
| Different Data Science Skills and Roles from this article by Springboard | |
| A simple and friendly way of teaching your non-data scientist/non-statistician colleagues how to avoid mistakes with data. From Geckoboard's Data Literacy Lessons. |
^ back to top ^
^ back to top ^