
Un repositorio de ciencia de datos de código abierto para aprender y aplicar para resolver problemas del mundo real.
Esta es una ruta de acceso directo para comenzar a estudiar ciencia de datos . Simplemente siga los pasos para responder las preguntas: "¿Qué es la ciencia de datos y qué debo estudiar para aprender ciencia de datos?"
| Patrocinador | Paso |
|---|---|
| --- | ¡Sé el primero en patrocinar! [email protected] |
^ back to top ^
Data Science es uno de los temas más populares de la computadora y las tierras de cultivo de Internet hoy en día. Las personas han recopilado datos de aplicaciones y sistemas hasta hoy y ahora es el momento de analizarlos. Los siguientes pasos son producir sugerencias de los datos y crear predicciones sobre el futuro. Aquí puede encontrar la pregunta más importante para la ciencia de datos y cientos de respuestas de expertos.
| Enlace | Avance |
|---|---|
| ¿Qué es Data Science @ O'Reilly? | Los científicos de datos combinan emprendimiento con paciencia, la voluntad de construir productos de datos de forma incremental, la capacidad de explorar y la capacidad de iterar sobre una solución. Son inherentemente interdisciplinarios. Pueden abordar todos los aspectos de un problema, desde la recopilación de datos inicial y el condicionamiento de datos hasta sacar conclusiones. Pueden pensar que fuera de la caja para encontrar nuevas formas de ver el problema o trabajar con problemas muy definidos: "Aquí hay muchos datos, ¿qué puede hacer de él?" |
| ¿Qué es Data Science @ quora? | Data Science es una combinación de una serie de aspectos de datos, como tecnología, desarrollo de algoritmos e interferencia de datos para estudiar los datos, analizarlo y encontrar soluciones innovadoras a problemas difíciles. Básicamente, la ciencia de datos se trata de analizar los datos e impulsar el crecimiento empresarial al encontrar formas creativas. |
| El trabajo más sexy del siglo XXI | Los científicos de datos de hoy son similares a los "quants" de Wall Street de los años ochenta y noventa. En aquellos días, las personas con antecedentes en física y matemáticas se transmitieron a bancos de inversión y fondos de cobertura, donde podrían diseñar algoritmos y estrategias de datos completamente nuevos. Luego, una variedad de universidades desarrollaron programas de maestría en ingeniería financiera, que producían una segunda generación de talento que era más accesible para las empresas convencionales. El patrón se repitió más tarde en la década de 1990 con ingenieros de búsqueda, cuyas habilidades enrarecidas pronto se enseñaron en programas de informática. |
| Wikipedia | Data Science es un campo interdisciplinario que utiliza métodos científicos, procesos, algoritmos y sistemas para extraer conocimiento y ideas de muchos datos estructurales y no estructurados. La ciencia de datos está relacionada con la minería de datos, el aprendizaje automático y los big data. |
| Cómo convertirse en científico de datos | Los científicos de datos son luchadores de big data, recopilando y analizando grandes conjuntos de datos estructurados y no estructurados. El papel de un científico de datos combina ciencias de la computación, estadísticas y matemáticas. Analizan, procesan y modelan datos y luego interpretan los resultados para crear planes procesables para empresas y otras organizaciones. |
| Una historia muy corta de #DataCience | La historia de cómo los científicos de datos se volvieron sexys es principalmente la historia del acoplamiento de la disciplina madura de las estadísticas con uno muy joven: ciencia computadora. El término "ciencia de datos" ha surgido recientemente para designar específicamente una nueva profesión que se espera que tenga sentido de las grandes tiendas de grandes datos. Pero dar sentido a los datos tiene una larga historia y ha sido discutido por científicos, estadísticos, bibliotecarios, informáticos y otros durante años. La siguiente línea de tiempo traza la evolución del término "ciencia de datos" y su uso, intenta definirla y términos relacionados. |
| Recursos de desarrollo de software para científicos de datos | Los científicos de datos se concentran en dar sentido a los datos a través del análisis exploratorio, las estadísticas y los modelos. Los desarrolladores de software aplican un conjunto de conocimiento separado con diferentes herramientas. Aunque su enfoque puede parecer no relacionado, los equipos de ciencia de datos pueden beneficiarse de la adopción de las mejores prácticas de desarrollo de software. El control de versiones, las pruebas automatizadas y otras habilidades de desarrollo ayudan a crear código y herramientas reproducibles listos para la producción. |
| Hoja de ruta científica de datos | Data Science es una excelente opción de carrera en el mundo basado en datos de hoy donde aproximadamente 328.77 millones de terabytes de datos se generan diariamente. Y este número solo aumenta día a día, lo que a su vez aumenta la demanda de científicos de datos calificados que pueden utilizar estos datos para impulsar el crecimiento del negocio. |
| Navegar por su camino para convertirse en científico de datos | _Data Science es una de las carreras más demandadas en la actualidad. Con las empresas que dependen cada vez más de los datos para tomar decisiones, la necesidad de científicos de datos calificados ha crecido rápidamente. Ya se se trate de empresas tecnológicas, organizaciones de atención médica o incluso instituciones gubernamentales, los científicos de datos juegan un papel crucial para convertir los datos sin procesar en ideas valiosas. Pero, ¿cómo se convierte en un científico de datos, especialmente si recién está comenzando? _ |
^ back to top ^
Si bien no es estrictamente necesario, tener un lenguaje de programación es una habilidad crucial para ser efectivo como científico de datos. Actualmente, el idioma más popular es Python , seguido de cerca por R. Python es un lenguaje de secuencias de comandos de uso general que ve aplicaciones en una amplia variedad de campos. R es un lenguaje específico de dominio para estadísticas, que contiene muchas herramientas de estadísticas comunes fuera de la caja.
Python es, con mucho, el idioma más popular en la ciencia, debido en gran parte a la facilidad con la que se puede usar y el ecosistema vibrante de los paquetes generados por el usuario. Para instalar paquetes, hay dos métodos principales: PIP (invocado como pip install ), el administrador de paquetes que viene incluido con Python y Anaconda (invocado como conda install ), un poderoso administrador de paquetes que puede instalar paquetes para Python, R, y puede descargar ejecutables como Git.
A diferencia de R, Python no fue construido en mente con la ciencia de datos, pero hay muchas bibliotecas de terceros para compensar esto. Una lista mucho más exhaustiva de paquetes se puede encontrar más adelante en este documento, pero estos cuatro paquetes son un buen conjunto de opciones para iniciar su viaje de ciencia de datos con: Scikit-Learn es un paquete de ciencia de datos de uso general que implementa los algoritmos más populares: también incluye documentación rica, tutoriales y ejemplos de los modelos que implementa. Incluso si prefiere escribir sus propias implementaciones, Scikit-Learn es una referencia valiosa a las nueces y pernos detrás de muchos de los algoritmos comunes que encontrará. Con los pandas, uno puede recopilar y analizar sus datos en un formato de tabla conveniente. Numpy proporciona herramientas muy rápidas para operaciones matemáticas, con un enfoque en vectores y matrices. Seborn, basado en el paquete Matplotlib, es una forma rápida de generar hermosas visualizaciones de sus datos, con muchos buenos valores predeterminados disponibles fuera de la caja, así como una galería que muestra cómo producir muchas visualizaciones comunes de sus datos.
Al embarcarse en su viaje para convertirse en científico de datos, la elección del lenguaje no es particularmente importante, y tanto Python como R tienen sus pros y contras. ¡Elija un idioma que le guste, y consulte uno de los cursos gratuitos que hemos enumerado a continuación!
^ back to top ^
Data Science es una herramienta poderosa que se utiliza en varios campos para resolver problemas del mundo real al extraer ideas y patrones de datos complejos.
^ back to top ^
^ back to top ^
¿Cómo se aprende ciencia de datos? Al hacer ciencia de datos, por supuesto! Bien, está bien, eso podría no ser particularmente útil cuando comienzas por primera vez. En esta sección, hemos enumerado algunos recursos de aprendizaje, en orden aproximado, desde el menor compromiso hasta el mayor compromiso: tutoriales, cursos en línea abiertos masivamente (MOOC), programas intensivos y universidades.
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
Esta sección es una colección de paquetes, herramientas, algoritmos y otros elementos útiles en el mundo de la ciencia de datos.
^ back to top ^
Estos son algunos algoritmos y modelos de aprendizaje automático y minería de datos lo ayudan a comprender sus datos y obtener significado de ellos.
^ back to top ^
^ back to top ^
^ back to top ^
| Enlace | Descripción |
|---|---|
| El proceso de ciclo de vida de la ciencia de datos | El proceso de ciclo de vida de la ciencia de datos es un proceso para tomar equipos de ciencia de datos de una idea a otra de idea de forma repetida y de manera sostenible. El proceso está documentado en este repositorio |
| Repo de plantilla de ciclo de vida de ciencia de datos de datos | Repositorio de plantillas para el proyecto de ciclo de vida de ciencia de datos |
| RexMex | Una biblioteca de métricas de recomendación de propósito general para una evaluación justa. |
| Químicox | Una biblioteca de aprendizaje profundo basado en Pytorch para la puntuación de pares de medicamentos. |
| Pytorch geométrico temporal | Representación del aprendizaje en gráficos dinámicos. |
| Pequeña bola de pelaje | Una biblioteca de muestreo de gráficos para NetworkX con una API como API de Scikit-Learn. |
| Karate Club | Una biblioteca de extensión de aprendizaje automático sin supervisión para NetworkX con una API como API de Scikit-Learn. |
| Espacio de trabajo ml | IDE basado en la web todo en uno para aprendizaje automático y ciencia de datos. El espacio de trabajo se implementa como un contenedor Docker y se precarga con una variedad de bibliotecas populares de ciencia de datos (por ejemplo, TensorFlow, Pytorch) y Desv Tools (por ejemplo, Jupyter, VS Code) |
| Neptuno.ai | Plataforma comunitaria que apoya a los científicos de datos en la creación y el intercambio de modelos de aprendizaje automático. Neptuno facilita el trabajo en equipo, la gestión de infraestructura, la comparación de modelos y la reproducibilidad. |
| paspero | Biblioteca liviana de pitón para experimentación de aprendizaje automático rápido y reproducible. Introduce una interfaz muy simple que permite un diseño de tubería de aprendizaje automático limpio. |
| gabinete | Colección curada de las redes neuronales, transformadores y modelos que hacen que su aprendizaje automático funcione más rápido y más efectivo. |
| Datalab de Google | Explorar, visualizar, analizar y transformar fácilmente los datos utilizando lenguajes familiares, como Python y SQL, interactivamente. |
| Hortonworks Sandbox | es un entorno de Hadoop personal y portátil que viene con una docena de tutoriales interactivos de Hadoop. |
| Riñonal | es un entorno de software gratuito para la computación estadística y los gráficos. |
| Tesor | es una colección obstinada de paquetes R diseñados para la ciencia de datos. Todos los paquetes comparten una filosofía de diseño subyacente, gramática y estructuras de datos. |
| Rstudio | IDE: una potente interfaz de usuario para R. Es de código abierto y abierto, y funciona en Windows, Mac y Linux. |
| Python - Pandas - Anaconda | Distribución de pitón de la empresa completamente libre para la empresa para procesamiento de datos a gran escala, análisis predictivo y computación científica |
| GUI PANDAS | GUI PANDAS |
| Lear | Aprendizaje automático en Python |
| Numpy | Numpy es fundamental para la computación científica con Python. Admite grandes matrices y matrices multidimensionales e incluye una variedad de funciones matemáticas de alto nivel para operar en estas matrices. |
| Vaex | VAEX es una biblioteca de Python que le permite visualizar grandes conjuntos de datos y calcular estadísticas a altas velocidades. |
| Bisagro | SciPy funciona con matrices Numpy y proporciona rutinas eficientes para la integración y optimización numéricas. |
| Caja de herramientas de ciencia de datos | Curso de Coursera |
| Caja de herramientas de ciencia de datos | Blog |
| Plataforma de ciencia de datos Wolfram | Tome datos numéricos, textuales, de imagen, SIG u otros datos y brinde el tratamiento Wolfram, llevando a cabo un espectro completo de análisis y visualización de la ciencia de datos y genere automáticamente informes interactivos ricos, todo impulsado por el revolucionario lenguaje Wolfram basado en el conocimiento. |
| Datadog | Soluciones, código y DevOps para ciencia de datos de alta escala. |
| Diferencia | Cree visualizaciones de datos potentes para la web sin escribir JavaScript |
| Kit de desarrollo de cometas | El Kite Software Development Kit (Licencia Apache, versión 2.0), o Kite for Short, es un conjunto de bibliotecas, herramientas, ejemplos y documentación centrados en facilitar la creación de sistemas en la parte superior del ecosistema Hadoop. |
| Laboratorios de datos Domino | Ejecutar, escalar, compartir e implementar sus modelos, sin ninguna infraestructura o configuración. |
| Apache flink | Una plataforma para procesamiento eficiente, distribuido y de uso general. |
| Apache jama | Apache Hama es un proyecto de código abierto de nivel superior Apache, lo que le permite realizar análisis avanzados más allá de MapReduce. |
| Weka | Weka es una colección de algoritmos de aprendizaje automático para tareas de minería de datos. |
| Octava | GNU Octave es un lenguaje interpretado de alto nivel, principalmente destinado a cálculos numéricos. (Matlab libre) |
| Apache Spark | Lightning-Fast Cluster Computing |
| Mistón de hidrosfera | Un servicio para exponer los trabajos de Apache Spark Analytics y los modelos de aprendizaje automático como servicios web en tiempo real, lotes o reactivos. |
| Mecánico de datos | Una plataforma de ciencia e ingeniería de datos que hace que Apache sea más amigable para el desarrollador y rentable. |
| Cafetería | Marco de aprendizaje profundo |
| Antorcha | Un marco informático científico para Luajit |
| Marco de aprendizaje profundo basado en Python de Nervana | Intel® Nervana ™ Reference Deep Learning Framework comprometido con el mejor rendimiento en todo el hardware. |
| Holgazán | Procesamiento de datos distribuidos de alto rendimiento en NodeJS |
| Aerosolar | Un paquete de aprendizaje automático creado para humanos. |
| Marco Intel | Marco de aprendizaje profundo Intel® |
| Datawrapper | Una plataforma de visualización de datos de código abierto que ayuda a todos a crear gráficos simples, correctos e integrables. También en Github.com |
| Flujo tensor | TensorFlow es una biblioteca de software de código abierto para la inteligencia de máquinas |
| Kit de herramientas de lenguaje natural | Un conjunto de herramientas introductorio pero poderoso para el procesamiento y clasificación del lenguaje natural |
| Laboratorio de anotación | Plataforma gratuita sin código de extremo a extremo para anotación de texto y entrenamiento/ajuste del modelo DL. Soporte listón para el reconocimiento de entidad nombrado, clasificación, extracción de relaciones y estado de afirmación Spark NLP Modelos. Soporte ilimitado para usuarios, equipos, proyectos, documentos. |
| NLP-Toolkit para Node.js | Este módulo cubre algunos principios e implementaciones básicos de PNL. El enfoque principal es el rendimiento. Cuando tratamos con datos de muestra o entrenamiento en PNL, nos quedamos sin memoria rápidamente. Por lo tanto, cada implementación en este módulo se escribe como flujo para mantener solo esos datos en la memoria que actualmente se procesan en cualquier paso. |
| Julia | lenguaje de programación dinámica de alto nivel y alto rendimiento para informática técnica |
| Ijulia | Un backend en lenguaje de Julia combinado con el entorno interactivo Jupyter |
| Apache zeppelin | Notebook basado en la web que permite análisis de datos interactivos e basados en datos y documentos de colaboración con SQL, Scala y más |
| Largometraje | Un marco de código abierto para la ingeniería de funciones automatizada escrita en Python |
| Optimista | Limpieza, preprocesamiento, ingeniería de características, análisis de datos exploratorios y ML fácil con backend de Pyspark. |
| Albumentaciones | – Biblioteca de aumento de imagen agnóstico rápido y marco que implementa un conjunto diverso de técnicas de aumento. Admite clasificación, segmentación y detección fuera de la caja. Fue utilizado para ganar una serie de concursos de aprendizaje profundo en Kaggle, Topcoder y aquellos que formaron parte de los talleres de CVPR. |
| DVC | Un sistema de control de versiones de ciencia de datos de código abierto. Ayuda a rastrear, organizar y hacer que los proyectos de ciencia de datos sean reproducibles. En su escenario muy básico ayuda a controlar las versiones y compartir grandes datos y archivos de modelos. |
| Lambdo | es un motor de flujo de trabajo que simplifica significativamente el análisis de datos mediante la combinación en una tubería de análisis (i) Ingeniería de características y aprendizaje automático (II) Capacitación y predicción del modelo (III) Población y evaluación de columnas. |
| Banquete | Una tienda de características para la gestión, el descubrimiento y el acceso de las características de aprendizaje automático. Feast proporciona una visión consistente de los datos de características tanto para el entrenamiento de modelos como para el servicio del modelo. |
| Poliaxón | Una plataforma para el aprendizaje automático reproducible y escalable y el aprendizaje profundo. |
| Lighttag | Herramienta de anotación de texto para equipos |
| Ubiai | Herramienta de anotación de texto fácil de usar para equipos con las características de anotación automática más completas. Admite la clasificación NER, las relaciones y los documentos, así como la anotación de OCR para el etiquetado de facturas |
| Trenes | Administrador de experimentos auto-mágicos, control de versiones y devops para AI |
| Hopsworks | Plataforma de aprendizaje automático intensivo de datos de código abierto con un almacén de funciones. Ingerir y administrar características para el acceso en línea (clúster MySQL) y fuera de línea (Apache Hive), entrenar y servir modelos a escala. |
| Mentaldb | MindSDB es un marco Automl explicable para los desarrolladores. Con MindSDB puede construir, entrenar y usar modelos ML de última generación en una línea de código tan simple. |
| Madera ligera | Un marco basado en Pytorch que descompone los problemas de aprendizaje automático en bloques más pequeños que se pueden pegarse sin problemas con un objetivo para construir modelos predictivos con una línea de código. |
| AWS Data Wrangler | Un paquete Python de código abierto que extiende el poder de la biblioteca Pandas a AWS que conectan los marcos de datos y los servicios relacionados con los datos de AWS (Amazon Redshift, AWS Glue, Amazon Athena, Amazon EMR, etc.). |
| Amazon Rekognition | AWS Rekognition es un servicio que permite a los desarrolladores trabajar con Amazon Web Services agregan análisis de imágenes a sus aplicaciones. Activos de catálogo, automatizar flujos de trabajo y extraer significado de sus medios y aplicaciones. |
| Amazon Textract | Extraiga automáticamente el texto impreso, la escritura a mano y los datos de cualquier documento. |
| Amazon buscando visión | Defectos del producto spot utilizando la visión por computadora para automatizar la inspección de calidad. Identifique los componentes del producto faltantes, el daño del vehículo y la estructura, e irregularidades para un control integral de calidad. |
| Amazon Codeguru | Automatice las revisiones de código y optimice el rendimiento de la aplicación con recomendaciones con ML. |
| CML | Un conjunto de herramientas de código abierto para usar la integración continua en proyectos de ciencia de datos. Entrenar y probar automáticamente modelos en entornos similares a la producción con GitHub Actions & Gitlab CI, y autogeneran informes visuales sobre solicitudes de extracción/fusión. |
| Dask | Una biblioteca de Python de código abierto para hacer una transición sin dolor de su código de análisis a los sistemas informáticos distribuidos (Big Data) |
| Estadelo | Una estadística inferencial basada en Python, pruebas de hipótesis y marco de regresión |
| Gensim | Una biblioteca de código abierto para el modelado de temas del texto del lenguaje natural |
| extirpado | Un juego de herramientas de procesamiento de lenguaje natural de performance |
| Estudio de la cuadrícula | Grid Studio es una aplicación de hoja de cálculo basada en la web con integración completa del lenguaje de programación de Python. |
| Manual de ciencia de datos de Python | Manual de ciencia de datos de Python: texto completo en cuadernos Jupyter |
| Shapley | Un marco basado en datos para cuantificar el valor de los clasificadores en un conjunto de aprendizaje automático. |
| Dagshub | Una plataforma construida sobre herramientas de código abierto para datos, modelo y gestión de tuberías. |
| Nota profunda | Un nuevo tipo de cuaderno de ciencia de datos. Jupyter-compatible, con colaboración en tiempo real y ejecución en la nube. |
| Valohai | Una plataforma MLOPS que maneja la orquestación de la máquina, la reproducibilidad automática y la implementación. |
| Pymc3 | Una biblioteca de Python para la programación probabalística (inferencia bayesiana y aprendizaje automático) |
| Pystan | Interfaz de Python a Stan (inferencia y modelado bayesianos) |
| hmmlearn | Aprendizaje no supervisado e inferencia de los modelos ocultos de Markov |
| Genio del caos | Engine de análisis Powered ML para detección atípica/anomalía y análisis de causa raíz |
| Cajón ágil | Una plataforma MLOPS de pila completa diseñada para ayudar a los científicos de datos y los profesionales de aprendizaje automático de todo el mundo a descubrir, crear y lanzar aplicaciones de múltiples nubes desde su navegador web. |
| Remolcado | Una biblioteca de Python que lo ayuda a codificar sus datos no estructurados en incrustaciones. |
| Lineapia | ¿Alguna vez se ha frustrado con la limpieza de cuadernos Jupyter largos y desordenados? Con Lineapy, una biblioteca de Python de código abierto, se necesitan tan solo dos líneas de código para transformar el código de desarrollo desordenado en tuberías de producción. |
| envidiar | ? ️ Entorno de desarrollo de aprendizaje automático para la ciencia de datos y los equipos de ingeniería de IA/ML |
| Explorar bibliotecas de ciencias de datos | ¿Un motor de búsqueda? Herramienta para descubrir y encontrar una lista curada de bibliotecas populares y nuevas, autores principales, kits de proyectos de tendencia, discusiones, tutoriales y recursos de aprendizaje |
| Mlem | ? Versión e implementar sus modelos ML siguiendo los principios de GITOPS |
| Mlflow | Marco de MLOPS para administrar modelos ML en todo su ciclo de vida |
| cleanlab | Biblioteca de Python para IA centrada en datos y detectar automáticamente varios problemas en conjuntos de datos ML |
| Autogluón | Automl para producir fácilmente predicciones precisas para la imagen, el texto, la tabla tabular, la serie de tiempo y los datos multimodales |
| Arize Ai | Herramienta de observabilidad de nivel comunitario de AI AI para monitorear modelos de aprendizaje automático en problemas de producción y causa de raíces, como la calidad de los datos y la deriva de rendimiento. |
| Aureo.io | AUREO.IO es una plataforma de bajo código que se centra en construir inteligencia artificial. Proporciona a los usuarios la capacidad de crear tuberías, automatizaciones e integrarlas con modelos de inteligencia artificial, todo con sus datos básicos. |
| Laboratorio ERD | La herramienta Diagrama de relación de entidad (ERD) basada en la nube gratuita hecha para desarrolladores. |
| Arize-foenix | MLOPS en un cuaderno: descubra ideas, problemas de superficie, monitor y ajuste sus modelos. |
| Cometa | Una plataforma MLOPS con seguimiento de experimentos, gestión de producción de modelos, un registro de modelos y un linaje de datos completo para respaldar su flujo de trabajo ML desde la capacitación directa hasta la producción. |
| Opik | Evalúe, pruebe y envíe aplicaciones LLM en su desarrollo y ciclos de vida de producción. |
| Sintical | Entorno colaborativo con IA para la investigación. Encuentre documentos relevantes, cree colecciones para administrar la bibliografía y resumir el contenido, todo en un solo lugar |
| tipografía | Herramienta de flujo de trabajo para organizar automáticamente la salida de visualización de datos |
| Racionalizar | Marco de aplicaciones para proyectos de aprendizaje automático y ciencia de datos |
| Gradio | Crear componentes de interfaz de usuario personalizables en torno a modelos de aprendizaje automático |
| Pesos y prejuicios | Seguimiento de experimentos, versiones en conjunto de datos y gestión de modelos |
| DVC | Sistema de control de versiones de código abierto para proyectos de aprendizaje automático |
| Optuna | Marco de software de optimización de hiperparameter automático |
| Melodía de rayos | Biblioteca de ajuste de hiperparameter escalable |
| Flujo de aire de Apache | Plataforma para autor, programar, programar y monitorear flujos de trabajo |
| Prefecto | Sistema de gestión de flujo de trabajo para pilas de datos modernas |
| Kedro | Marco de Python de código abierto para crear código reproducible de ciencia de datos mantenibles y mantenibles |
| Hamilton | Biblioteca ligera al autor y administrar transformaciones de datos confiables |
| Bandear | Enfoque teórico del juego para explicar la salida de cualquier modelo de aprendizaje automático |
| CAL | Explicar las predicciones de cualquier clasificador de aprendizaje automático |
| de la mosca | Plataforma de automatización de flujo de trabajo para el aprendizaje automático |
| DBT | Herramienta de compilación de datos |
| Bandear | Enfoque teórico del juego para explicar la salida de cualquier modelo de aprendizaje automático |
| CAL | Explicar las predicciones de cualquier clasificador de aprendizaje automático |
^ back to top ^
Esta sección incluye algún material de lectura adicional, canales para ver y habla para escuchar.
^ back to top ^
eBook sale - Save up to 45% on eBooks!
Causal Machine Learning
Managing ML Projects
Causal Inference for Data Science
Data for All
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
Below are some Social Media links. Connect with other data scientists!
^ back to top ^
^ back to top ^
| Gorjeo | Descripción |
|---|---|
| Big Data Combine | Rapid-fire, live tryouts for data scientists seeking to monetize their models as trading strategies |
| Big Data Mania | Data Viz Wiz, Data Journalist, Growth Hacker, Author of Data Science for Dummies (2015) |
| Big Data Science | Big Data, Data Science, Predictive Modeling, Business Analytics, Hadoop, Decision and Operations Research. |
| Charlie Greenbacker | Director of Data Science at @ExploreAltamira |
| Chris Said | Data scientist at Twitter |
| Clare Corthell | Dev, Design, Data Science @mattermark #hackerei |
| DADI Charles-Abner | #datascientist @Ekimetrics. , #machinelearning #dataviz #DynamicCharts #Hadoop #R #Python #NLP #Bitcoin #dataenthousiast |
| Data Science Central | Data Science Central is the industry's single resource for Big Data practitioners. |
| Data Science London | Data Science. Big Data. Data Hacks. Data Junkies. Data Startups. Datos abiertos |
| Data Science Renee | Documenting my path from SQL Data Analyst pursuing an Engineering Master's Degree to Data Scientist |
| Data Science Report | Mission is to help guide & advance careers in Data Science & Analytics |
| Data Science Tips | Tips and Tricks for Data Scientists around the world! #datascience #bigdata |
| Data Vizzard | DataViz, Security, Military |
| DataScienceX | |
| deeplearning4j | |
| DJ Patil | White House Data Chief, VP @ RelateIQ. |
| Domino Data Lab | |
| Drew Conway | Data nerd, hacker, student of conflict. |
| Emilio Ferrara | #Networks, #MachineLearning and #DataScience. I work on #Social Media. Postdoc at @IndianaUniv |
| Erin Bartolo | Running with #BigData--enjoying a love/hate relationship with its hype. @iSchoolSU #DataScience Program Mgr. |
| Greg Reda | Working @ GrubHub about data and pandas |
| Gregory Piatetsky | KDnuggets President, Analytics/Big Data/Data Mining/Data Science expert, KDD & SIGKDD co-founder, was Chief Scientist at 2 startups, part-time philosopher. |
| Hadley Wickham | Chief Scientist at RStudio, and an Adjunct Professor of Statistics at the University of Auckland, Stanford University, and Rice University. |
| Hakan Kardas | Científico de datos |
| Hilary Mason | Data Scientist in Residence at @accel. |
| Jeff Hammerbacher | ReTweeting about data science |
| John Myles White | Scientist at Facebook and Julia developer. Author of Machine Learning for Hackers and Bandit Algorithms for Website Optimization. Tweets reflect my views only. |
| Juan Miguel Lavista | Principal Data Scientist @ Microsoft Data Science Team |
| Julia Evans | Hacker - Pandas - Data Analyze |
| Kenneth Cukier | The Economist's Data Editor and co-author of Big Data (http://www.big-data-book.com/). |
| Kevin Davenport | Organizer of https://www.meetup.com/San-Diego-Data-Science-R-Users-Group/ |
| Kevin Markham | Data science instructor, and founder of Data School |
| Kim Rees | Interactive data visualization and tools. Data flaneur. |
| Kirk Borne | DataScientist, PhD Astrophysicist, Top #BigData Influencer. |
| Linda Regber | Data storyteller, visualizations. |
| Luis Rei | PhD Student. Programming, Mobile, Web. Artificial Intelligence, Intelligent Robotics Machine Learning, Data Mining, Natural Language Processing, Data Science. |
| Mark Stevenson | Data Analytics Recruitment Specialist at Salt (@SaltJobs) Analytics - Insight - Big Data - Data science |
| Matt Harrison | Opinions of full-stack Python guy, author, instructor, currently playing Data Scientist. Occasional fathering, husbanding, organic gardening. |
| Matthew Russell | Mining the Social Web. |
| Mert Nuhoğlu | Data Scientist at BizQualify, Developer |
| Monica Rogati | Data @ Jawbone. Turned data into stories & products at LinkedIn. Text mining, applied machine learning, recommender systems. Ex-gamer, ex-machine coder; namer. |
| Noah Iliinsky | Visualization & interaction designer. Practical cyclist. Author of vis books: https://www.oreilly.com/pub/au/4419 |
| Paul Miller | Cloud Computing/ Big Data/ Open Data Analyst & Consultant. Writer, Speaker & Moderator. Gigaom Research Analyst. |
| Peter Skomoroch | Creating intelligent systems to automate tasks & improve decisions. Entrepreneur, ex-Principal Data Scientist @LinkedIn. Machine Learning, ProductRei, Networks |
| Prash Chan | Solution Architect @ IBM, Master Data Management, Data Quality & Data Governance Blogger. Data Science, Hadoop, Big Data & Cloud. |
| Quora Data Science | Quora's data science topic |
| R-Bloggers | Tweet blog posts from the R blogosphere, data science conferences, and (!) open jobs for data scientists. |
| Rand Hindi | |
| Randy Olson | Computer scientist researching artificial intelligence. Data tinkerer. Community leader for @DataIsBeautiful. #OpenScience advocate. |
| Recep Erol | Data Science geek @ UALR |
| Ryan Orban | Data scientist, genetic origamist, hardware aficionado |
| Sean J. Taylor | Social Scientist. Hacker. Facebook Data Science Team. Keywords: Experiments, Causal Inference, Statistics, Machine Learning, Economics. |
| Silvia K. Spiva | #DataScience at Cisco |
| Harsh B. Gupta | Data Scientist at BBVA Compass |
| Spencer Nelson | Data nerd |
| Talha Oz | Enjoys ABM, SNA, DM, ML, NLP, HI, Python, Java. Top percentile Kaggler/data scientist |
| Tasos Skarlatidis | Complex Event Processing, Big Data, Artificial Intelligence and Machine Learning. Passionate about programming and open-source. |
| Terry Timko | InfoGov; Bigdata; Data as a Service; Data Science; Open, Social & Business Data Convergence |
| Tony Baer | IT analyst with Ovum covering Big Data & data management with some systems engineering thrown in. |
| Tony Ojeda | Data Scientist , Author , Entrepreneur. Co-founder @DataCommunityDC. Founder @DistrictDataLab. #DataScience #BigData #DataDC |
| Vamshi Ambati | Data Science @ PayPal. #NLP, #machinelearning; PhD, Carnegie Mellon alumni (Blog: https://allthingsds.wordpress.com ) |
| Wes McKinney | Pandas (Python Data Analysis library). |
| WileyEd | Senior Manager - @Seagate Big Data Analytics @McKinsey Alum #BigData + #Analytics Evangelist #Hadoop, #Cloud, #Digital, & #R Enthusiast |
| WNYC Data News Team | The data news crew at @WNYC. Practicing data-driven journalism, making it visual, and showing our work. |
| Alexey Grigorev | Data science author |
| İlker Arslan | Data science author. Shares mostly about Julia programming |
| INEVITABLE | AI & Data Science Start-up Company based in England, UK |
^ back to top ^
arriba
Some data mining competition platforms
^ back to top ^
| Avance | Descripción |
|---|---|
| Key differences of a data scientist vs. data engineer | |
| A visual guide to Becoming a Data Scientist in 8 Steps by DataCamp (img) | |
| Mindmap on required skills (img) | |
| Swami Chandrasekaran made a Curriculum via Metro map. | |
| by @kzawadz via twitter | |
| By Data Science Central | |
| Data Science Wars: R vs Python | |
| How to select statistical or machine learning techniques | |
| Choosing the Right Estimator | |
| The Data Science Industry: Who Does What | |
| Ciencia de datos | |
| Different Data Science Skills and Roles from this article by Springboard | |
| A simple and friendly way of teaching your non-data scientist/non-statistician colleagues how to avoid mistakes with data. From Geckoboard's Data Literacy Lessons. |
^ back to top ^
^ back to top ^