Descarga awesome datascience - Descarga de código fuente awesome datascience

Increíble ciencia de datos

Un repositorio de ciencia de datos de código abierto para aprender y aplicar para resolver problemas del mundo real.

Esta es una ruta de acceso directo para comenzar a estudiar ciencia de datos . Simplemente siga los pasos para responder las preguntas: "¿Qué es la ciencia de datos y qué debo estudiar para aprender ciencia de datos?"

Patrocinadores

Patrocinador	Paso
---	¡Sé el primero en patrocinar! `[email protected]`

Tabla de contenido

¿Qué es la ciencia de datos?
¿Dónde empiezo?
Recursos de capacitación
- Tutoriales
- Cursos gratuitos
- Cursos en línea abiertos masivamente
- Programas intensivos
- Universidad
La caja de herramientas de ciencia de datos
- Algoritmos
  - Aprendizaje supervisado
  - Aprendizaje no supervisado
  - Aprendizaje semi-supervisado
  - Aprendizaje de refuerzo
  - Algoritmos de minería de datos
  - Arquitecturas de aprendizaje profundo
- Paquetes generales de aprendizaje automático
- Paquetes de aprendizaje profundo
  - Ecosistema de pytorch
  - Ecosistema de flujo tensor
  - Ecosistema de keras
- Herramientas de visualización
- Herramientas misceláneas
Literatura y medios de comunicación
- Libros
  - Ofertas de libros (afiliado)
- Revistas, publicaciones y revistas
- Boletín
- Blogueros
- Presentaciones
- Podcasts
- Videos y canales de YouTube
Socializar
- Cuentas de Facebook
- Cuentas de Twitter
- Canales de telegrama
- Comunidades flojas
- Grupos de Github
- Concursos de ciencia de datos
Divertido
- Infografía
- Conjuntos de datos
- Historietas
Otras listas impresionantes
- Pasatiempo

¿Qué es la ciencia de datos?

^ back to top ^

Data Science es uno de los temas más populares de la computadora y las tierras de cultivo de Internet hoy en día. Las personas han recopilado datos de aplicaciones y sistemas hasta hoy y ahora es el momento de analizarlos. Los siguientes pasos son producir sugerencias de los datos y crear predicciones sobre el futuro. Aquí puede encontrar la pregunta más importante para la ciencia de datos y cientos de respuestas de expertos.

Enlace	Avance
¿Qué es Data Science @ O'Reilly?	Los científicos de datos combinan emprendimiento con paciencia, la voluntad de construir productos de datos de forma incremental, la capacidad de explorar y la capacidad de iterar sobre una solución. Son inherentemente interdisciplinarios. Pueden abordar todos los aspectos de un problema, desde la recopilación de datos inicial y el condicionamiento de datos hasta sacar conclusiones. Pueden pensar que fuera de la caja para encontrar nuevas formas de ver el problema o trabajar con problemas muy definidos: "Aquí hay muchos datos, ¿qué puede hacer de él?"
¿Qué es Data Science @ quora?	Data Science es una combinación de una serie de aspectos de datos, como tecnología, desarrollo de algoritmos e interferencia de datos para estudiar los datos, analizarlo y encontrar soluciones innovadoras a problemas difíciles. Básicamente, la ciencia de datos se trata de analizar los datos e impulsar el crecimiento empresarial al encontrar formas creativas.
El trabajo más sexy del siglo XXI	Los científicos de datos de hoy son similares a los "quants" de Wall Street de los años ochenta y noventa. En aquellos días, las personas con antecedentes en física y matemáticas se transmitieron a bancos de inversión y fondos de cobertura, donde podrían diseñar algoritmos y estrategias de datos completamente nuevos. Luego, una variedad de universidades desarrollaron programas de maestría en ingeniería financiera, que producían una segunda generación de talento que era más accesible para las empresas convencionales. El patrón se repitió más tarde en la década de 1990 con ingenieros de búsqueda, cuyas habilidades enrarecidas pronto se enseñaron en programas de informática.
Wikipedia	Data Science es un campo interdisciplinario que utiliza métodos científicos, procesos, algoritmos y sistemas para extraer conocimiento y ideas de muchos datos estructurales y no estructurados. La ciencia de datos está relacionada con la minería de datos, el aprendizaje automático y los big data.
Cómo convertirse en científico de datos	Los científicos de datos son luchadores de big data, recopilando y analizando grandes conjuntos de datos estructurados y no estructurados. El papel de un científico de datos combina ciencias de la computación, estadísticas y matemáticas. Analizan, procesan y modelan datos y luego interpretan los resultados para crear planes procesables para empresas y otras organizaciones.
Una historia muy corta de #DataCience	La historia de cómo los científicos de datos se volvieron sexys es principalmente la historia del acoplamiento de la disciplina madura de las estadísticas con uno muy joven: ciencia computadora. El término "ciencia de datos" ha surgido recientemente para designar específicamente una nueva profesión que se espera que tenga sentido de las grandes tiendas de grandes datos. Pero dar sentido a los datos tiene una larga historia y ha sido discutido por científicos, estadísticos, bibliotecarios, informáticos y otros durante años. La siguiente línea de tiempo traza la evolución del término "ciencia de datos" y su uso, intenta definirla y términos relacionados.
Recursos de desarrollo de software para científicos de datos	Los científicos de datos se concentran en dar sentido a los datos a través del análisis exploratorio, las estadísticas y los modelos. Los desarrolladores de software aplican un conjunto de conocimiento separado con diferentes herramientas. Aunque su enfoque puede parecer no relacionado, los equipos de ciencia de datos pueden beneficiarse de la adopción de las mejores prácticas de desarrollo de software. El control de versiones, las pruebas automatizadas y otras habilidades de desarrollo ayudan a crear código y herramientas reproducibles listos para la producción.
Hoja de ruta científica de datos	Data Science es una excelente opción de carrera en el mundo basado en datos de hoy donde aproximadamente 328.77 millones de terabytes de datos se generan diariamente. Y este número solo aumenta día a día, lo que a su vez aumenta la demanda de científicos de datos calificados que pueden utilizar estos datos para impulsar el crecimiento del negocio.
Navegar por su camino para convertirse en científico de datos	_Data Science es una de las carreras más demandadas en la actualidad. Con las empresas que dependen cada vez más de los datos para tomar decisiones, la necesidad de científicos de datos calificados ha crecido rápidamente. Ya se se trate de empresas tecnológicas, organizaciones de atención médica o incluso instituciones gubernamentales, los científicos de datos juegan un papel crucial para convertir los datos sin procesar en ideas valiosas. Pero, ¿cómo se convierte en un científico de datos, especialmente si recién está comenzando? _

¿Dónde empiezo?

^ back to top ^

Si bien no es estrictamente necesario, tener un lenguaje de programación es una habilidad crucial para ser efectivo como científico de datos. Actualmente, el idioma más popular es Python , seguido de cerca por R. Python es un lenguaje de secuencias de comandos de uso general que ve aplicaciones en una amplia variedad de campos. R es un lenguaje específico de dominio para estadísticas, que contiene muchas herramientas de estadísticas comunes fuera de la caja.

Python es, con mucho, el idioma más popular en la ciencia, debido en gran parte a la facilidad con la que se puede usar y el ecosistema vibrante de los paquetes generados por el usuario. Para instalar paquetes, hay dos métodos principales: PIP (invocado como pip install ), el administrador de paquetes que viene incluido con Python y Anaconda (invocado como conda install ), un poderoso administrador de paquetes que puede instalar paquetes para Python, R, y puede descargar ejecutables como Git.

A diferencia de R, Python no fue construido en mente con la ciencia de datos, pero hay muchas bibliotecas de terceros para compensar esto. Una lista mucho más exhaustiva de paquetes se puede encontrar más adelante en este documento, pero estos cuatro paquetes son un buen conjunto de opciones para iniciar su viaje de ciencia de datos con: Scikit-Learn es un paquete de ciencia de datos de uso general que implementa los algoritmos más populares: también incluye documentación rica, tutoriales y ejemplos de los modelos que implementa. Incluso si prefiere escribir sus propias implementaciones, Scikit-Learn es una referencia valiosa a las nueces y pernos detrás de muchos de los algoritmos comunes que encontrará. Con los pandas, uno puede recopilar y analizar sus datos en un formato de tabla conveniente. Numpy proporciona herramientas muy rápidas para operaciones matemáticas, con un enfoque en vectores y matrices. Seborn, basado en el paquete Matplotlib, es una forma rápida de generar hermosas visualizaciones de sus datos, con muchos buenos valores predeterminados disponibles fuera de la caja, así como una galería que muestra cómo producir muchas visualizaciones comunes de sus datos.

Al embarcarse en su viaje para convertirse en científico de datos, la elección del lenguaje no es particularmente importante, y tanto Python como R tienen sus pros y contras. ¡Elija un idioma que le guste, y consulte uno de los cursos gratuitos que hemos enumerado a continuación!

Mundo real

^ back to top ^

Data Science es una herramienta poderosa que se utiliza en varios campos para resolver problemas del mundo real al extraer ideas y patrones de datos complejos.

Desastre

^ back to top ^

Deprem-Ml Aya: Açık Yazılım Ağı (+25k desarrolladores) está tratando de ayudar a la respuesta a desastres utilizando inteligencia artificial. Todo es de origen abierto Afet.org.

Recursos de capacitación

^ back to top ^

¿Cómo se aprende ciencia de datos? Al hacer ciencia de datos, por supuesto! Bien, está bien, eso podría no ser particularmente útil cuando comienzas por primera vez. En esta sección, hemos enumerado algunos recursos de aprendizaje, en orden aproximado, desde el menor compromiso hasta el mayor compromiso: tutoriales, cursos en línea abiertos masivamente (MOOC), programas intensivos y universidades.

Tutoriales

^ back to top ^

1000 proyectos de ciencia de datos que puede ejecutar en el navegador con Ipython.
#Tidytuesday Un proyecto de datos semanal dirigido al ecosistema R.
Ciencia de datos a tu manera
Hoja de trucos de Pyspark
Aprendizaje automático, ciencia de datos y aprendizaje profundo con Python
Cómo etiquetar los datos
Su guía para la asignación latente de Dirichlet
Más de 1000 cursos en línea de ciencia de datos en el motor de búsqueda en línea de classpert
Tutoriales del código fuente del libro Algoritmos genéticos con Python de Clinton Sheppard
Tutoriales para comenzar el procesamiento de señales para el aprendizaje automático
Tutorial de implementación en tiempo real sobre la implementación del modelo de series de tiempo de Python.
Python for Data Science: una guía para principiantes
Plan de estudio mínimo viable para entrevistas de aprendizaje automático
Comprender y conocer la ingeniería de aprendizaje automático mediante la creación de proyectos sólidos
12 proyectos de ciencia de datos gratuitos para practicar Python y Pandas
Mejor CV/currículum para Freshers de ciencia de datos
Comprender el curso de ciencia de datos en Java
Preguntas de la entrevista de análisis de datos (principiante a avanzado)
Top más de 100 preguntas y respuestas de la entrevista de ciencia de datos

Cursos gratuitos

^ back to top ^

Científico de datos con R
Científico de datos con Python
Algoritmos genéticos OCW Curso
Hoja de ruta experta de IA - Hoja de ruta para convertirse en un experto en inteligencia artificial
Optimización convexa: optimización convexa (conceptos básicos del análisis convexo; mínimos cuadrados, programas lineales y cuadráticos, programación semidefinita, Minimax, volumen extremo y otros problemas; condiciones de optimización, teoría de la dualidad ...)
Skillcombo - Data Science - 1000+ cursos gratuitos de ciencia de datos en línea
Aprendizaje de los datos: introducción al aprendizaje automático que cubre la teoría básica, los algoritmos y las aplicaciones
KAGGLE - Aprenda sobre ciencia de datos, aprendizaje automático, pitón, etc.
ML Fundamentos de observabilidad: aprenda a monitorear y la producción raíz de la producción de problemas de ML.
Pesos y prejuicios MLOPS efectivos: Desarrollo de modelos: curso gratuito y certificación para construir una máquina de extremo a extremo utilizando W&B
Python para el aprendizaje automático: comience su viaje al aprendizaje automático con Python, uno de los lenguajes de programación más potentes.
Python for Data Science by Scaler: este curso está diseñado para empoderar a los principiantes con las habilidades esenciales para sobresalir en el mundo basado en datos de hoy. El plan de estudios integral le dará una base sólida en estadísticas, programación, visualización de datos y aprendizaje automático.
MLSYS-NYU-2022-Diapositivas, scripts y materiales para el curso de aprendizaje automático en finanzas en NYU Tandon, 2022.
Train y implementar ML prácticos: un curso práctico para entrenar e implementar una API sin servidor que predice los precios de las criptografía.
LLMOPS: Construyendo aplicaciones del mundo real con modelos de idiomas grandes: aprenda a construir software moderno con LLM utilizando las herramientas y técnicas más recientes en el campo.
Ingeniería rápida para modelos de visión: aprenda a solicitar modelos de visión por computadora de vanguardia con lenguaje natural, puntos de coordinación, cajas limitantes, máscaras de segmentación e incluso otras imágenes en este curso libre de Deeplearning.ai.
Curso de ciencia de datos por IBM: recursos gratuitos y aprende qué es la ciencia de datos y cómo se usa en diferentes industrias.

MOOC

^ back to top ^

Introducción a Coursera a la ciencia de datos
Data Science: cursos de 9 pasos, una especialización en Coursera
Minería de datos: cursos de 5 pasos, una especialización en Coursera
Aprendizaje automático: cursos de 5 pasos, una especialización en Coursera
CS 109 Ciencia de datos
Abreintro
CS 171 Visualización
Minería de procesos: ciencia de datos en acción
Aprendizaje profundo de Oxford
Oxford Deep Learning - Video
Aprendizaje automático de Oxford
UBC Machine Learning - Video
Especialización de ciencia de datos
Especialización de Big Data de Coursera
Pensamiento estadístico para la ciencia de datos y el análisis por EDX
Clase cognitiva AI por IBM
Udacity - Aprendizaje profundo
Keras en movimiento
Programa profesional de Microsoft para ciencia de datos
COMP3222/COMP6246 - Tecnologías de aprendizaje automático
CS 231 - Redes neuronales convolucionales para el reconocimiento visual
Coursera Tensorflow en la práctica
Especialización de aprendizaje profundo de Coursera
365 Curso de ciencia de datos
Especialización en procesamiento del lenguaje natural de Coursera
Especialización de cursera gan
Ciencias de datos de CodeCademy
Álgebra lineal - Curso de álgebra lineal de Gilbert Strang
Una visión 2020 de álgebra lineal (G. Strang)
Curso de la Fundación Python para Data Science
Ciencia de datos: estadísticas y aprendizaje automático
Ingeniería de aprendizaje automático para la producción (MLOPS)
La especialización de sistemas de recomendación de la Universidad de Minnesota es una especialización de nivel intermedio/avanzado centrada en el sistema de recomendación en la plataforma Coursera.
Programa Profesional de Inteligencia Artificial de Stanford
Científico de datos con Python
Programación con Julia
Programa de ciencia de datos y aprendizaje automático de Scaler
Árbol de habilidades de ciencia de datos
Ciencia de datos para principiantes - Aprenda con AI Tutor
Aprendizaje automático para principiantes - Aprenda con AI Tutor

Programas intensivos

^ back to top ^

S2DS

Universidad

^ back to top ^

Una lista de colegios y universidades que ofrecen títulos en ciencias de datos.
Grado de ciencias de datos @ Berkeley
Grado de ciencias de datos @ UVA
Grado de ciencias de datos @ Wisconsin
BS en ciencia de datos y aplicaciones
MS en sistemas de información informática @ Boston University
MS en Business Analytics @ ASU Online
MS en ciencia de datos aplicados @ Syracuse
MS Management & Data Science @ Leuphana
Master of Data Science @ Melbourne University
MSC en ciencias de datos en la Universidad de Edimburgo
Master of Management Analytics @ Queen's University
Master of Data Science @ Illinois Institute of Technology
Master of Applied Data Science @ The University of Michigan
Master Data Science and Artificial Intelligence @ Eindhoven University Technology
Maestría en ciencias de datos e ingeniería informática @ University of Granada

La caja de herramientas de ciencia de datos

^ back to top ^

Esta sección es una colección de paquetes, herramientas, algoritmos y otros elementos útiles en el mundo de la ciencia de datos.

Algoritmos

^ back to top ^

Estos son algunos algoritmos y modelos de aprendizaje automático y minería de datos lo ayudan a comprender sus datos y obtener significado de ellos.

Tres tipos de sistemas de aprendizaje automático

Basado en el entrenamiento con supervisión humana
Basado en el aprendizaje incremental en la mosca
Basado en la comparación de puntos de datos y la detección de patrones

Comparación

DataCompy: DataCompy es un paquete para comparar dos marcos de datos PANDAS.

Aprendizaje supervisado

Regresión
Regresión lineal
Mínimos cuadrados ordinarios
Regresión logística
Regresión paso a paso
Splines de regresión adaptativa multivariante
Regresión de Softmax
Suavizado de diagrama de dispersión estimado localmente
Clasificación
- K-Near más vecino
- Máquinas de vectores de soporte
- Árboles de decisión
- Algoritmo ID3
- Algoritmo C4.5
Aprendizaje de conjunto
- Impulso
- Apilado
- Harpillera
- Bosque al azar
- Adaboost

Aprendizaje no supervisado

Agrupación
- Agrupación
- k-medias
- Agrupación basada en densidad
- Agrupación difusa
- Modelos de mezcla
Reducción de dimensión
- Análisis de componentes principales (PCA)
- t-sne; Vecino estocástico distribuido en T incrustación
- Análisis factorial
- Asignación latente de Dirichlet (LDA)
Redes neuronales
Mapa de autoorganización
Teoría de resonancia adaptativa
Modelos ocultos de Markov (hmm)

Aprendizaje semi-supervisado

S3VM
Agrupación
Modelos generativos
Separación de baja densidad
Regularización laplaciana
Enfoques heurísticos

Aprendizaje de refuerzo

Q aprendizaje
Algoritmo Sarsa (Estatal-Action-Reward-State-Action)
Aprendizaje de diferencia temporal

Algoritmos de minería de datos

C4.5
k-medias
SVM (máquina vectorial de soporte)
Apriori
EM (maximización de la expectativa)
Carpeta
Adaboost
KNN (vecinos K-nears)
Bayes ingenuos
Cart (árboles de clasificación y regresión)

Arquitecturas de aprendizaje profundo

Perceptrón de múltiples capas
Red neuronal convolucional (CNN)
Red neuronal recurrente (RNN)
Máquinas Boltzmann
Autoencoder
Red de adversaria generativa (GaN)
Mapas autoorganizados
Transformador
Campo aleatorio condicional (CRF)
Diseños del sistema ML)

Paquetes generales de aprendizaje automático

^ back to top ^

lear
scikit-multilearn
sklearn-Expertsys
fábrica de ciencias
reabastecer
Seqlearn
sklearn-bayes
sklearn-crfsuite
sklearn-deap
sigopt_sklearn
evaluación de sklearn
scikit-imagen
opt
scikit-postocs
pystructo
Shogun
xlearn
corral
causa
mlpack
Mlxtend
modal
Lear
hiperlear
dlib
imodelios
Núcleo de reglas
pigam
Checkecks
suckit-survival
interpretable
Xgboost
Lightgbm
Gatboost
Jax

Paquetes de aprendizaje profundo

Ecosistema de pytorch

Pytorch
vía antorcha
Teatro de antorchas
torchaudio
encender
Pytorchnet
Pytoune
skorch
Pyvarinf
pytorch_geométrico
Gpytorch
piro
Catalizador
pytorch_tabular
Yolov3
Yolov5
Yolov8

Ecosistema de flujo tensor

Flujo tensor
TensorRayer
Tflearn
Soneto
Tensorpack
TRFL
Poliaxón
Neupy
tfdeplo
tensorflow-upstream
Pliegue de flujo tensor
tensorlm
Luz tensor
Mesh Tensorflow
Ludwig
TF-agentes
Fuerza tensor

Ecosistema de keras

Keras
Keras-Contrib
Hiperas
Elefas
Hera
Espektral
qkeras
Keras-RL
Talón

Herramientas de visualización

^ back to top ^

altair
además
amcharts
cualquier chart
bokeh
Cometa
slema
cartodb
Cubo
d3plus
Documentos basados en datos (D3JS)
fusiones
Echarts
anexo
gephi
GGPLOT2
Pegamento
Galería de gráficos de Google
carros altos
import.io
plano
Mate
nvd3
Netron
Freesfino
tram.ly
crudo
Resseract lite
Marino
Techanjs
Línea de tiempo
Variancecharts
Vida
vizzu
Vaquero
R2D3
Redx
Volver a colocar
C3
Tensorwatch
geomap
Estrellarse

Herramientas misceláneas

^ back to top ^

Enlace	Descripción
El proceso de ciclo de vida de la ciencia de datos	El proceso de ciclo de vida de la ciencia de datos es un proceso para tomar equipos de ciencia de datos de una idea a otra de idea de forma repetida y de manera sostenible. El proceso está documentado en este repositorio
Repo de plantilla de ciclo de vida de ciencia de datos de datos	Repositorio de plantillas para el proyecto de ciclo de vida de ciencia de datos
RexMex	Una biblioteca de métricas de recomendación de propósito general para una evaluación justa.
Químicox	Una biblioteca de aprendizaje profundo basado en Pytorch para la puntuación de pares de medicamentos.
Pytorch geométrico temporal	Representación del aprendizaje en gráficos dinámicos.
Pequeña bola de pelaje	Una biblioteca de muestreo de gráficos para NetworkX con una API como API de Scikit-Learn.
Karate Club	Una biblioteca de extensión de aprendizaje automático sin supervisión para NetworkX con una API como API de Scikit-Learn.
Espacio de trabajo ml	IDE basado en la web todo en uno para aprendizaje automático y ciencia de datos. El espacio de trabajo se implementa como un contenedor Docker y se precarga con una variedad de bibliotecas populares de ciencia de datos (por ejemplo, TensorFlow, Pytorch) y Desv Tools (por ejemplo, Jupyter, VS Code)
Neptuno.ai	Plataforma comunitaria que apoya a los científicos de datos en la creación y el intercambio de modelos de aprendizaje automático. Neptuno facilita el trabajo en equipo, la gestión de infraestructura, la comparación de modelos y la reproducibilidad.
paspero	Biblioteca liviana de pitón para experimentación de aprendizaje automático rápido y reproducible. Introduce una interfaz muy simple que permite un diseño de tubería de aprendizaje automático limpio.
gabinete	Colección curada de las redes neuronales, transformadores y modelos que hacen que su aprendizaje automático funcione más rápido y más efectivo.
Datalab de Google	Explorar, visualizar, analizar y transformar fácilmente los datos utilizando lenguajes familiares, como Python y SQL, interactivamente.
Hortonworks Sandbox	es un entorno de Hadoop personal y portátil que viene con una docena de tutoriales interactivos de Hadoop.
Riñonal	es un entorno de software gratuito para la computación estadística y los gráficos.
Tesor	es una colección obstinada de paquetes R diseñados para la ciencia de datos. Todos los paquetes comparten una filosofía de diseño subyacente, gramática y estructuras de datos.
Rstudio	IDE: una potente interfaz de usuario para R. Es de código abierto y abierto, y funciona en Windows, Mac y Linux.
Python - Pandas - Anaconda	Distribución de pitón de la empresa completamente libre para la empresa para procesamiento de datos a gran escala, análisis predictivo y computación científica
GUI PANDAS	GUI PANDAS
Lear	Aprendizaje automático en Python
Numpy	Numpy es fundamental para la computación científica con Python. Admite grandes matrices y matrices multidimensionales e incluye una variedad de funciones matemáticas de alto nivel para operar en estas matrices.
Vaex	VAEX es una biblioteca de Python que le permite visualizar grandes conjuntos de datos y calcular estadísticas a altas velocidades.
Bisagro	SciPy funciona con matrices Numpy y proporciona rutinas eficientes para la integración y optimización numéricas.
Caja de herramientas de ciencia de datos	Curso de Coursera
Caja de herramientas de ciencia de datos	Blog
Plataforma de ciencia de datos Wolfram	Tome datos numéricos, textuales, de imagen, SIG u otros datos y brinde el tratamiento Wolfram, llevando a cabo un espectro completo de análisis y visualización de la ciencia de datos y genere automáticamente informes interactivos ricos, todo impulsado por el revolucionario lenguaje Wolfram basado en el conocimiento.
Datadog	Soluciones, código y DevOps para ciencia de datos de alta escala.
Diferencia	Cree visualizaciones de datos potentes para la web sin escribir JavaScript
Kit de desarrollo de cometas	El Kite Software Development Kit (Licencia Apache, versión 2.0), o Kite for Short, es un conjunto de bibliotecas, herramientas, ejemplos y documentación centrados en facilitar la creación de sistemas en la parte superior del ecosistema Hadoop.
Laboratorios de datos Domino	Ejecutar, escalar, compartir e implementar sus modelos, sin ninguna infraestructura o configuración.
Apache flink	Una plataforma para procesamiento eficiente, distribuido y de uso general.
Apache jama	Apache Hama es un proyecto de código abierto de nivel superior Apache, lo que le permite realizar análisis avanzados más allá de MapReduce.
Weka	Weka es una colección de algoritmos de aprendizaje automático para tareas de minería de datos.
Octava	GNU Octave es un lenguaje interpretado de alto nivel, principalmente destinado a cálculos numéricos. (Matlab libre)
Apache Spark	Lightning-Fast Cluster Computing
Mistón de hidrosfera	Un servicio para exponer los trabajos de Apache Spark Analytics y los modelos de aprendizaje automático como servicios web en tiempo real, lotes o reactivos.
Mecánico de datos	Una plataforma de ciencia e ingeniería de datos que hace que Apache sea más amigable para el desarrollador y rentable.
Cafetería	Marco de aprendizaje profundo
Antorcha	Un marco informático científico para Luajit
Marco de aprendizaje profundo basado en Python de Nervana	Intel® Nervana ™ Reference Deep Learning Framework comprometido con el mejor rendimiento en todo el hardware.
Holgazán	Procesamiento de datos distribuidos de alto rendimiento en NodeJS
Aerosolar	Un paquete de aprendizaje automático creado para humanos.
Marco Intel	Marco de aprendizaje profundo Intel®
Datawrapper	Una plataforma de visualización de datos de código abierto que ayuda a todos a crear gráficos simples, correctos e integrables. También en Github.com
Flujo tensor	TensorFlow es una biblioteca de software de código abierto para la inteligencia de máquinas
Kit de herramientas de lenguaje natural	Un conjunto de herramientas introductorio pero poderoso para el procesamiento y clasificación del lenguaje natural
Laboratorio de anotación	Plataforma gratuita sin código de extremo a extremo para anotación de texto y entrenamiento/ajuste del modelo DL. Soporte listón para el reconocimiento de entidad nombrado, clasificación, extracción de relaciones y estado de afirmación Spark NLP Modelos. Soporte ilimitado para usuarios, equipos, proyectos, documentos.
NLP-Toolkit para Node.js	Este módulo cubre algunos principios e implementaciones básicos de PNL. El enfoque principal es el rendimiento. Cuando tratamos con datos de muestra o entrenamiento en PNL, nos quedamos sin memoria rápidamente. Por lo tanto, cada implementación en este módulo se escribe como flujo para mantener solo esos datos en la memoria que actualmente se procesan en cualquier paso.
Julia	lenguaje de programación dinámica de alto nivel y alto rendimiento para informática técnica
Ijulia	Un backend en lenguaje de Julia combinado con el entorno interactivo Jupyter
Apache zeppelin	Notebook basado en la web que permite análisis de datos interactivos e basados en datos y documentos de colaboración con SQL, Scala y más
Largometraje	Un marco de código abierto para la ingeniería de funciones automatizada escrita en Python
Optimista	Limpieza, preprocesamiento, ingeniería de características, análisis de datos exploratorios y ML fácil con backend de Pyspark.
Albumentaciones	– Biblioteca de aumento de imagen agnóstico rápido y marco que implementa un conjunto diverso de técnicas de aumento. Admite clasificación, segmentación y detección fuera de la caja. Fue utilizado para ganar una serie de concursos de aprendizaje profundo en Kaggle, Topcoder y aquellos que formaron parte de los talleres de CVPR.
DVC	Un sistema de control de versiones de ciencia de datos de código abierto. Ayuda a rastrear, organizar y hacer que los proyectos de ciencia de datos sean reproducibles. En su escenario muy básico ayuda a controlar las versiones y compartir grandes datos y archivos de modelos.
Lambdo	es un motor de flujo de trabajo que simplifica significativamente el análisis de datos mediante la combinación en una tubería de análisis (i) Ingeniería de características y aprendizaje automático (II) Capacitación y predicción del modelo (III) Población y evaluación de columnas.
Banquete	Una tienda de características para la gestión, el descubrimiento y el acceso de las características de aprendizaje automático. Feast proporciona una visión consistente de los datos de características tanto para el entrenamiento de modelos como para el servicio del modelo.
Poliaxón	Una plataforma para el aprendizaje automático reproducible y escalable y el aprendizaje profundo.
Lighttag	Herramienta de anotación de texto para equipos
Ubiai	Herramienta de anotación de texto fácil de usar para equipos con las características de anotación automática más completas. Admite la clasificación NER, las relaciones y los documentos, así como la anotación de OCR para el etiquetado de facturas
Trenes	Administrador de experimentos auto-mágicos, control de versiones y devops para AI
Hopsworks	Plataforma de aprendizaje automático intensivo de datos de código abierto con un almacén de funciones. Ingerir y administrar características para el acceso en línea (clúster MySQL) y fuera de línea (Apache Hive), entrenar y servir modelos a escala.
Mentaldb	MindSDB es un marco Automl explicable para los desarrolladores. Con MindSDB puede construir, entrenar y usar modelos ML de última generación en una línea de código tan simple.
Madera ligera	Un marco basado en Pytorch que descompone los problemas de aprendizaje automático en bloques más pequeños que se pueden pegarse sin problemas con un objetivo para construir modelos predictivos con una línea de código.
AWS Data Wrangler	Un paquete Python de código abierto que extiende el poder de la biblioteca Pandas a AWS que conectan los marcos de datos y los servicios relacionados con los datos de AWS (Amazon Redshift, AWS Glue, Amazon Athena, Amazon EMR, etc.).
Amazon Rekognition	AWS Rekognition es un servicio que permite a los desarrolladores trabajar con Amazon Web Services agregan análisis de imágenes a sus aplicaciones. Activos de catálogo, automatizar flujos de trabajo y extraer significado de sus medios y aplicaciones.
Amazon Textract	Extraiga automáticamente el texto impreso, la escritura a mano y los datos de cualquier documento.
Amazon buscando visión	Defectos del producto spot utilizando la visión por computadora para automatizar la inspección de calidad. Identifique los componentes del producto faltantes, el daño del vehículo y la estructura, e irregularidades para un control integral de calidad.
Amazon Codeguru	Automatice las revisiones de código y optimice el rendimiento de la aplicación con recomendaciones con ML.
CML	Un conjunto de herramientas de código abierto para usar la integración continua en proyectos de ciencia de datos. Entrenar y probar automáticamente modelos en entornos similares a la producción con GitHub Actions & Gitlab CI, y autogeneran informes visuales sobre solicitudes de extracción/fusión.
Dask	Una biblioteca de Python de código abierto para hacer una transición sin dolor de su código de análisis a los sistemas informáticos distribuidos (Big Data)
Estadelo	Una estadística inferencial basada en Python, pruebas de hipótesis y marco de regresión
Gensim	Una biblioteca de código abierto para el modelado de temas del texto del lenguaje natural
extirpado	Un juego de herramientas de procesamiento de lenguaje natural de performance
Estudio de la cuadrícula	Grid Studio es una aplicación de hoja de cálculo basada en la web con integración completa del lenguaje de programación de Python.
Manual de ciencia de datos de Python	Manual de ciencia de datos de Python: texto completo en cuadernos Jupyter
Shapley	Un marco basado en datos para cuantificar el valor de los clasificadores en un conjunto de aprendizaje automático.
Dagshub	Una plataforma construida sobre herramientas de código abierto para datos, modelo y gestión de tuberías.
Nota profunda	Un nuevo tipo de cuaderno de ciencia de datos. Jupyter-compatible, con colaboración en tiempo real y ejecución en la nube.
Valohai	Una plataforma MLOPS que maneja la orquestación de la máquina, la reproducibilidad automática y la implementación.
Pymc3	Una biblioteca de Python para la programación probabalística (inferencia bayesiana y aprendizaje automático)
Pystan	Interfaz de Python a Stan (inferencia y modelado bayesianos)
hmmlearn	Aprendizaje no supervisado e inferencia de los modelos ocultos de Markov
Genio del caos	Engine de análisis Powered ML para detección atípica/anomalía y análisis de causa raíz
Cajón ágil	Una plataforma MLOPS de pila completa diseñada para ayudar a los científicos de datos y los profesionales de aprendizaje automático de todo el mundo a descubrir, crear y lanzar aplicaciones de múltiples nubes desde su navegador web.
Remolcado	Una biblioteca de Python que lo ayuda a codificar sus datos no estructurados en incrustaciones.
Lineapia	¿Alguna vez se ha frustrado con la limpieza de cuadernos Jupyter largos y desordenados? Con Lineapy, una biblioteca de Python de código abierto, se necesitan tan solo dos líneas de código para transformar el código de desarrollo desordenado en tuberías de producción.
envidiar	? ️ Entorno de desarrollo de aprendizaje automático para la ciencia de datos y los equipos de ingeniería de IA/ML
Explorar bibliotecas de ciencias de datos	¿Un motor de búsqueda? Herramienta para descubrir y encontrar una lista curada de bibliotecas populares y nuevas, autores principales, kits de proyectos de tendencia, discusiones, tutoriales y recursos de aprendizaje
Mlem	? Versión e implementar sus modelos ML siguiendo los principios de GITOPS
Mlflow	Marco de MLOPS para administrar modelos ML en todo su ciclo de vida
cleanlab	Biblioteca de Python para IA centrada en datos y detectar automáticamente varios problemas en conjuntos de datos ML
Autogluón	Automl para producir fácilmente predicciones precisas para la imagen, el texto, la tabla tabular, la serie de tiempo y los datos multimodales
Arize Ai	Herramienta de observabilidad de nivel comunitario de AI AI para monitorear modelos de aprendizaje automático en problemas de producción y causa de raíces, como la calidad de los datos y la deriva de rendimiento.
Aureo.io	AUREO.IO es una plataforma de bajo código que se centra en construir inteligencia artificial. Proporciona a los usuarios la capacidad de crear tuberías, automatizaciones e integrarlas con modelos de inteligencia artificial, todo con sus datos básicos.
Laboratorio ERD	La herramienta Diagrama de relación de entidad (ERD) basada en la nube gratuita hecha para desarrolladores.
Arize-foenix	MLOPS en un cuaderno: descubra ideas, problemas de superficie, monitor y ajuste sus modelos.
Cometa	Una plataforma MLOPS con seguimiento de experimentos, gestión de producción de modelos, un registro de modelos y un linaje de datos completo para respaldar su flujo de trabajo ML desde la capacitación directa hasta la producción.
Opik	Evalúe, pruebe y envíe aplicaciones LLM en su desarrollo y ciclos de vida de producción.
Sintical	Entorno colaborativo con IA para la investigación. Encuentre documentos relevantes, cree colecciones para administrar la bibliografía y resumir el contenido, todo en un solo lugar
tipografía	Herramienta de flujo de trabajo para organizar automáticamente la salida de visualización de datos
Racionalizar	Marco de aplicaciones para proyectos de aprendizaje automático y ciencia de datos
Gradio	Crear componentes de interfaz de usuario personalizables en torno a modelos de aprendizaje automático
Pesos y prejuicios	Seguimiento de experimentos, versiones en conjunto de datos y gestión de modelos
DVC	Sistema de control de versiones de código abierto para proyectos de aprendizaje automático
Optuna	Marco de software de optimización de hiperparameter automático
Melodía de rayos	Biblioteca de ajuste de hiperparameter escalable
Flujo de aire de Apache	Plataforma para autor, programar, programar y monitorear flujos de trabajo
Prefecto	Sistema de gestión de flujo de trabajo para pilas de datos modernas
Kedro	Marco de Python de código abierto para crear código reproducible de ciencia de datos mantenibles y mantenibles
Hamilton	Biblioteca ligera al autor y administrar transformaciones de datos confiables
Bandear	Enfoque teórico del juego para explicar la salida de cualquier modelo de aprendizaje automático
CAL	Explicar las predicciones de cualquier clasificador de aprendizaje automático
de la mosca	Plataforma de automatización de flujo de trabajo para el aprendizaje automático
DBT	Herramienta de compilación de datos
Bandear	Enfoque teórico del juego para explicar la salida de cualquier modelo de aprendizaje automático
CAL	Explicar las predicciones de cualquier clasificador de aprendizaje automático

Literatura y medios de comunicación

^ back to top ^

Esta sección incluye algún material de lectura adicional, canales para ver y habla para escuchar.

Libros

^ back to top ^

Ciencia de datos desde cero: Primeros principios con Python
Inteligencia artificial con Python - TutorialSpoint
Aprendizaje automático de cero
Aprendizaje automático probabilístico: una introducción
Una guía completa para el aprendizaje automático
Cómo liderar la ciencia de datos - Acceso temprano
Luchar contra la rotación con datos
Ciencia de datos a escala con Python y Dask
Manual de ciencia de datos de Python
El manual de la ciencia de datos: consejos y ideas de 25 científicos de datos increíbles
Think Like a Data Scientist
Introducing Data Science
Practical Data Science with R
Everyday Data Science & (cheaper PDF version)
Exploring Data Science - free eBook sampler
Exploring the Data Jungle - free eBook sampler
Classic Computer Science Problems in Python
Math for Programmers Early access
R in Action, Third Edition Early Access
Data Science Bookcamp Early access
Data Science Thinking: The Next Scientific, Technological and Economic Revolution
Applied Data Science: Lessons Learned for the Data-Driven Business
The Data Science Handbook
Essential Natural Language Processing - Early access
Mining Massive Datasets - free e-book comprehended by an online course
Pandas in Action - Early access
Genetic Algorithms and Genetic Programming
Advances in Evolutionary Algorithms - Free Download
Genetic Programming: New Approaches and Successful Applications - Free Download
Evolutionary Algorithms - Free Download
Advances in Genetic Programming, Vol. 3 - Free Download
Global Optimization Algorithms: Theory and Application - Free Download
Genetic Algorithms and Evolutionary Computation - Free Download
Convex Optimization - Convex Optimization book by Stephen Boyd - Free Download
Data Analysis with Python and PySpark - Early Access
R for Data Science
Build a Career in Data Science
Machine Learning Bookcamp - Early access
Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition
Effective Data Science Infrastructure
Practical MLOps: How to Get Ready for Production Models
Data Analysis with Python and PySpark
Regression, a Friendly guide - Early Access
Streaming Systems: The What, Where, When, and How of Large-Scale Data Processing
Data Science at the Command Line: Facing the Future with Time-Tested Tools
Machine Learning - CIn UFPE
Machine Learning with Python - Tutorialspoint
Deep Learning
Designing Cloud Data Platforms - Early Access
An Introduction to Statistical Learning with Applications in R
The Elements of Statistical Learning: Data Mining, Inference, and Prediction
Deep Learning with PyTorch
Neural Networks and Deep Learning
Deep Learning Cookbook
Introduction to Machine Learning with Python
Artificial Intelligence: Foundations of Computational Agents, 2nd Edition - Free HTML version
The Quest for Artificial Intelligence: A History of Ideas and Achievements - Free Download
Graph Algorithms for Data Science - Early Access
Data Mesh in Action - Early Access
Julia for Data Analysis - Early Access
Casual Inference for Data Science - Early Access
Regular Expression Puzzles and AI Coding Assistants by David Mertz
Dive into Deep Learning
Data for All
Interpretable Machine Learning: A Guide for Making Black Box Models Explainable - Free GitHub version
Foundations of Data Science Free Download
Comet for DataScience: Enhance your ability to manage and optimize the life cycle of your data science project
Software Engineering for Data Scientists - Early Access
Julia for Data Science - Early Access
An Introduction to Statistical Learning - Download Page
Machine Learning For Absolute Beginners
Unifying Business, Data, and Code: Designing Data Products with JSON Schema

Book Deals (Affiliated) ?

eBook sale - Save up to 45% on eBooks!
Causal Machine Learning
Managing ML Projects
Causal Inference for Data Science
Data for All

Journals, Publications and Magazines

^ back to top ^

ICML - International Conference on Machine Learning
GECCO - The Genetic and Evolutionary Computation Conference (GECCO)
epjdatascience
Journal of Data Science - an international journal devoted to applications of statistical methods at large
Big Data Research
Journal of Big Data
Big Data & Society
Data Science Journal
datatau.com/news - Like Hacker News, but for data
Data Science Trello Board
Medium Data Science Topic - Data Science related publications on medium
Towards Data Science Genetic Algorithm Topic -Genetic Algorithm related Publications towards Data Science
all AI news - The AI/ML/Big Data news aggregator platform

Boletín

^ back to top ^

AI Digest. A weekly newsletter to keep up to date with AI, machine learning, and data science. Archivo.
DataTalks.Club. A weekly newsletter about data-related things. Archivo.
The Analytics Engineering Roundup. A newsletter about data science. Archivo.

Bloggers

^ back to top ^

Wes McKinney - Wes McKinney Archives.
Matthew Russell - Mining The Social Web.
Greg Reda - Greg Reda Personal Blog
Kevin Davenport - Kevin Davenport Personal Blog
Julia Evans - Recurse Center alumna
Hakan Kardas - Personal Web Page
Sean J. Taylor - Personal Web Page
Drew Conway - Personal Web Page
Hilary Mason - Personal Web Page
Noah Iliinsky - Personal Blog
Matt Harrison - Personal Blog
Vamshi Ambati - AllThings Data Sciene
Prash Chan - Tech Blog on Master Data Management And Every Buzz Surrounding It
Clare Corthell - The Open Source Data Science Masters
Paul Miller Based in the UK and working globally, Cloud of Data's consultancy services help clients understand the implications of taking data and more to the Cloud.
Data Science London Data Science London is a non-profit organization dedicated to the free, open, dissemination of data science. We are the largest data science community in Europe. We are more than 3,190 data scientists and data geeks in our community.
Datawrangling by Peter Skomoroch. MACHINE LEARNING, DATA MINING, AND MORE
Quora Data Science - Data Science Questions and Answers from experts
Siah a PhD student at Berkeley
Louis Dorard a technology guy with a penchant for the web and for data, big and small
Machine Learning Mastery about helping professional programmers confidently apply machine learning algorithms to address complex problems.
Daniel Forsyth - Personal Blog
Data Science Weekly - Weekly News Blog
Revolution Analytics - Data Science Blog
R Bloggers - R Bloggers
The Practical Quant Big data
Yet Another Data Blog Yet Another Data Blog
Spenczar a data scientist at Twitch . I handle the whole data pipeline, from tracking to model-building to reporting.
KD Nuggets Data Mining, Analytics, Big Data, Data, Science not a blog a portal
Meta Brown - Personal Blog
Data Scientist is building the data scientist culture.
WhatSTheBigData is some of, all of, or much more than the above and this blog explores its impact on information technology, the business world, government agencies, and our lives.
Tevfik Kosar - Magnus Notitia
New Data Scientist How a Social Scientist Jumps into the World of Big Data
Harvard Data Science - Thoughts on Statistical Computing and Visualization
Data Science 101 - Learning To Be A Data Scientist
Kaggle Past Solutions
DataScientistJourney
NYC Taxi Visualization Blog
Learning Lover
Dataists
Data-Mania
Data-Magnum
P-value - Musings on data science, machine learning, and stats.
datascopeanalytics
Digital transformation
datascientistjourney
Data Mania Blog - The File Drawer - Chris Said's science blog
Emilio Ferrara's web page
DataNews
Reddit TextMining
Periscópico
Hilary Parker
Data Stories
Data Science Lab
Meaning of
Adventures in Data Land
DATA MINERS BLOG
Dataclysm
FlowingData - Visualization and Statistics
Riesgo calculado
O'reilly Learning Blog
Dominodatalab
i am trask - A Machine Learning Craftsmanship Blog
Vademecum of Practical Data Science - Handbook and recipes for data-driven solutions of real-world problems
Dataconomy - A blog on the newly emerging data economy
Springboard - A blog with resources for data science learners
Analytics Vidhya - A full-fledged website about data science and analytics study material.
Occam's Razor - Focused on Web Analytics.
Data School - Data science tutorials for beginners!
Colah's Blog - Blog for understanding Neural Networks!
Sebastian's Blog - Blog for NLP and transfer learning!
Distill - Dedicated to clear explanations of machine learning!
Chris Albon's Website - Data Science and AI notes
Andrew Carr - Data Science with Esoteric programming languages
floydhub - Blog for Evolutionary Algorithms
Jingles - Review and extract key concepts from academic papers
nbshare - Data Science notebooks
Deep and Shallow - All things Deep and Shallow in Data Science
Loic Tetrel - Data science blog
Chip Huyen's Blog - ML Engineering, MLOps, and the use of ML in startups
Maria Khalusova - Data science blog
Aditi Rastogi - ML,DL,Data Science blog
Santiago Basulto - Data Science with Python
Akhil Soni - ML, DL and Data Science
Akhil Soni - ML, DL and Data Science

Presentaciones

^ back to top ^

How to Become a Data Scientist
Introduction to Data Science
Intro to Data Science for Enterprise Big Data
How to Interview a Data Scientist
How to Share Data with a Statistician
The Science of a Great Career in Data Science
What Does a Data Scientist Do?
Building Data Start-Ups: Fast, Big, and Focused
How to win data science competitions with Deep Learning
Full-Stack Data Scientist

Podcasts

^ back to top ^

AI at Home
AI Today
Adversarial Learning
Becoming a Data Scientist
Chai time Data Science
Data Crunch
Data Engineering Podcast
Data Science at Home
Data Science Mixer
Data Skeptic
Data Stories
Datacast
DataFramed
DataTalks.Club
Gradient Descent
Learning Machines 101
Let's Data (Brazil)
Linear Digressions
Not So Standard Deviations
O'Reilly Data Show Podcast
Partially Derivative
Superdatascience
The Data Engineering Show
The Radical AI Podcast
The Robot Brains Podcast
What's The Point
How AI Built This
The Analytics Engineering Podcast

YouTube Videos & Channels

^ back to top ^

¿Qué es el aprendizaje automático?
Andrew Ng: Deep Learning, Self-Taught Learning and Unsupervised Feature Learning
Data36 - Data Science for Beginners by Tomi Mester
Deep Learning: Intelligence from Big Data
Interview with Google's AI and Deep Learning 'Godfather' Geoffrey Hinton
Introduction to Deep Learning with Python
What is machine learning, and how does it work?
Data School - Data Science Education
Neural Nets for Newbies by Melanie Warrick (May 2015)
Neural Networks video series by Hugo Larochelle
Google DeepMind co-founder Shane Legg - Machine Super Intelligence
Data Science Primer
Data Science with Genetic Algorithms
Data Science for Beginners
DataTalks.Club
Mildlyoverfitted - Tutorials on intermediate ML/DL topics
mlops.community - Interviews of industry experts about production ML
ML Street Talk - Unabashedly technical and non-commercial, so you will hear no annoying pitches.
Neural networks by 3Blue1Brown
Neural networks from scratch by Sentdex
Manning Publications YouTube channel
Ask Dr Chong: How to Lead in Data Science - Part 1
Ask Dr Chong: How to Lead in Data Science - Part 2
Ask Dr Chong: How to Lead in Data Science - Part 3
Ask Dr Chong: How to Lead in Data Science - Part 4
Ask Dr Chong: How to Lead in Data Science - Part 5
Ask Dr Chong: How to Lead in Data Science - Part 6
Regression Models: Applying simple Poisson regression
Deep Learning Architectures
Time Series Modelling and Analysis

Socializar

^ back to top ^

Below are some Social Media links. Connect with other data scientists!

Facebook Accounts
Twitter Accounts
Telegram Channels
Slack Communities
GitHub Groups
Data Science Competitions

Facebook Accounts

^ back to top ^

Datos
Big Data Scientist
Data Science Day
Data Science Academy
Facebook Data Science Page
Data Science London
Data Science Technology and Corporation
Data Science - Closed Group
Center for Data Science
Big data hadoop NOSQL Hive Hbase
Analytics, Data Mining, Predictive Modeling, Artificial Intelligence
Big Data Analytics using R
Big Data Analytics with R and Hadoop
Big Data Learnings
Big Data, Data Science, Data Mining & Statistics
BigData/Hadoop Expert
Data Mining / Machine Learning / AI
Data Mining/Big Data - Social Network Ana
Vademecum of Practical Data Science
Veri Bilimi Istanbul
The Data Science Blog

Twitter Accounts

^ back to top ^

Gorjeo	Descripción
Big Data Combine	Rapid-fire, live tryouts for data scientists seeking to monetize their models as trading strategies
Big Data Mania	Data Viz Wiz, Data Journalist, Growth Hacker, Author of Data Science for Dummies (2015)
Big Data Science	Big Data, Data Science, Predictive Modeling, Business Analytics, Hadoop, Decision and Operations Research.
Charlie Greenbacker	Director of Data Science at @ExploreAltamira
Chris Said	Data scientist at Twitter
Clare Corthell	Dev, Design, Data Science @mattermark #hackerei
DADI Charles-Abner	#datascientist @Ekimetrics. , #machinelearning #dataviz #DynamicCharts #Hadoop #R #Python #NLP #Bitcoin #dataenthousiast
Data Science Central	Data Science Central is the industry's single resource for Big Data practitioners.
Data Science London	Data Science. Big Data. Data Hacks. Data Junkies. Data Startups. Datos abiertos
Data Science Renee	Documenting my path from SQL Data Analyst pursuing an Engineering Master's Degree to Data Scientist
Data Science Report	Mission is to help guide & advance careers in Data Science & Analytics
Data Science Tips	Tips and Tricks for Data Scientists around the world! #datascience #bigdata
Data Vizzard	DataViz, Security, Military
DataScienceX
deeplearning4j
DJ Patil	White House Data Chief, VP @ RelateIQ.
Domino Data Lab
Drew Conway	Data nerd, hacker, student of conflict.
Emilio Ferrara	#Networks, #MachineLearning and #DataScience. I work on #Social Media. Postdoc at @IndianaUniv
Erin Bartolo	Running with #BigData--enjoying a love/hate relationship with its hype. @iSchoolSU #DataScience Program Mgr.
Greg Reda	Working @ GrubHub about data and pandas
Gregory Piatetsky	KDnuggets President, Analytics/Big Data/Data Mining/Data Science expert, KDD & SIGKDD co-founder, was Chief Scientist at 2 startups, part-time philosopher.
Hadley Wickham	Chief Scientist at RStudio, and an Adjunct Professor of Statistics at the University of Auckland, Stanford University, and Rice University.
Hakan Kardas	Científico de datos
Hilary Mason	Data Scientist in Residence at @accel.
Jeff Hammerbacher	ReTweeting about data science
John Myles White	Scientist at Facebook and Julia developer. Author of Machine Learning for Hackers and Bandit Algorithms for Website Optimization. Tweets reflect my views only.
Juan Miguel Lavista	Principal Data Scientist @ Microsoft Data Science Team
Julia Evans	Hacker - Pandas - Data Analyze
Kenneth Cukier	The Economist's Data Editor and co-author of Big Data (http://www.big-data-book.com/).
Kevin Davenport	Organizer of https://www.meetup.com/San-Diego-Data-Science-R-Users-Group/
Kevin Markham	Data science instructor, and founder of Data School
Kim Rees	Interactive data visualization and tools. Data flaneur.
Kirk Borne	DataScientist, PhD Astrophysicist, Top #BigData Influencer.
Linda Regber	Data storyteller, visualizations.
Luis Rei	PhD Student. Programming, Mobile, Web. Artificial Intelligence, Intelligent Robotics Machine Learning, Data Mining, Natural Language Processing, Data Science.
Mark Stevenson	Data Analytics Recruitment Specialist at Salt (@SaltJobs) Analytics - Insight - Big Data - Data science
Matt Harrison	Opinions of full-stack Python guy, author, instructor, currently playing Data Scientist. Occasional fathering, husbanding, organic gardening.
Matthew Russell	Mining the Social Web.
Mert Nuhoğlu	Data Scientist at BizQualify, Developer
Monica Rogati	Data @ Jawbone. Turned data into stories & products at LinkedIn. Text mining, applied machine learning, recommender systems. Ex-gamer, ex-machine coder; namer.
Noah Iliinsky	Visualization & interaction designer. Practical cyclist. Author of vis books: https://www.oreilly.com/pub/au/4419
Paul Miller	Cloud Computing/ Big Data/ Open Data Analyst & Consultant. Writer, Speaker & Moderator. Gigaom Research Analyst.
Peter Skomoroch	Creating intelligent systems to automate tasks & improve decisions. Entrepreneur, ex-Principal Data Scientist @LinkedIn. Machine Learning, ProductRei, Networks
Prash Chan	Solution Architect @ IBM, Master Data Management, Data Quality & Data Governance Blogger. Data Science, Hadoop, Big Data & Cloud.
Quora Data Science	Quora's data science topic
R-Bloggers	Tweet blog posts from the R blogosphere, data science conferences, and (!) open jobs for data scientists.
Rand Hindi
Randy Olson	Computer scientist researching artificial intelligence. Data tinkerer. Community leader for @DataIsBeautiful. #OpenScience advocate.
Recep Erol	Data Science geek @ UALR
Ryan Orban	Data scientist, genetic origamist, hardware aficionado
Sean J. Taylor	Social Scientist. Hacker. Facebook Data Science Team. Keywords: Experiments, Causal Inference, Statistics, Machine Learning, Economics.
Silvia K. Spiva	#DataScience at Cisco
Harsh B. Gupta	Data Scientist at BBVA Compass
Spencer Nelson	Data nerd
Talha Oz	Enjoys ABM, SNA, DM, ML, NLP, HI, Python, Java. Top percentile Kaggler/data scientist
Tasos Skarlatidis	Complex Event Processing, Big Data, Artificial Intelligence and Machine Learning. Passionate about programming and open-source.
Terry Timko	InfoGov; Bigdata; Data as a Service; Data Science; Open, Social & Business Data Convergence
Tony Baer	IT analyst with Ovum covering Big Data & data management with some systems engineering thrown in.
Tony Ojeda	Data Scientist , Author , Entrepreneur. Co-founder @DataCommunityDC. Founder @DistrictDataLab. #DataScience #BigData #DataDC
Vamshi Ambati	Data Science @ PayPal. #NLP, #machinelearning; PhD, Carnegie Mellon alumni (Blog: https://allthingsds.wordpress.com )
Wes McKinney	Pandas (Python Data Analysis library).
WileyEd	Senior Manager - @Seagate Big Data Analytics @McKinsey Alum #BigData + #Analytics Evangelist #Hadoop, #Cloud, #Digital, & #R Enthusiast
WNYC Data News Team	The data news crew at @WNYC. Practicing data-driven journalism, making it visual, and showing our work.
Alexey Grigorev	Data science author
İlker Arslan	Data science author. Shares mostly about Julia programming
INEVITABLE	AI & Data Science Start-up Company based in England, UK

Telegram Channels

^ back to top ^

Open Data Science – First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former.
Loss function porn — Beautiful posts on DS/ML theme with video or graphic visualization.
Machinelearning – Daily ML news.

Slack Communities

arriba

DataTalks.Club
Women Who Code - Data Science

GitHub Groups

Berkeley Institute for Data Science

Data Science Competitions

Some data mining competition platforms

Kaggle
DrivenData
Analytics Vidhya
InnoCentive
Microprediction

Divertido

Infografía
Datasets
Historietas

Infographics

^ back to top ^

Avance	Descripción
	Key differences of a data scientist vs. data engineer
	A visual guide to Becoming a Data Scientist in 8 Steps by DataCamp (img)
	Mindmap on required skills (img)
	Swami Chandrasekaran made a Curriculum via Metro map.
	by @kzawadz via twitter
	By Data Science Central
	Data Science Wars: R vs Python
	How to select statistical or machine learning techniques
	Choosing the Right Estimator
	The Data Science Industry: Who Does What
	Ciencia de datos ~~Venn~~ Euler Diagram
	Different Data Science Skills and Roles from this article by Springboard
	A simple and friendly way of teaching your non-data scientist/non-statistician colleagues how to avoid mistakes with data. From Geckoboard's Data Literacy Lessons.

Datasets

^ back to top ^

Academic Torrents
ADS-B Exchange - Specific datasets for aircraft and Automatic Dependent Surveillance-Broadcast (ADS-B) sources.
hadoopilluminated.com
data.gov - The home of the US Government's open data
United States Census Bureau
usgovxml.com
enigma.com - Navigate the world of public data - Quickly search and analyze billions of public records published by governments, companies and organizations.
datahub.io
aws.amazon.com/datasets
datacite.org
The official portal for European data
NASDAQ:DATA - Nasdaq Data Link A premier source for financial, economic and alternative datasets.
figshare.com
GeoLite Legacy Downloadable Databases
Quora's Big Datasets Answer
Public Big Data Sets
Kaggle Datasets
A Deep Catalog of Human Genetic Variation
A community-curated database of well-known people, places, and things
Google Public Data
World Bank Data
NYC Taxi data
Open Data Philly Connecting people with data for Philadelphia
grouplens.org Sample movie (with ratings), book and wiki datasets
UC Irvine Machine Learning Repository - contains data sets good for machine learning
research-quality data sets by Hilary Mason
National Centers for Environmental Information
ClimateData.us (related: US Climate Resilience Toolkit)
r/datasets
MapLight - provides a variety of data free of charge for uses that are freely available to the general public. Click on a data set below to learn more
GHDx - Institute for Health Metrics and Evaluation - a catalog of health and demographic datasets from around the world and including IHME results
St. Louis Federal Reserve Economic Data - FRED
New Zealand Institute of Economic Research – Data1850
Open Data Sources
UNICEF Data
undata
NASA SocioEconomic Data and Applications Center - SEDAC
The GDELT Project
Sweden, Statistics
StackExchange Data Explorer - an open source tool for running arbitrary queries against public data from the Stack Exchange network.
SocialGrep - a collection of open Reddit datasets.
San Fransisco Government Open Data
IBM Asset Dataset
Open data Index
Public Git Archive
GHTorrent
Microsoft Research Open Data
Open Government Data Platform India
Google Dataset Search (beta)
NAYN.CO Turkish News with categories
COVID-19
Covid-19 Google
Enron Email Dataset
5000 Images of Clothes
IBB Open Portal
The Humanitarian Data Exchange

Historietas

^ back to top ^

Comic compilation
Dibujos animados
Data Science Cartoons
Data Science: The XKCD Edition

Other Awesome Lists

Other amazingly awesome lists can be found in the awesome-awesomeness
Awesome Machine Learning
liza
awesome-dataviz
awesome-python
Data Science IPython Notebooks.
awesome-r
awesome-datasets
awesome-Machine Learning & Deep Learning Tutorials
Awesome Data Science Ideas
Machine Learning for Software Engineers
Community Curated Data Science Resources
Awesome Machine Learning On Source Code
Awesome Community Detection
Awesome Graph Classification
Awesome Decision Tree Papers
Awesome Fraud Detection Papers
Awesome Gradient Boosting Papers
Awesome Computer Vision Models
Awesome Monte Carlo Tree Search
Glossary of common statistics and ML terms
100 NLP Papers
Awesome Game Datasets
Data Science Interviews Questions
Awesome Explainable Graph Reasoning
Top Data Science Interview Questions
Awesome Drug Synergy, Interaction and Polypharmacy Prediction
Deep Learning Interview Questions
Top Future Trends in Data Science in 2023
How Generative AI Is Changing Creative Work
What is generative AI?
Top 100+ Machine Learning Interview Questions (Beginner to Advanced)

Pasatiempo

Awesome Music Production

Expandir