Cartera de ciencias de datos
Repositorio que contiene cartera de proyectos de ciencia de datos completados por mí para fines académicos, de aprendizaje automático y de pasatiempos. Presentado en forma de cuadernos Jupyter y archivos R Markdown (publicados en RPUBS).
Para obtener una experiencia más visualmente agradable para navegar por la cartera, visite sajalsharma.com
La cartera R se encuentra aquí.
Nota: Los datos utilizados en los proyectos (accedidos en el directorio de datos) son solo para fines de demostración.
Instrucciones para ejecutar los cuadernos de Python localmente
- Instalar dependencias utilizando requisitos.txt.
- Ejecute cuadernos como de costumbre utilizando un servidor de cuaderno Jupyter, VScode, etc.
Contenido
Aprendizaje automático
- Predecir los precios de la vivienda de Boston: un modelo para predecir el valor de una casa determinada en el mercado inmobiliario de Boston utilizando varias herramientas de análisis estadístico. Identificó el mejor precio que un cliente puede vender su casa utilizando el aprendizaje automático.
- Aprendizaje supervisado: Encontrar donantes para CharityML: Prueba de varios algoritmos de aprendizaje supervisados diferentes para construir un modelo que predice con precisión si un individuo gana más de $ 50,000, para identificar probables donantes para una organización ficticia sin fines de lucro.
- Aprendizaje no supervisado: Creación de segmentos de clientes: análisis de un conjunto de datos que contiene datos sobre los montos de gasto anuales de varios clientes (informados en unidades monetarias) de diversas categorías de productos para descubrir estructuras, patrones y conocimientos internos.
- Aprendizaje de refuerzo: capacitar a un smartcab para conducir: creando un agente de conducción de Q-learning optimizado que navegará por un SmartCAB a través de su entorno hacia un objetivo.
- Aprendizaje profundo: reconocimiento de secuencia de dígitos utilizando CNN: diseño e implementación de una red neuronal convolucional que aprende a reconocer secuencias de dígitos utilizando datos sintéticos generados por concatenaciones de imágenes de MNIST.
Herramientas: Scikit-Learn, Pandas, Seaborn, Matplotlib, Pygame
Procesamiento del lenguaje natural
Clasificador de mensajes de desastre: un modelo de clasificación multilabel para predecir las categorías de un mensaje de desastre. Incluye una tubería ETL para el procesamiento de datos, una tubería ML para capacitar al modelo y una aplicación web, con visualizaciones, donde el modelo puede usarse para clasificar los mensajes. Herramientas: NLTK, Scikit-Learn, Xgboost, Flask, Plotly
Análisis de sentimientos de 3 vías para tweets: sistema de clasificación de polaridad de 3 vías (positivo, negativo, neutral) para tweets, sin usar el motor de análisis de sentimientos de NLTK.
Recuperación de información sobre el lenguaje cruzado: Sistema de recuperación de información de lenguaje cruzado (CLIR) que, dada una consulta en alemán, busca documentos de texto escritos en inglés.
Herramientas: NLTK, Scikit
Análisis y visualización de datos
- Pitón
- Análisis de transmisión escalable de Melbourne: Análisis de la caminabilidad de los suburbios en Melbourne, Victoria y sus implicaciones.
- Titanic DataSet - Análisis exploratorio: análisis exploratorio de los pasajeros a bordo de RMS Titanic utilizando pandas y visualizaciones marinas.
- Análisis del mercado de valores para acciones tecnológicas: análisis de acciones tecnológicas que incluyen cambios en el precio con el tiempo, los rendimientos diarios y la predicción del comportamiento de las acciones.
- Análisis de datos de la encuesta general de elecciones de EE. UU. 2016: análisis muy simple de los datos de la encuesta de elecciones generales de EE. UU. 2016.
- 911 Llamadas - Análisis exploratorio: análisis de datos exploratorios del conjunto de datos del 911 llamadas alojadas en Kaggle. Demuestra la extracción de características útiles de diferentes variables.
Herramientas: pandas, folium, marítimo y matplotlib
- Riñonal
- Sistema de vigilancia del factor de riesgo conductual (BRFSS) 2013: Análisis de datos exploratorios: análisis exploratorio del conjunto de datos BRFSS-2013, centrándose en investigar la relación entre la educación y los hábitos alimenticios, el sueño y la salud mental, y el fumar, la bebida y la salud general de una persona.
- Estadísticas inferenciales: ¿Los hombres o las mujeres se oponen a la educación sexual? : Uso del conjunto de datos GSS (Encuesta Social General) para inferir si, en el año 2012, eran hombres, de 18 años o más en los Estados Unidos, más propensos a oponerse a la educación sexual en las escuelas públicas que las mujeres.
- Visualización de datos: corrupción y desarrollo humano: una trama de dispersión para la relación entre el 'índice de desarrollo humano' y el 'índice de percepciones de corrupción' de los países.
- Moneyball: Análisis y reemplazo de jugadores perdidos: exploración de datos de béisbol para el año 2001 para ver los reemplazos de los jugadores clave perdidos por los Atléticos de Oakland en 2001. Inspirado en el libro/película: Moneyball.
Micro proyectos:
Pitón
- ML con regresión logística: utilizando regresión logística para predecir si un usuario de Internet hizo clic en un anuncio o no.
- ML con k vecinos más cercanos: usando KNN para clasificar las instancias desde un conjunto de datos falsos en dos clases de destino, mientras que elige el mejor valor para k usando el método de codo.
- ML con árboles de decisión y bosques aleatorios: utilizando árboles de decisión y bosques aleatorios para predecir si un prestamista pagará su préstamo. Utiliza datos disponibles públicamente de LendingClub.com
- Recomendaciones de películas que utilizan sistemas de recomendación: un micro proyecto para crear un sistema de recomendación que haga recomendaciones de películas basadas en similitudes de revisión del usuario.
Riñonal
- Ml Regresión logística: predicción de la clase salarial de una persona que usa regresión logística.
- Ml árboles de decisión y bosques aleatorios: uso de árboles de decisión y bosques aleatorios para clasificar las escuelas como privadas o públicas.
También incursiono en todos los demás tipos de tecnología. Puede encontrar una cartera general aquí.
Si te gustó lo que vio, quieres conversar conmigo sobre la cartera, las oportunidades de trabajo o la colaboración, disparar un correo electrónico a [email protected].
Apoya mi trabajo
Si este proyecto lo inspiró, le dio ideas para su propia cartera o lo ayudó, considere comprarme un café ❤️.