MyDatasciencePortfolio está siendo patrocinado por la siguiente herramienta. Por favor, ayude a apoyarnos echando un vistazo e inscribiéndose en una prueba gratuita.
Introducción
Estudio de giro de clientes
Postón de blog mediano
Sistemas de recomendación de películas
Estudio del crimen de San Francisco
Clúster de sinopsis
Bibliotecas útiles de la PNL
Proyectos potenciales futuros
Apéndice
Bienvenido a mi increíble cartera de Proyectos de Ciencias de Datos. En mi repositorio, puede encontrar soluciones increíbles y prácticas para algunos de los problemas comerciales del mundo real con métodos estadísticos y los modelos de aprendizaje automático de estado de arte. La mayoría de mis proyectos serán demostrados en el cuaderno Jupyter. Jupyter Notebook es una excelente manera de compartir mi trabajo con el mundo. Viene con Markdown y el entorno interactivo de Python y es portátil a otras plataformas como Databricks y Google Colaboratory también.
La colección de mi proyecto cubre varias aplicaciones de aprendizaje automático de tendencias, como el procesamiento del lenguaje natural , el aprendizaje automático a gran escala con chispa y el sistema de recomendación . Hay más por venir. Los proyectos futuros potenciales incluyen resumen de texto , pronóstico de precios de acciones , estrategia de negociación con aprendizaje de refuerzo y visión por computadora .
La tasa de rotación es una de las métricas comerciales importantes. Una empresa puede comparar su rotación y tasas de crecimiento para determinar si hubo crecimiento o pérdida general. Cuando la tasa de rotación es más alta que la tasa de crecimiento, la compañía ha experimentado una pérdida en su base de clientes.
¿Por qué los clientes agitan y dejan de usar los servicios de una empresa? ¿Cuál es la cantidad estimada de rotación para el próximo trimestre? Ser capaz de responder por encima de dos preguntas puede proporcionar información significativa sobre en qué dirección se dirige la compañía y cómo la compañía puede mejorar sus productos y servicios para que los Constomers se queden.
Medium es una popular plataforma de publicación de BlogPost con una enorme cantidad de contenido y datos de texto. ¿Qué publican la gente? ¿Cuáles son los temas latentes en esos blogs de blog? ¿Qué hace que un blog sea popular? ¿Y cuál es la tendencia en la tecnología actual? Este proyecto tiene como objetivo responder las preguntas a través de la visualización, el análisis, el proceso del lenguaje natural y las técnicas de aprendizaje automático.
Específicamente, usaré SeaBorn y Pandas para el análisis exploratorio. Para el modelado de aprendizaje automático, elijo K-Means , TSVD y LatentDirichletallation para el modelado de temas. Realizaré este estudio con dos marcos ML diferentes: Sklearn y Spark .
Sklearn es una gran biblioteca de aprendizaje automático de Python para científico de datos.
Sin embargo, en la era de Big Data, la mayoría del análisis de datos se basan en la computación distribuida. Spark se distribuye el marco que computa el clúster y proporciona una interfaz para programar grupos completos con paralelismo de datos implícitos y tolerancia a fallas.
La mayoría de los productos que usamos hoy funcionan con motores de recomendación. YouTube, Netflix, Amazon, Pinterest y una larga lista de otros productos de datos dependen de los motores de recomendación para filtrar millones de contenidos y hacer recomendaciones personalizadas a sus usuarios.
Sería genial construir un sistema de recomendación yo mismo. Me encanta ver películas cuando paso tiempo con mi familia. Así que decidí construir un recomendador de películas para mí. En general, los sistemas de recomendación se pueden dividir libremente en tres categorías: sistemas basados en contenido , sistemas de filtrado colaborativo y sistemas híbridos (que utilizan una combinación de los otros dos).
Mi proyecto se centra en los sistemas de filtrado colaborativo. Los sistemas basados en filtrado colaborativo utilizan las acciones de los usuarios para recomendar otros elementos. En general, pueden estar basados en el usuario o basados en elementos. El enfoque basado en elementos generalmente se prefiere que el enfoque basado en el usuario. El enfoque basado en el usuario a menudo es más difícil de escalar debido a la naturaleza dinámica de los usuarios, mientras que los elementos generalmente no cambian mucho, por lo que el enfoque basado en elementos a menudo se puede calcular fuera de línea.
Sin embargo, tanto el filtrado colaborativo basado en elementos como el usuario aún enfrenta los siguientes desafíos:
Para superar los desafíos anteriores, utilizaré la factorización de matriz para aprender características latentes e interacción entre usuarios y elementos
San Francisco ha estado surgiendo como una ciudad más cara para residir. Cada vez más nuevas empresas y empresas se mueven en la ciudad y atraen más y más talentos a la ciudad. Sin embargo, los incidentes de delitos parecen aumentar como el ingreso promedio de sus residentes también. Los robos de automóviles alcanzaron los niveles de 'epidemia' en San Francisco.
En este estudio, usaré Spark para analizar un conjunto de datos de incidentes informados de 15 años de SFPD y utilizaré métodos de aprendizaje automático para comprender el patrón y la distribución del crimen en SF. Por último, construiré un modelo de pronóstico de la serie temporal para pronosticar la tasa de criminalidad
Hoy, podemos recopilar muchos más datos no estructurados que nunca antes. A diferencia de los datos estructurados, los datos no estructurados no están estructurados a través de modelos o esquemas de datos predefinidos, pero tiene una estructura interna. Un ejemplo de datos no estructurados son los datos de texto, como el resumen de la trama, la sinopsis de las películas.
En este proyecto, utilizaré técnicas clásicas de PNL : tokenización de palabras , derivación de palabras , eliminación de palabras de parada , TF-IDF y más para limpiar los datos de texto sin procesar y extraer características del texto sin procesar. Luego usaré modelos de aprendizaje no supervisados, como K-means y LatentDirichletLocation, para agrupar documentos no etiquetados en diferentes grupos, visualizar los resultados e identificar sus temas/estructuras latentes.
Con las técnicas de agrupación aplicadas a los datos no estructurados, podemos comenzar a descubrir la estructura interna dentro de los datos e identificar la similitud entre los documentos. Con el puntaje de similitud entre documentos, comenzamos a tener la capacidad de consultar y analizar documentos desde cualquier almacén de documentos.
El procesamiento del lenguaje natural (NLP) es un área de tendencia sobre cómo programar máquinas para procesar y analizar grandes cantidades de datos del lenguaje natural, y extraer información significativa de él.
Hay muchas herramientas y bibliotecas diseñadas para resolver problemas de PNL. Las bibliotecas más utilizadas son el kit de herramientas de lenguaje natrual (NLTK) , Spacy , Sklearn NLP Toolkit , Gensim , Pattern , Polyglot y muchos otros. Mi cuaderno presentará el uso básico, los pros y los contras de cada bibliotecas de la PNL.