Descargar MyDataSciencePortfolio - Descargar el código fuente de MyDataSciencePortfolio

MyDataSciencePortfolio

Otro código fuente

1.0.0

Descargar

Mi cartera de ciencias de datos

MyDatasciencePortfolio está siendo patrocinado por la siguiente herramienta. Por favor, ayude a apoyarnos echando un vistazo e inscribiéndose en una prueba gratuita.

Tabla de contenido

Introducción
Estudio de giro de clientes
- Modelado de la rotación de clientes
Postón de blog mediano
- Análisis de datos exploratorios con Seaborn
- Modelado de temas en Medium BlogPost con Sklearn
- Modelado de temas en Medium BlogPost con Apache Spark
Sistemas de recomendación de películas
- Desarrollo del motor de recomendación de la película con KNN
- Desarrollo del motor de recomendación de la película con ALS en Apache Spark
- Desarrollo de motores de recomendación de películas con redes neuronales en Keras
Estudio del crimen de San Francisco
- Análisis del crimen de San Francisco con Apache Spark
Clúster de sinopsis
- Clúster de sinopsis
Bibliotecas útiles de la PNL
- Nltk
- Lear
- Gensim
- extirpado
Proyectos potenciales futuros
Apéndice
- Código fuente

Introducción

Bienvenido a mi increíble cartera de Proyectos de Ciencias de Datos. En mi repositorio, puede encontrar soluciones increíbles y prácticas para algunos de los problemas comerciales del mundo real con métodos estadísticos y los modelos de aprendizaje automático de estado de arte. La mayoría de mis proyectos serán demostrados en el cuaderno Jupyter. Jupyter Notebook es una excelente manera de compartir mi trabajo con el mundo. Viene con Markdown y el entorno interactivo de Python y es portátil a otras plataformas como Databricks y Google Colaboratory también.

La colección de mi proyecto cubre varias aplicaciones de aprendizaje automático de tendencias, como el procesamiento del lenguaje natural , el aprendizaje automático a gran escala con chispa y el sistema de recomendación . Hay más por venir. Los proyectos futuros potenciales incluyen resumen de texto , pronóstico de precios de acciones , estrategia de negociación con aprendizaje de refuerzo y visión por computadora .

Estudio de giro de clientes

La tasa de rotación es una de las métricas comerciales importantes. Una empresa puede comparar su rotación y tasas de crecimiento para determinar si hubo crecimiento o pérdida general. Cuando la tasa de rotación es más alta que la tasa de crecimiento, la compañía ha experimentado una pérdida en su base de clientes.

¿Por qué los clientes agitan y dejan de usar los servicios de una empresa? ¿Cuál es la cantidad estimada de rotación para el próximo trimestre? Ser capaz de responder por encima de dos preguntas puede proporcionar información significativa sobre en qué dirección se dirige la compañía y cómo la compañía puede mejorar sus productos y servicios para que los Constomers se queden.

Postón de blog mediano

Medium es una popular plataforma de publicación de BlogPost con una enorme cantidad de contenido y datos de texto. ¿Qué publican la gente? ¿Cuáles son los temas latentes en esos blogs de blog? ¿Qué hace que un blog sea popular? ¿Y cuál es la tendencia en la tecnología actual? Este proyecto tiene como objetivo responder las preguntas a través de la visualización, el análisis, el proceso del lenguaje natural y las técnicas de aprendizaje automático.

Específicamente, usaré SeaBorn y Pandas para el análisis exploratorio. Para el modelado de aprendizaje automático, elijo K-Means , TSVD y LatentDirichletallation para el modelado de temas. Realizaré este estudio con dos marcos ML diferentes: Sklearn y Spark .

Sklearn es una gran biblioteca de aprendizaje automático de Python para científico de datos.

Sin embargo, en la era de Big Data, la mayoría del análisis de datos se basan en la computación distribuida. Spark se distribuye el marco que computa el clúster y proporciona una interfaz para programar grupos completos con paralelismo de datos implícitos y tolerancia a fallas.

Sistemas de recomendación de películas

La mayoría de los productos que usamos hoy funcionan con motores de recomendación. YouTube, Netflix, Amazon, Pinterest y una larga lista de otros productos de datos dependen de los motores de recomendación para filtrar millones de contenidos y hacer recomendaciones personalizadas a sus usuarios.

Sería genial construir un sistema de recomendación yo mismo. Me encanta ver películas cuando paso tiempo con mi familia. Así que decidí construir un recomendador de películas para mí. En general, los sistemas de recomendación se pueden dividir libremente en tres categorías: sistemas basados en contenido , sistemas de filtrado colaborativo y sistemas híbridos (que utilizan una combinación de los otros dos).

Mi proyecto se centra en los sistemas de filtrado colaborativo. Los sistemas basados en filtrado colaborativo utilizan las acciones de los usuarios para recomendar otros elementos. En general, pueden estar basados en el usuario o basados en elementos. El enfoque basado en elementos generalmente se prefiere que el enfoque basado en el usuario. El enfoque basado en el usuario a menudo es más difícil de escalar debido a la naturaleza dinámica de los usuarios, mientras que los elementos generalmente no cambian mucho, por lo que el enfoque basado en elementos a menudo se puede calcular fuera de línea.

Sin embargo, tanto el filtrado colaborativo basado en elementos como el usuario aún enfrenta los siguientes desafíos:

inicio en frío
escasez de datos
sesgo popular (cómo recomendar productos de la cola de la distribución del producto)
escalabilidad

Para superar los desafíos anteriores, utilizaré la factorización de matriz para aprender características latentes e interacción entre usuarios y elementos

Estudio del crimen de San Francisco

San Francisco ha estado surgiendo como una ciudad más cara para residir. Cada vez más nuevas empresas y empresas se mueven en la ciudad y atraen más y más talentos a la ciudad. Sin embargo, los incidentes de delitos parecen aumentar como el ingreso promedio de sus residentes también. Los robos de automóviles alcanzaron los niveles de 'epidemia' en San Francisco.

En este estudio, usaré Spark para analizar un conjunto de datos de incidentes informados de 15 años de SFPD y utilizaré métodos de aprendizaje automático para comprender el patrón y la distribución del crimen en SF. Por último, construiré un modelo de pronóstico de la serie temporal para pronosticar la tasa de criminalidad

Clúster de sinopsis

Hoy, podemos recopilar muchos más datos no estructurados que nunca antes. A diferencia de los datos estructurados, los datos no estructurados no están estructurados a través de modelos o esquemas de datos predefinidos, pero tiene una estructura interna. Un ejemplo de datos no estructurados son los datos de texto, como el resumen de la trama, la sinopsis de las películas.

En este proyecto, utilizaré técnicas clásicas de PNL : tokenización de palabras , derivación de palabras , eliminación de palabras de parada , TF-IDF y más para limpiar los datos de texto sin procesar y extraer características del texto sin procesar. Luego usaré modelos de aprendizaje no supervisados, como K-means y LatentDirichletLocation, para agrupar documentos no etiquetados en diferentes grupos, visualizar los resultados e identificar sus temas/estructuras latentes.

Con las técnicas de agrupación aplicadas a los datos no estructurados, podemos comenzar a descubrir la estructura interna dentro de los datos e identificar la similitud entre los documentos. Con el puntaje de similitud entre documentos, comenzamos a tener la capacidad de consultar y analizar documentos desde cualquier almacén de documentos.

Bibliotecas de NLP de código abierto útiles

El procesamiento del lenguaje natural (NLP) es un área de tendencia sobre cómo programar máquinas para procesar y analizar grandes cantidades de datos del lenguaje natural, y extraer información significativa de él.

Hay muchas herramientas y bibliotecas diseñadas para resolver problemas de PNL. Las bibliotecas más utilizadas son el kit de herramientas de lenguaje natrual (NLTK) , Spacy , Sklearn NLP Toolkit , Gensim , Pattern , Polyglot y muchos otros. Mi cuaderno presentará el uso básico, los pros y los contras de cada bibliotecas de la PNL.

Proyectos potenciales futuros

Apéndice

Código fuente

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-04-16
tamaño 4.74MB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo