Download do MyDataSciencePortfolio - MyDataSciencePortfolio Download de código fonte

MyDataSciencePortfolio

Outro código-fonte

1.0.0

Baixar

Meu portfólio de ciências de dados

O MyDataSciencePorfolio está sendo patrocinado pela ferramenta a seguir. Por favor, ajude -nos a nos apoiar dando uma olhada e se inscrevendo em uma avaliação gratuita?

Índice

Introdução
Estudo de rotatividade de clientes
- Modelagem de rotatividade de clientes
Post do blog médio
- Análise de dados exploratórios com Seaborn
- Modelagem de tópicos no blog médio com sklearn
- Modelagem de tópicos no blog médio com Apache Spark
Sistemas de recomendação de filmes
- Desenvolvimento de motores de recomendação de filme com KNN
- Desenvolvimento de motores de recomendação de filme com ALS em Apache Spark
- Desenvolvimento de motores de recomendação de filme com redes neurais em Keras
Estudo de Crime de São Francisco
- Análise de crime de São Francisco com Apache Spark
Cluster de sinopse
- Cluster de sinopse
Bibliotecas de PNL úteis
- Nltk
- Scikit-Learn
- Gensim
- Spacy
Projetos em potencial futuros
Apêndice
- Código -fonte

Introdução

Bem -vindo ao meu incrível portfólio de projetos de ciência de dados. No meu repositório, você pode encontrar soluções impressionantes e práticas para alguns dos problemas de negócios do mundo real com métodos estatísticos e modelos de aprendizado de máquina no estado de arte. A maioria dos meus projetos será demonstrada no Jupyter Notebook. Jupyter Notebook é uma excelente maneira de compartilhar meu trabalho com o mundo. Ele vem com o ambiente python de marcação e interativo e é portátil para outras plataformas, como Databricks e Google Colaboratory também.

Minha coleção de projetos abrange vários aplicativos de aprendizado de máquina de tendências, como processamento de linguagem natural , aprendizado de máquina em larga escala com Spark e sistema de recomendação . Há mais por vir. Potenciais projetos futuros incluem resumo de texto , previsão de preços das ações , estratégia de negociação com aprendizado de reforço e visão computacional .

Estudo de rotatividade de clientes

A taxa de rotatividade é uma das métricas importantes de negócios. Uma empresa pode comparar suas taxas de rotatividade e crescimento para determinar se houve crescimento ou perda geral. Quando a taxa de rotatividade é maior que a taxa de crescimento, a empresa sofreu uma perda em sua base de clientes.

Por que os clientes agitam e param de usar os serviços de uma empresa? Qual é a quantidade de rotatividade para o próximo trimestre? Ser capaz de responder acima de duas perguntas pode fornecer informações significativas sobre a que direção a empresa está seguindo e como a empresa pode melhorar seus produtos e serviços para que os constomers permanecessem.

Post do blog médio

O Medium é uma plataforma popular de publicação do BlogPost, com enorme quantidade de conteúdo e dados de texto. O que as pessoas estão publicando? Quais são os tópicos latentes nesses posts? O que torna um post de blog popular? E qual é a tendência na tecnologia de hoje? Este projeto tem como objetivo responder às perguntas através da visualização, análise, processo de linguagem natural e técnicas de aprendizado de máquina.

Especificamente, usarei Seaborn e Pandas para análise exploratória. Para modelagem de aprendizado de máquina, escolho K-Means , TSVD e LatentDirichleTallocation for Topic Modelaing. Vou realizar este estudo com duas estruturas diferentes de ML: Sklearn e Spark .

Sklearn é uma ótima biblioteca de aprendizado de máquina Python para cientista de dados.

No entanto, na era do big data, a maioria das análises de dados se baseia na computação distribuída. O Spark é a estrutura de computação em cluster distribuída e fornece uma interface para programar clusters inteiros com paralelismo de dados implícitos e tolerância a falhas.

Sistemas de recomendação de filmes

A maioria dos produtos que usamos hoje é alimentada por mecanismos de recomendação. YouTube, Netflix, Amazon, Pinterest e longa lista de outros produtos de dados dependem de mecanismos de recomendação para filtrar milhões de conteúdos e fazer recomendações personalizadas para seus usuários.

Seria tão legal construir um sistema de recomendação. Adoro assistir filmes quando estou passando um tempo com minha família. Então eu decidi construir um recomendador de filme para mim. Em geral, os sistemas de recomendação podem ser divulgados vagamente em três categorias: sistemas baseados em conteúdo , sistemas de filtragem colaborativa e sistemas híbridos (que usam uma combinação dos outros dois).

Meu projeto se concentra nos sistemas de filtragem colaborativa. Os sistemas baseados em filtragem colaborativa usam as ações dos usuários para recomendar outros itens. Em geral, eles podem ser baseados no usuário ou no item. A abordagem baseada em item geralmente é preferida do que a abordagem baseada no usuário. A abordagem baseada no usuário geralmente é mais difícil de escalar devido à natureza dinâmica dos usuários, enquanto os itens geralmente não mudam muito; portanto, a abordagem baseada em itens geralmente pode ser calculada offline.

No entanto, a filtragem colaborativa baseada em itens e baseada no usuário ainda enfrenta os seguintes desafios:

começo frio
Sparsidade de dados
Viés popular (como recomendar produtos da cauda da distribuição de produtos)
escalabilidade

Para superar os desafios acima, usarei a fatorização da matriz para aprender recursos latentes e interação entre usuários e itens

Estudo de Crime de São Francisco

São Francisco tem surgido como uma cidade mais cara para residir. Cada vez mais startups e empresas se mudam para a cidade e atrai cada vez mais talentos para a cidade. No entanto, os incidentes de crime parecem aumentar como a renda média de seus residentes também. Os arrombamentos de carros atingem os níveis 'epidemia' em São Francisco.

Neste estudo, usarei o Spark para analisar um conjunto de dados de incidentes relatados de 15 anos da SFPD e usar os métodos de aprendizado de máquina para entender o padrão e a distribuição do crime no SF. Por fim, criarei um modelo de previsão de séries temporais para prever a taxa de criminalidade

Cluster de sinopse

Hoje, podemos coletar muito mais dados não estruturados do que nunca. Diferentemente dos dados estruturados, os dados não estruturados não são estruturados por meio de modelos ou esquema predefinidos de dados, mas possui estrutura interna. Um exemplo de dados não estruturados são os dados de texto, como resumo da plotagem, sinopse dos filmes.

Neste projeto, usarei técnicas clássicas de PNL : tokenização de palavras , indicação de palavras , remoção de palavras de parada , TF-IDF e muito mais para limpar dados de texto bruto e extrair recursos do texto bruto. Em seguida, usarei modelos de aprendizado não supervisionados, como K-Means e LatentDirichleTallocation, para agrupar documentos não marcados em diferentes grupos, visualizar os resultados e identificar seus tópicos/estruturas latentes.

Com as técnicas de cluster aplicadas a dados não estruturados, podemos começar a descobrir a estrutura interna dentro dos dados e identificar a similaridade entre os documentos. Com a pontuação de similaridade entre os documentos, começamos a ter a capacidade de consultar e analisar documentos de qualquer loja de documentos.

Bibliotecas de NLP de código aberto úteis

O processamento de linguagem natural (PNL) é uma área de tendência sobre como programar máquinas para processar e analisar grandes quantidades de dados de linguagem natural e extrair informações significativas.

Existem muitas ferramentas e bibliotecas projetadas para resolver problemas de PNL. As bibliotecas mais usadas são o kit de ferramentas de linguagem natal (NLTK) , Spacy , Sklearn NLP Toolkit , gensim , padrão , poliglota e muitos outros. Meu notebook apresentará o uso básico, os prós e os contras de cada bibliotecas da PNL.

Projetos em potencial futuros

Apêndice

Código -fonte

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-04-16
tamanho 4.74MB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos