O MyDataSciencePorfolio está sendo patrocinado pela ferramenta a seguir. Por favor, ajude -nos a nos apoiar dando uma olhada e se inscrevendo em uma avaliação gratuita?
Introdução
Estudo de rotatividade de clientes
Post do blog médio
Sistemas de recomendação de filmes
Estudo de Crime de São Francisco
Cluster de sinopse
Bibliotecas de PNL úteis
Projetos em potencial futuros
Apêndice
Bem -vindo ao meu incrível portfólio de projetos de ciência de dados. No meu repositório, você pode encontrar soluções impressionantes e práticas para alguns dos problemas de negócios do mundo real com métodos estatísticos e modelos de aprendizado de máquina no estado de arte. A maioria dos meus projetos será demonstrada no Jupyter Notebook. Jupyter Notebook é uma excelente maneira de compartilhar meu trabalho com o mundo. Ele vem com o ambiente python de marcação e interativo e é portátil para outras plataformas, como Databricks e Google Colaboratory também.
Minha coleção de projetos abrange vários aplicativos de aprendizado de máquina de tendências, como processamento de linguagem natural , aprendizado de máquina em larga escala com Spark e sistema de recomendação . Há mais por vir. Potenciais projetos futuros incluem resumo de texto , previsão de preços das ações , estratégia de negociação com aprendizado de reforço e visão computacional .
A taxa de rotatividade é uma das métricas importantes de negócios. Uma empresa pode comparar suas taxas de rotatividade e crescimento para determinar se houve crescimento ou perda geral. Quando a taxa de rotatividade é maior que a taxa de crescimento, a empresa sofreu uma perda em sua base de clientes.
Por que os clientes agitam e param de usar os serviços de uma empresa? Qual é a quantidade de rotatividade para o próximo trimestre? Ser capaz de responder acima de duas perguntas pode fornecer informações significativas sobre a que direção a empresa está seguindo e como a empresa pode melhorar seus produtos e serviços para que os constomers permanecessem.
O Medium é uma plataforma popular de publicação do BlogPost, com enorme quantidade de conteúdo e dados de texto. O que as pessoas estão publicando? Quais são os tópicos latentes nesses posts? O que torna um post de blog popular? E qual é a tendência na tecnologia de hoje? Este projeto tem como objetivo responder às perguntas através da visualização, análise, processo de linguagem natural e técnicas de aprendizado de máquina.
Especificamente, usarei Seaborn e Pandas para análise exploratória. Para modelagem de aprendizado de máquina, escolho K-Means , TSVD e LatentDirichleTallocation for Topic Modelaing. Vou realizar este estudo com duas estruturas diferentes de ML: Sklearn e Spark .
Sklearn é uma ótima biblioteca de aprendizado de máquina Python para cientista de dados.
No entanto, na era do big data, a maioria das análises de dados se baseia na computação distribuída. O Spark é a estrutura de computação em cluster distribuída e fornece uma interface para programar clusters inteiros com paralelismo de dados implícitos e tolerância a falhas.
A maioria dos produtos que usamos hoje é alimentada por mecanismos de recomendação. YouTube, Netflix, Amazon, Pinterest e longa lista de outros produtos de dados dependem de mecanismos de recomendação para filtrar milhões de conteúdos e fazer recomendações personalizadas para seus usuários.
Seria tão legal construir um sistema de recomendação. Adoro assistir filmes quando estou passando um tempo com minha família. Então eu decidi construir um recomendador de filme para mim. Em geral, os sistemas de recomendação podem ser divulgados vagamente em três categorias: sistemas baseados em conteúdo , sistemas de filtragem colaborativa e sistemas híbridos (que usam uma combinação dos outros dois).
Meu projeto se concentra nos sistemas de filtragem colaborativa. Os sistemas baseados em filtragem colaborativa usam as ações dos usuários para recomendar outros itens. Em geral, eles podem ser baseados no usuário ou no item. A abordagem baseada em item geralmente é preferida do que a abordagem baseada no usuário. A abordagem baseada no usuário geralmente é mais difícil de escalar devido à natureza dinâmica dos usuários, enquanto os itens geralmente não mudam muito; portanto, a abordagem baseada em itens geralmente pode ser calculada offline.
No entanto, a filtragem colaborativa baseada em itens e baseada no usuário ainda enfrenta os seguintes desafios:
Para superar os desafios acima, usarei a fatorização da matriz para aprender recursos latentes e interação entre usuários e itens
São Francisco tem surgido como uma cidade mais cara para residir. Cada vez mais startups e empresas se mudam para a cidade e atrai cada vez mais talentos para a cidade. No entanto, os incidentes de crime parecem aumentar como a renda média de seus residentes também. Os arrombamentos de carros atingem os níveis 'epidemia' em São Francisco.
Neste estudo, usarei o Spark para analisar um conjunto de dados de incidentes relatados de 15 anos da SFPD e usar os métodos de aprendizado de máquina para entender o padrão e a distribuição do crime no SF. Por fim, criarei um modelo de previsão de séries temporais para prever a taxa de criminalidade
Hoje, podemos coletar muito mais dados não estruturados do que nunca. Diferentemente dos dados estruturados, os dados não estruturados não são estruturados por meio de modelos ou esquema predefinidos de dados, mas possui estrutura interna. Um exemplo de dados não estruturados são os dados de texto, como resumo da plotagem, sinopse dos filmes.
Neste projeto, usarei técnicas clássicas de PNL : tokenização de palavras , indicação de palavras , remoção de palavras de parada , TF-IDF e muito mais para limpar dados de texto bruto e extrair recursos do texto bruto. Em seguida, usarei modelos de aprendizado não supervisionados, como K-Means e LatentDirichleTallocation, para agrupar documentos não marcados em diferentes grupos, visualizar os resultados e identificar seus tópicos/estruturas latentes.
Com as técnicas de cluster aplicadas a dados não estruturados, podemos começar a descobrir a estrutura interna dentro dos dados e identificar a similaridade entre os documentos. Com a pontuação de similaridade entre os documentos, começamos a ter a capacidade de consultar e analisar documentos de qualquer loja de documentos.
O processamento de linguagem natural (PNL) é uma área de tendência sobre como programar máquinas para processar e analisar grandes quantidades de dados de linguagem natural e extrair informações significativas.
Existem muitas ferramentas e bibliotecas projetadas para resolver problemas de PNL. As bibliotecas mais usadas são o kit de ferramentas de linguagem natal (NLTK) , Spacy , Sklearn NLP Toolkit , gensim , padrão , poliglota e muitos outros. Meu notebook apresentará o uso básico, os prós e os contras de cada bibliotecas da PNL.