Download data science portfolio - Download de código fonte data science portfolio download

data science portfolio

Outro código-fonte

1.0.0

Baixar

Portfólio de ciências de dados

Repositório contendo portfólio de projetos de ciência de dados concluídos por mim para fins acadêmicos, auto -aprendizados e hobby. Apresentado na forma de notebooks de Jupyter e arquivos de Markdown (publicados no RPUBS).

Para uma experiência mais visualmente agradável para navegar no portfólio, confira sajalsharma.com

O portfólio R está localizado aqui.

Nota: Os dados usados nos projetos (acessados no diretório de dados) são apenas para fins de demonstração.

Instruções para executar notebooks Python localmente

Instale dependências usando requisitos.txt.
Execute notebooks como de costume usando um servidor de notebook Jupyter, vscode etc.

Conteúdo

Aprendizado de máquina
- Prevendo os preços da habitação de Boston: um modelo para prever o valor de uma determinada casa no mercado imobiliário de Boston usando várias ferramentas de análise estatística. Identificou o melhor preço que um cliente pode vender sua casa utilizando aprendizado de máquina.
- Aprendizagem supervisionada: Encontrando doadores para CharityML: testando vários algoritmos de aprendizado supervisionado diferentes para construir um modelo que prevê com precisão se um indivíduo ganha mais de US $ 50.000, para identificar prováveis doadores para uma organização sem fins lucrativos fictícia.
- Aprendizagem não supervisionada: Criando segmentos de clientes: Analisando um conjunto de dados contendo dados sobre os valores anuais de gastos de vários clientes (relatados em unidades monetárias) de diversas categorias de produtos para descobrir a estrutura interna, padrões e conhecimentos.
- Aprendizagem de reforço: Treinando um SmartCab para dirigir: criando um agente de condução otimizado de Q-Learning que navegará em um SmartCab por seu ambiente em direção a uma meta.
- Aprendizagem profunda: reconhecimento de sequência de dígitos usando CNNs: projetando e implementando uma rede neural convolucional que aprende a reconhecer sequências de dígitos usando dados sintéticos gerados por imagens concatenadoras do MNIST.
Ferramentas: Scikit-Learn, Pandas, Seaborn, Matplotlib, Pygame
Processamento de linguagem natural
- Classificador de mensagens de desastre: um modelo de classificação multilabel para prever as categorias de uma mensagem de desastre. Inclui um pipeline ETL para processamento de dados, um pipeline ML para treinar o modelo e um aplicativo da Web, com visualizações, onde o modelo pode ser usado para classificar as mensagens. Ferramentas: nltk, scikit-learn, xgboost, balão, plotagem
- Análise de sentimentos de três vias para tweets: sistema de classificação de 3 vias (positivo, negativo, neutro) para tweets, sem usar o mecanismo de análise de sentimentos do NLTK.
- Recuperação de informações de idioma cruzado: sistema de recuperação de informações de idioma cruzado (CLIR) que, dada uma consulta em alemão, pesquisa documentos de texto escritos em inglês.
Ferramentas: NLTK, Scikit
Análise e visualização de dados
- Python
  - Análise de Walkability Scalable de Melbourne: Análise de Walkability of Suburbs em Melbourne, Victoria e suas implicações.
  - DataSet Titanic - Análise exploratória: Análise exploratória dos passageiros a bordo do RMS Titanic usando pandas e visualizações marítimas.
  - Análise do mercado de ações para ações de tecnologia: análise de ações de tecnologia, incluindo mudanças de preço ao longo do tempo, retornos diários e previsão de comportamento das ações.
  - Análise de dados de pesquisas gerais para eleições gerais de 2016: Análise muito simples dos dados da pesquisa eleitoral geral de 2016 nos EUA.
  - 911 Chamadas - Análise Exploratória: Análise de dados exploratórios do conjunto de dados do 911 Chamadas hospedadas em Kaggle. Demonstra a extração de recursos úteis de diferentes variáveis.
Ferramentas: Pandas, Folium, Seaborn e Matplotlib
- R
  - Sistema de vigilância de fatores de risco comportamental (BRFSS) 2013: Análise de dados exploratórios: Análise exploratória do conjunto de dados BRFSS-2013, concentrando-se em investigar a relação entre educação e hábitos alimentares, sono e saúde mental e tabagismo, bebida e saúde geral de uma pessoa.
  - Estatísticas inferenciais: homens ou mulheres se opõem à educação sexual? : Usando o conjunto de dados GSS (Geral Social Survey) para inferir se, no ano de 2012, eram homens, de 18 anos ou mais nos Estados Unidos, mais propensos a se opor à educação sexual em escolas públicas do que às mulheres.
  - Visualização de dados: corrupção e desenvolvimento humano: um gráfico de dispersão para a relação entre o 'Índice de Desenvolvimento Humano' e o 'Índice de Percepção de Corrupção' dos países.
  - Moneyball: Analisando e substituindo jogadores perdidos: exploração dos dados de beisebol para o ano de 2001 para analisar as substituições dos principais jogadores perdidos pelo Oakland A's em 2001. Inspirado no livro/filme: Moneyball.
Micro Projetos:
- Python
  - ML com regressão logística: usando a regressão logística para prever se um usuário da Internet clicou em um anúncio ou não.
  - ML com k vizinhos mais próximos: Usando o KNN para classificar instâncias de um conjunto de dados falso em duas classes de destino, enquanto escolhe o melhor valor para k usando o método do cotovelo.
  - ML com árvores de decisão e florestas aleatórias: usando árvores de decisão e florestas aleatórias para prever se um credor pagará seu empréstimo de volta. Usa dados publicamente disponíveis no LendingClub.com
  - Recomendações de filmes usando sistemas de recomendação: um micro projeto para criar um sistema de recomendação que faça recomendações de filmes com base nas semelhanças de revisão de usuários.
- R
  - Regressão logística de ML: Prevendo a classe salarial de uma pessoa usando regressão logística.
  - ML Árvores de decisão e florestas aleatórias: usando árvores de decisão e florestas aleatórias para classificar as escolas como privadas ou públicas.