Portefeuille de science des données
Le portefeuille contenant du référentiel de projets de science des données menés par moi à des fins académiques, auto-apprentissage et de passe-temps. Présenté sous la forme de cahiers Jupyter et de fichiers de Markdown (publiés sur RPUBS).
Pour une expérience plus agréable visuellement pour parcourir le portefeuille, consultez sajalsharma.com
Le portefeuille R est situé ici.
Remarque: Les données utilisées dans les projets (consultées dans le répertoire de données) sont à des fins de démonstration uniquement.
Instructions pour exécuter les cahiers Python localement
- Installez les dépendances en utilisant les exigences.txt.
- Exécutez les ordinateurs portables comme d'habitude en utilisant un serveur de notes Jupyter, VScode, etc.
Contenu
Apprentissage automatique
- Prédire les prix du logement de Boston: un modèle pour prédire la valeur d'une maison donnée sur le marché immobilier de Boston en utilisant divers outils d'analyse statistique. A identifié le meilleur prix qu'un client peut vendre sa maison en utilisant l'apprentissage automatique.
- Apprentissage supervisé: trouver des donateurs pour CharityML: Tester plusieurs algorithmes d'apprentissage supervisés différents pour construire un modèle qui prédit avec précision si un individu gagne plus de 50 000 $, pour identifier les donateurs probables pour une organisation fictive sans but lucratif.
- Apprentissage non supervisé: Création de segments de clients: analyse d'un ensemble de données contenant des données sur les montants de dépenses annuels de divers clients (rapportés dans les unités monétaires) de diverses catégories de produits pour découvrir la structure interne, les modèles et les connaissances.
- Apprentissage par renforcement: former une SmartCAB pour conduire: créer un agent de conduite Q-Learning optimisé qui naviguera sur une SmartCab à travers son environnement vers un objectif.
- Apprentissage en profondeur: reconnaissance des séquences de chiffres à l'aide de CNNS: concevoir et mettre en œuvre un réseau neuronal convolutionnel qui apprend à reconnaître les séquences de chiffres à l'aide de données synthétiques générées en concaténant les images de MNIST.
Outils: Scikit-Learn, Pandas, Seaborn, Matplotlib, Pygame
Traitement du langage naturel
Classificateur de messages en catastrophe: un modèle de classification multilabel pour prédire les catégories d'un message en cas de catastrophe. Comprend un pipeline ETL pour le traitement des données, un pipeline ML pour former le modèle et une application Web, avec des visualisations, où le modèle peut être utilisé pour classer les messages. Outils: NLTK, Scikit-Learn, Xgboost, Flask, Plotly
Analyse des sentiments à 3 voies pour les tweets: Système de classification de polarité à 3 voies (positif, négatif, neutre) pour les tweets, sans utiliser le moteur d'analyse du sentiment de NLTK.
Récupération d'informations en langue croisée: Système de récupération d'informations en langue croisée (CLIR) qui, étant donné une requête en allemand, recherche des documents texte écrits en anglais.
Outils: NLTK, Scikit
Analyse et visualisation des données
- Python
- Analyse de marche évolutive de Melbourne: analyse de la marche des banlieues à Melbourne, Victoria et ses implications.
- Ensemble de données Titanic - Analyse exploratoire: analyse exploratoire des passagers à bord RMS Titanic à l'aide de pandas et de visualisations maritimes.
- Analyse boursière pour les actions technologiques: analyse des actions technologiques, y compris la variation du prix dans le temps, les rendements quotidiens et la prédiction du comportement des stocks.
- 2016 Analyse des données générales du sondage électoral: Analyse très simple des données générales du sondage électoral des États-Unis 2016.
- Appels 911 - Analyse exploratoire: analyse des données exploratoires de l'ensemble de données des appels 911 hébergé sur Kaggle. Démontre l'extraction de caractéristiques utiles de différentes variables.
Outils: Pandas, Folium, Seaborn et Matplotlib
- R
- Système de surveillance du facteur de risque comportemental (BRFSS) 2013: Analyse des données exploratoires: analyse exploratoire de l'ensemble de données BRFSSS-2013, en se concentrant sur l'étude de la relation entre l'éducation et les habitudes alimentaires, le sommeil et la santé mentale, et le tabagisme, la consommation d'alcool et la santé générale d'une personne.
- Statistiques inférentielles: les hommes ou les femmes s'opposent-ils à l'éducation sexuelle? : L'utilisation de l'ensemble de données GSS (General Social Survey) pour déduire si, en 2012, étaient des hommes, de 18 ans ou plus aux États-Unis, plus susceptibles de s'opposer à l'éducation sexuelle dans les écoles publiques que les femmes.
- Visualisation des données: corruption et développement humain: un tracé de diffusion pour la relation entre «l'indice de développement humain» et «l'indice des perceptions de la corruption» des pays.
- Moneyball: Analyser et remplacer les joueurs perdus: Exploration des données de baseball pour l'année 2001 pour examiner les remplacements pour les joueurs clés perdus par les Oakland A en 2001. Inspiré par le livre / film: Moneyball.
Micro-projets:
Python
- ML avec régression logistique: en utilisant une régression logistique pour prédire si un utilisateur Internet a cliqué ou non une annonce.
- ML avec K voisins les plus proches: Utilisation de KNN pour classer les instances d'un faux ensemble de données en deux classes cibles, tout en choisissant la meilleure valeur pour K en utilisant la méthode du coude.
- ML avec des arbres de décision et des forêts aléatoires: utiliser des arbres de décision et des forêts aléatoires pour prédire si un prêteur remboursera son prêt. Utilise des données publiquement disponibles sur LendingClub.com
- Recommandations de films utilisant des systèmes recommandés: un micro-projet pour créer un système de recommandation qui fait des recommandations de films en fonction des similitudes de la révision des utilisateurs.
R
- Régression logistique ML: prédire la classe salariale d'une personne utilisant la régression logistique.
- ML Arbres de décision et forêts aléatoires: utiliser des arbres de décision et des forêts aléatoires pour classer les écoles comme privées ou publiques.
Je fais également du temps dans tous les autres types de technologie. Vous pouvez trouver un portefeuille général ici.
Si vous avez aimé ce que vous avez vu, voulez discuter avec moi du portefeuille, des opportunités de travail ou de la collaboration, envoyez un e-mail à [email protected].
Soutenir mon travail
Si ce projet vous a inspiré, vous a donné des idées pour votre propre portefeuille ou vous a aidé, veuillez envisager de m'acheter un café ❤️.