MyDatasminceportFolio est parrainé par l'outil suivant. Veuillez nous aider à nous soutenir en jetant un coup d'œil et en vous inscrivant à un essai gratuit ?? ✌️✌️
Introduction
Étude de désabonnement des clients
Médium BlogPost
Systèmes de recommandation de films
Étude sur la criminalité de San Francisco
Clustering de synopsis
Bibliothèques PNL utiles
Projets potentiels futurs
Appendice
Bienvenue dans mon impressionnant portefeuille de projets de science des données. Dans mon dépôt, vous pouvez trouver des solutions impressionnantes et pratiques à certains des problèmes commerciaux du monde réel avec les méthodes statistiques et les modèles d'apprentissage automatique de l'État d'art. La plupart de mes projets seront démo dans Jupyter Notebook. Jupyter Notebook est un excellent moyen de partager mon travail avec le monde. Il est livré avec Markdown et un environnement Python interactif et il est portable sur d'autres plates-formes telles que Databricks et Google Colaboratory.
Ma collection de projet couvre diverses applications d'apprentissage automatique à tendance telles que le traitement du langage naturel , l'apprentissage automatique à grande échelle avec Spark et le système de recommandation . Il y a plus à venir. Les projets futurs potentiels incluent le résumé de texte , les prévisions de cours des actions , la stratégie de négociation avec l'apprentissage du renforcement et la vision par ordinateur .
Le taux de désabonnement est l'une des mesures commerciales importantes. Une entreprise peut comparer ses taux de désabonnement et de croissance pour déterminer s'il y avait une croissance ou une perte globale. Lorsque le taux de désabonnement est supérieur au taux de croissance, l'entreprise a subi une perte dans sa clientèle.
Pourquoi les clients se retournent et arrêtent d'utiliser les services d'une entreprise? Quel est le montant estimé du désabonnement pour le prochain trimestre? Être en mesure de répondre au-dessus de deux questions peut fournir des informations significatives sur l'orientation de la direction dans laquelle l'entreprise se dirige actuellement et comment l'entreprise peut améliorer ses produits et services afin que les constomères restent.
Medium est une plate-forme de publication de blogs populaire avec une quantité énorme de contenu et de données texte. Que publient les gens? Quels sont les sujets latents de ces articles de blog? Qu'est-ce qui rend un blog populaire? Et quelle est la tendance de la technologie d'aujourd'hui? Ce projet vise à répondre aux questions par la visualisation, l'analyse, le processus du langage naturel et les techniques d'apprentissage automatique.
Plus précisément, j'utiliserai Seaborn et Pandas pour une analyse exploratoire. Pour la modélisation de l'apprentissage automatique, je choisis K-Means , TSVD et laTentDirichletAllocation pour la modélisation de sujets. Je vais effectuer cette étude avec deux cadres ML différents: Sklearn et Spark .
Sklearn est une excellente bibliothèque d'apprentissage automatique Python pour Data Scientist.
Cependant, à l'ère du Big Data, la plupart des analyses de données sont fondées sur l'informatique distribuée. Spark est distribué le cadre de composition de cluster et fournit une interface pour la programmation de clusters entiers avec parallélisme de données implicites et tolérance aux défauts.
La plupart des produits que nous utilisons aujourd'hui sont alimentés par des moteurs de recommandation. YouTube, Netflix, Amazon, Pinterest et la longue liste d'autres produits de données reposent tous sur des moteurs de recommandation pour filtrer des millions de contenus et faire des recommandations personnalisées à leurs utilisateurs.
Ce serait tellement cool de construire moi-même un système de recommandation. J'adore regarder des films quand je passe du temps avec ma famille. J'ai donc décidé de construire un recommandateur de film pour moi. Dans Generaly, les systèmes de recommandation peuvent être décomposés en trois catégories: systèmes basés sur le contenu , systèmes de filtrage collaboratif et systèmes hybrides (qui utilisent une combinaison des deux autres).
Mon projet se concentre sur les systèmes de filtrage collaboratif. Les systèmes basés sur le filtrage collaboratif utilisent les actions des utilisateurs pour recommander d'autres éléments. En général, ils peuvent être basés sur des utilisateurs ou basés sur des articles. L'approche basée sur des éléments est généralement préférée que l'approche basée sur l'utilisateur. L'approche basée sur l'utilisateur est souvent plus difficile à évoluer en raison de la nature dynamique des utilisateurs, tandis que les éléments ne changent généralement pas beaucoup, de sorte que l'approche basée sur les éléments peut souvent être calculée hors ligne.
Cependant, le filtrage collaboratif basé sur des articles et basée sur l'utilisateur est toujours confronté à des défis suivants:
Pour surmonter les défis ci-dessus, j'utiliserai la factorisation matricielle pour apprendre les caractéristiques latentes et l'interaction entre les utilisateurs et les éléments
San Francisco est apparu comme une ville la plus chère à résider. De plus en plus de startups et d'entreprises se déplacent dans la ville et attire de plus en plus de talents dans la ville. Cependant, les incidents de criminalité semblent également augmenter en tant que revenu moyen de ses résidents. Les effractions automobiles ont atteint des niveaux «épidémiques» à San Francisco.
Dans cette étude, j'utiliserai Spark pour analyser un ensemble de données sur les incidents rapportés de 15 ans à partir de SFPD et utiliser les méthodes d'apprentissage automatique pour comprendre le modèle de criminalité et la distribution dans SF. Enfin, je construirai un modèle de prévision des séries chronologiques pour prévoir le taux de criminalité
Aujourd'hui, nous pouvons collecter beaucoup plus de données non structurées qu'auparavant. Contrairement aux données structurées, les données non structurées ne sont pas structurées via des modèles de données prédéfinis ou un schéma, mais il a une structure interne. Un exemple de données non structurées est les données de texte, telles que le résumé de l'intrigue, le synopsis des films.
Dans ce projet, j'utiliserai des techniques de PNL classiques: tokenisation des mots , stérophilie des mots , suppression de mots arrêtés , TF-IDF et plus pour nettoyer les données de texte brutes et extraire les fonctionnalités du texte brut. Ensuite, j'utiliserai des modèles d'apprentissage non supervisés tels que K-means et la latentdirichletallocation pour regrouper des documents non marqués en différents groupes, visualiser les résultats et identifier leurs sujets / structures latents.
Avec des techniques de clustering appliquées aux données non structurées, nous pouvons commencer à découvrir la structure interne à l'intérieur des données et à identifier la similitude entre les documents. Avec le score de similitude entre les documents, nous commençons à avoir la possibilité d'interroger et d'analyser les documents de n'importe quel magasin de documents.
Le traitement du langage naturel (PNL) est un domaine tendance sur la façon de programmer des machines pour traiter et analyser de grandes quantités de données sur le langage naturel et en extraire des informations significatives.
Il existe de nombreux outils et bibliothèques conçus pour résoudre les problèmes de PNL. Les bibliothèques les plus couramment utilisées sont la boîte à outils en langage Natrual (NLTK) , Spacy , Sklearn NLP Toolkit , Gensim , Pattern , Polyglot et bien d'autres. Mon cahier présentera l'utilisation de base, les avantages et les inconvénients de chaque bibliothèque PNL.