
Il s'agit de l'ensemble de données le plus célèbre de ML et le meilleur pour les débutants qui veulent se salir les mains avec la science ML / Data . Ayant moins de caractéristiques et d'observations des fleurs de l'iris, pas de valeurs manquantes ou de valeurs aberrantes à gérer, cela rend la mise en œuvre de modèles ML plus faciles et simples.
Étant donné que le projet est propre et petit, nous l'utiliserons à notre avantage et nous pratiquerons sur la façon d'effectuer une visualisation des données avec Matplotlib et SeaBorn (bibliothèques de visualisation des données), implémentez les méthodes de sélection des fonctionnalités les plus utilisées dans le projet ML / Data Science et appliquer tous les modèles de classification sur cet ensemble de données. Cela nous donnera une pratique et une expérience pratique sur la façon et le moment de la mise en œuvre et lesquelles fonctionnent le mieux à l'ensemble de données.
Ce projet contient 1 fichier et 2 dossiers:
report.ipynb : Il s'agit du fichier principal où j'ai effectué mon travail sur le projet.export/ : dossier contenant le fichier de version HTML et PDF de l'ordinateur portable.plots/ : contient des images de tous les tracés qui sont affichés dans le fichier report.ipynb . | Tâche associée | Classification |
| Caractéristiques de l'ensemble de données | Multivarié |
| Caractéristiques d'attribut | Réel |
| Nombre d'instances | 150 |
| Nombre d'attributs | 4 |
| Valeurs manquantes? | Non |
| Zone | Vie |
L'ensemble de données contient 3 classes de 50 instances chacune , au total 150 instances , où chaque classe fait référence à un type d'usine d'iris. Une classe est linéairement séparable des 2 autres et ces derniers ne sont pas linéairement séparables les uns des autres.
Prédire l'attribut: Classe d'Iris Plant.
Informations sur l'attribut: nous avons 4 fonctionnalités dans cet ensemble de données et une class de variables cibles.
Ce projet a été résolu avec les versions suivantes des bibliothèques installées:
| Bibliothèques langage | Utiliser | Version |
|---|---|---|
| Python | Langue utilisée pour le projet | 3.7.0 |
| Nombant | Pour l'informatique scientifique | 1.15.2 |
| Pandas | Pour l'analyse des données | 0,23,4 |
| matplotlib | Pour la visualisation | 3.0.0 |
| marin | Pour la visualisation | 0.9.0 |
| scikit-apprend | Bibliothèque ML pour les données de formation et de test | 0.20.0 |
Si vous n'avez pas encore installé Python, il est fortement recommandé d'installer la distribution Anaconda de Python, qui a déjà les packages ci-dessus et plus inclus.
Vous devrez également installer un ordinateur portable Jupyter Software pour exécuter et exécuter le fichier report.ipynb . Vous pouvez également utiliser JupyterLab pour exécuter et exécuter, JupyterLab est une meilleure version de Jupyter Notebook . Les instructions pour télécharger JupyterLab peuvent être trouvées ici.
Dans un terminal ou une fenêtre de commande, accédez au répertoire de projet de niveau supérieur Iris_Flower (qui contient cette lecture) et exécutez l'une des commandes suivantes:
ipython notebook report.ipynbou
jupyter notebook report.ipynbou si vous avez installé «Jupyter Lab»
jupyter labCela ouvrira le cahier Jupyter / Ipython ou le logiciel JupyterLab et le fichier de projet dans votre navigateur.