
Este es el conjunto de datos más famoso de ML y el mejor para los principiantes que quieren ensuciarse las manos con ML/ciencia de datos . Teniendo menos características y observaciones de las flores de iris, no faltan valores ni valores atípicos para tratar, esto hace que la implementación de modelos ML sea más fácil y simple.
Dado que el proyecto es limpio y pequeño, utilizaremos esto para nuestra ventaja y obtendremos práctica sobre cómo realizar la visualización de datos con Matplotlib y Seaborn (bibliotecas de visualización de datos), implementar los métodos de selección de características más utilizados en el proyecto ML/ciencia de datos y aplicar todos los modelos de clasificación en este conjunto de datos. Esto nos dará práctica y experiencia práctica sobre cómo y cuándo implementar y cuál funciona mejor dado el conjunto de datos.
Este proyecto contiene 1 archivo y 2 carpetas:
report.ipynb : Este es el archivo principal donde he realizado mi trabajo en el proyecto.export/ : Carpeta que contiene el archivo de versión HTML y PDF de Notebook.plots/ : Contiene imágenes de todas las gráficas que se muestran en el archivo report.ipynb . IPYNB. | Tarea asociada | Clasificación |
| Características del conjunto de datos | Multivariado |
| Características de atributo | Real |
| Número de instancias | 150 |
| Número de atributos | 4 |
| ¿Valores faltantes? | No |
| Área | Vida |
El conjunto de datos contiene 3 clases de 50 instancias cada una , total 150 instancias , donde cada clase se refiere a un tipo de planta de iris. Una clase es linealmente separable de la otra 2 y esta última no es linealmente separable entre sí.
Atributo de predicción: clase de planta de iris.
Información de atributos: tenemos 4 características en este conjunto de datos y una class de variable objetivo.
Este proyecto se resolvió con las siguientes versiones de las bibliotecas instaladas:
| Bibliotecas Lenguaje | Usar | Versión |
|---|---|---|
| Pitón | Lenguaje utilizado para el proyecto | 3.7.0 |
| Numpy | Para la computación científica | 1.15.2 |
| Pandas | Para análisis de datos | 0.23.4 |
| mate | Para la visualización | 3.0.0 |
| marino | Para la visualización | 0.9.0 |
| lear | Biblioteca de ML para datos de capacitación y prueba | 0.20.0 |
Si aún no tiene instalado Python, se recomienda encarecidamente que instale la distribución de Anaconda de Python, que ya tiene los paquetes anteriores y más incluido en él.
También deberá tener instalado el cuaderno de software Jupyter para ejecutar y ejecutar el archivo report.ipynb . También puede usar JupyterLab para ejecutar y ejecutar, Jupyterlab es una mejor versión de Jupyter Notebook . Las instrucciones para descargar JupyterLab se pueden encontrar aquí.
En un terminal o ventana de comando, navegue al directorio de proyecto de nivel superior Iris_Flower (que contiene este readMe) y ejecute uno de los siguientes comandos:
ipython notebook report.ipynbo
jupyter notebook report.ipynbo si tiene 'Jupyter Lab' instalado
jupyter labEsto abrirá el cuaderno Jupyter/Ipython o el software JupyterLab y el archivo de proyecto en su navegador.