
Este é o conjunto de dados mais famoso do ML e o melhor para iniciantes que querem chegar às mãos sujas com a ciência do ML/dados . Tendo menos recursos e observações das flores da íris, sem valores ou outliers ausentes, isso torna a implementação de modelos de ML mais fáceis e simples.
Como o projeto é limpo e pequeno, usaremos isso para nossa vantagem e obteremos prática sobre como executar a visualização de dados com Matplotlib e Seaborn (Bibliotecas de Visualização de Dados), implementar os métodos de seleção de recursos mais usados no projeto de ciência de dados ML/dados e aplicar todos os modelos de classificação nesse conjunto de dados. Isso nos dará prática e experiência prática sobre como e quando implementar e qual funciona melhor, dado o conjunto de dados.
Este projeto contém 1 arquivo e 2 pastas:
report.ipynb : Este é o arquivo principal em que realizei meu trabalho no projeto.export/ : Pasta contendo arquivo de versão HTML e PDF do Notebook.plots/ : contém imagens de todas as plotagens exibidas no arquivo report.ipynb . | Tarefa associada | Classificação |
| Características do conjunto de dados | Multivariado |
| Características de atributo | Real |
| Número de instâncias | 150 |
| Número de atributos | 4 |
| Valores ausentes? | Não |
| Área | Vida |
O conjunto de dados contém 3 classes de 50 instâncias cada , total de 150 instâncias , onde cada classe se refere a um tipo de planta de íris. Uma classe é linearmente separável do outro 2 e a última não é linearmente separável uma da outra.
Prevendo atributo: classe de planta de íris.
Informações de atributo: temos 4 recursos neste conjunto de dados e uma class variável de destino.
Este projeto foi resolvido com as seguintes versões das bibliotecas instaladas:
| Bibliotecas Idioma | Usar | Versão |
|---|---|---|
| Python | Idioma usado para o projeto | 3.7.0 |
| Numpy | Para computação científica | 1.15.2 |
| Pandas | Para análise de dados | 0,23.4 |
| matplotlib | Para visualização | 3.0.0 |
| Seancen | Para visualização | 0.9.0 |
| Scikit-Learn | Biblioteca ML para Dados de Treinamento e Teste | 0.20.0 |
Se você ainda não possui o Python instalado, é altamente recomendável que você instale a distribuição do Anaconda do Python, que já possui os pacotes acima e mais incluídos.
Você também precisará ter um notebook Jupyter de software instalado para executar e executar o arquivo report.ipynb . Você também pode usar o JupyterLab para executar e executar, o JupyterLab é a melhor versão do Jupyter Notebook . As instruções para baixar o JupyterLab podem ser encontradas aqui.
Em uma janela de terminal ou de comando, navegue até o diretório de projeto de nível superior Iris_Flower (que contém esse readme) e execute um dos seguintes comandos:
ipython notebook report.ipynbou
jupyter notebook report.ipynbou se você tem 'Jupyter Lab' instalado
jupyter labIsso abrirá o Notebook Jupyter/Ipython ou o Software JupyterLab e o arquivo de projeto no seu navegador.