
これはMLで最も有名なデータセットであり、 ML/Data Scienceで手を汚したい初心者に最適です。虹彩の花の機能と観察が少なく、対処する値や外れ値が欠けていないため、MLモデルの実装が簡単かつシンプルになります。
このプロジェクトはクリーンで小さいため、これを有利に使用し、MatplotlibとSeaborn(データ視覚化ライブラリ)でデータの視覚化を実行する方法を練習し、 ML/Data Scienceプロジェクトで最も使用されている機能選択方法を実装し、このデータセットにすべての分類モデルを適用します。これにより、どのように実装するか、データセットを考慮して最適に機能する方法に関する実践と実践的な経験が得られます。
このプロジェクトには、1つのファイルと2つのフォルダーが含まれています。
report.ipynb :これは、プロジェクトで作業を実行したメインファイルです。export/ :ノートブックのHTMLおよびPDFバージョンファイルを含むフォルダー。plots/ report.ipynbに表示されているすべてのプロットの画像が含まれています。 | 関連するタスク | 分類 |
| データセットの特性 | 多変量 |
| 属性特性 | 本物 |
| インスタンス数 | 150 |
| 属性の数 | 4 |
| 欠損値? | いいえ |
| エリア | 人生 |
データセットには、それぞれ50のインスタンスの3つのクラス、合計150インスタンスが含まれています。各クラスは、虹彩プラントの種類を指します。 1つのクラスは他の2つから線形に分離可能であり、後者は互いに線形に分離できません。
属性の予測:虹彩プラントのクラス。
属性情報:このデータセットには4つの機能とターゲット変数classがあります。
このプロジェクトは、次のバージョンのライブラリをインストールして解決されました。
| ライブラリ言語 | 使用 | バージョン |
|---|---|---|
| Python | プロジェクトに使用される言語 | 3.7.0 |
| numpy | 科学的なコンピューティング用 | 1.15.2 |
| パンダ | データ分析用 | 0.23.4 |
| matplotlib | 視覚化用 | 3.0.0 |
| シーボーン | 視覚化用 | 0.9.0 |
| Scikit-Learn | トレーニングとテストデータのためのMLライブラリ | 0.20.0 |
Pythonがまだインストールされていない場合は、PythonのAnaconda Distributionをインストールすることを強くお勧めします。これには、上記のパッケージが既に含まれており、さらに含まれています。
また、 report.ipynbファイルを実行および実行するために、ソフトウェアJupyterノートブックをインストールする必要があります。 JupyterLabも使用して実行および実行することもできます。JupyterLabはJupyterノートブックのより良いバージョンです。 jupyterlabをダウンロードする手順はこちらにあります。
ターミナルまたはコマンドウィンドウで、トップレベルのプロジェクトディレクトリIris_Flower (このREADMEを含む)に移動し、次のコマンドのいずれかを実行します。
ipython notebook report.ipynbまたは
jupyter notebook report.ipynbまたは、「Jupyter Lab」がインストールされている場合
jupyter labこれにより、ブラウザにJupyter/IpythonノートブックまたはJupyterLabソフトウェアとプロジェクトファイルが開きます。