Irisデータによる機械学習の例
#機械学習とは
Iris(アイリス、あやめ)データセット
Iris(アイリス、あやめ)データセット
https://archive.ics.uci.edu/ml/datasets/Iris (UCI Machine Learning Repository)
古くから統計学や機械学習の研究や教育において頻繁に用いられているデータ
あやめの4つの属性と品種がセットで記録された150件のデータ(150個のあやめを計測した記録のデータ)
Irisデータを具体的に見てみよう
https://archive.ics.uci.edu/ml/datasets/Iris の「DOWNLOAD」でダウンロードしたZipの中にある「iris.data」がIrisのデータ
同じIrisデータをGoogleスプレッドシートにおいたものはこちら(参考)
同じIrisデータをCSVファイルにしたものはこちら(参考)
https://gyazo.com/f5ef663644a52d2e4ba4dcf6d44d70db
このような感じで、横方向(列)にさまざまな変数が、縦方向(行)に1件1件のデータ(レコードとかインスタンスなどど言ったりもする)がきっちりと整理されたデータになっている
このような形式のデータをテーブルデータといい、機械学習を実行する際にはこのような形式のデータを用意しておく必要がある
参考:/tmu-data-literacy/テーブルデータ(「教養としてのデータリテラシー」学びの素材集より)
データと実物のイメージ
https://gyazo.com/10ddc411daf38e2d1f7cecd3a46f304c
図は、S. Raschkaほか『Python機械学習プログラミング』(2020)より引用
データに含まれる変数
データには5つの変数がある
あやめの特徴を示す変数(特徴量などともいう)
sepal length:がくの長さ (cm)
sepal width:がくの幅 (cm)
petal length:花びらの長さ (cm)
petal width:花びらの幅 (cm)
あやめの品種を示す変数
class:品種ラベル
「Iris-Setosa(セトサ)」「Iris-Versicolour(バージカラー)」「Iris-Virginica(バージニカ)」
https://gyazo.com/07684455e3004fc4d3c7b5bba58241b2
図はアイリス・データセット (Iris flower data set)より引用(※スペルはちょっと違います)
Irisデータの予測(分類)問題
品種によって、4つの特徴のようすが異なるため、この4つの特徴を説明変数として、品種を目的変数とした予測(分類)ができると考えられる(分類問題として扱える)
教師あり学習の予測モデルの図に当てはめると、以下のようなイメージになる
https://gyazo.com/c46050c363415726272289af8d05b0b5
つまり、この↓データのA~D列がそれぞれ説明変数$ X_1~$ X_4に、E列が目的変数$ Yになる
https://gyazo.com/f5ef663644a52d2e4ba4dcf6d44d70db