load_iris関数【sklearn】

説明：scikit-learnが提供する、アヤメのデータセットを取得するための関数

書式：

sklearn.datasets.load_iris(引数)

引数：名前付き引数によってデータセットの形式を指定できる。

戻り値：データセット

code:iris1.py

from sklearn.datasets import load_iris

dataset = load_iris() # データセットの取得

print(type(dataset))

print(dataset.keys())

この関数を引数なしで呼び出すと、データセットが有する全ての情報が格納されたオブジェクトが返される。型を確認するとBunch型と表示されるが、これは辞書型を拡張した型であり、辞書と同様の扱いが可能である。

keysメソッドを用いてこのデータセットが有するキーを調べた結果は次の通りである

code:実行結果.sh

これらのうちで、本演習では主に以下のキーを利用する。

data : 学習データ（特徴量）

target：教師データ

キーを用いて抽出した学習データと教師データをそれぞれ変数X, yに代入し、クラス型と形状を確認する。

code:(続き).py

X = dataset'data'

print('X:', type(X), X.shape)

y = dataset'target'

print('y:', type(y), y.shape)

code:実行結果.sh

X: <class 'numpy.ndarray'> (150, 4)

y: <class 'numpy.ndarray'> (150,)

X：学習データ

3種類のアヤメの花それぞれ50件のサンプルから構成された150件のデータ

各サンプルは４つの特徴量（がく片の長さ、がく片の幅、花びらの長さ、花びらの幅）をもつ。

y：教師データ

品種を意味する0, 1, 2の整数値。

【演習】

学習データが有する４つの特徴量の意味はfeature_namesキー、教師データの値の意味は target_namesキーで取り出すことができる。これらを画面に表示して内容を確認せよ。（※ 取り出されるのは配列ではなくリストなので、shape属性は使えないことに注意）

https://scrapbox.io/files/650a38cd7f7333001cc02ce9.png