訓練／検証データへの分割（２）

名前付き引数：random_state

学習・訓練データの生成をシャッフルする際に用いられるシード値。tts1.pyの場合は実行する度に生成されるデータが変化していたが、この値を指定することで数値実験に再現性をもたせることができる。

code:tts2.py

from sklearn.model_selection import train_test_split

X = 1,-1], 2, -2, 3, -3, 4, -4, [5, -5

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

print('# わかりやすく並べて表示 ------------------')

print('訓練用')

for X_show, y_show in zip(X_train, y_train):

print(X_show, y_show)

print('検証用')

for X_show, y_show in zip(X_test, y_test):

print(X_show, y_show)

random_stateにはしばしば42という整数値が与えられる。

名前付き引数：test_sizeで全体に占める検証用データの割合を0~1のfloat値で指定する。

code:tts3.py

from sklearn.model_selection import train_test_split

X = 1, -1], 2, -2, 3, -3, 4, -4, [5, -5

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1)

print('# わかりやすく並べて表示 ------------------')

print('訓練用')

for X_show, y_show in zip(X_train, y_train):

print(X_show, y_show)

print('検証用')

for X_show, y_show in zip(X_test, y_test):

print(X_show, y_show)

【演習】

ここで示した引数を変更したときに、どのような学習データが生成されるかを確認せよ。

tts2.py, tts3.pyを1つのプログラムファイルにまとめよ。

/icons/hr.icon

※ ブラウザのバックボタンで戻る