教師あり学習
#機械学習とは
教師あり学習
たくさんのラベル(正解)付き画像をもとに予測モデルを「学習」させる
よくある予測(分類)モデルの例
https://gyazo.com/a27346928c9a854c6ec4f5e4776b7984
入力―出力の数学的モデルを作る
教師あり学習は、データを入力するとそれに応じた出力が出てくるような数学的なモデルを作ること
https://gyazo.com/5ee67c00edb53d877d160509b381a00a
教師あり学習のしくみ
教師あり学習による予測モデルのしくみを簡単に描くと以下のような感じ
https://gyazo.com/de53e9f9fb984d548d9383a28414ca6f
入力(説明変数)から出力(目的変数)への関数(写像)$ fを、データをもとに決めるのが「学習」
データとの誤差にもとづいて$ fのパラメータ$ \thetaを調整する→予測モデルのパラメータと学習
パラメータ$ \thetaによって$ fの形が変わる
https://gyazo.com/4b0f1e6ae4d3011baa5df5cc34e5cd56
(パラメータとは、例えば$ f = a x + bの$ aや$ bのようなもの。これにより関数の形が変わる)
出力が複数ある場合(多値分類など)も、それぞれの出力(目的変数)に関して上のような入力ー出力関係を想定すればよい
データにあわせて関数を決めるということ
教師あり学習が活用されるタスク
分類問題(Classification)(パターン分類、クラス分類)
入力されたデータ(パターン)をあらかじめ用意されたいくつかのカテゴリー(クラス)に分類する問題
https://gyazo.com/35ccf695ed28777ac7b10ce4e1ed327f
上の画像分類の場合、入力・出力は・・・
入力:画像の各画素が一つひとつの変数になる(通常、数千~数万あるいはそれ以上の数の変数)
出力:ひらがなのうちどの文字であるかが回答される
下の迷惑メール分類の場合、入力・出力は・・・
入力:さまざまな単語の出現頻度(単語一つひとつについて変数がある)
出力:迷惑メールか迷惑メールでないかのいずれかが回答される
回帰問題(Regression)
入力された値をもとに、何らかの数値を予測する問題
https://gyazo.com/b4736d31d0c2ca1620fbf3db1529e46d
この例の場合、入力・出力は・・・
入力:過去の平均気温、降水量、気圧、日照時間など
出力:来月の平均気温
$ y = f(x)をデータから推定する($ yは連続値)
https://gyazo.com/8d2f6fee2875bcb43b7dc898259548ed
予測モデルを作成するときに決めないといけないこと
回帰も分類も、「入力から出力への関数」を学習する問題という同じ枠組みで捉えられるが、下のようなことを決める必要がある
https://gyazo.com/89413d82e7a1d40ff9a95a46db15efe5