回帰問題
回帰(Regression)問題
回帰問題とは
https://gyazo.com/89413d82e7a1d40ff9a95a46db15efe5
この目的変数が量的変数(数値変数)の場合が回帰(Regression)
要するに、入力された値をもとに、何らかの数値を予測する問題
https://gyazo.com/b4736d31d0c2ca1620fbf3db1529e46d
$ y = f(x)をデータから推定するときの、$ yが連続値である場合にあたる
価格を予測する、気温を予測する、などなど、連続的な数値を予測する場合(あるいは離散的であっても、段階が十分に細かい場合は回帰として扱える)
回帰問題に用いる実際のデータのイメージ
上で例示した「来月の平均気温の予測」のデータのイメージ
https://gyazo.com/a1cc34d32b66b30a6b93834433f1efd0
回帰問題における学習のイメージ
説明変数(入力) $ x・目的変数(出力) $ y の間の「近似関数」を求める問題
$ y = f (x) をデータから推定する
https://gyazo.com/16484607b318ff2a85de1177528dea13
予測モデルのパラメータと学習でやったように、予測モデルのパラメータ$ \thetaを調整することで、上の図でいう近似関数(オレンジの実線)の形を変えて、データとの誤差が小さい近似関数を求めるのが、回帰問題における学習 予測の良さは、データとの誤差を評価指標とすることが多い
RMSE(Root Mean Squared Error)が代表的
$ RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y_i})^2}
$ n:データの数、$ y_i:データの出力値、$ \hat{y_i}:モデルの出力値
ちなみに「回帰分析」(統計学で習うやつ)
$ xと$ yの関係を数式でモデル化し、$ xで$ yを説明しようとするのが回帰分析
$ xは説明変数、独立変数などと呼ぶ
$ yは被説明変数、目的変数、従属変数などと呼ぶ
https://gyazo.com/d23c7df9afa863c08e78bedbc4cac16b
$ y = a x + bでデータの関係を表わす(正確にはこれは単回帰分析=説明変数1つの場合)
個々のデータを$ (x_i, y_i) (i = 1, 2, \dots, n)としたときに、誤差の二乗和$ L = \sum_{i=1}^n \{y_i - (a x_i + b)\}^2を最小にするような$ a(回帰係数)、$ b(切片)を求める最小二乗法により求められる$ y = a x + bを回帰直線と呼ぶ たとえば係数$ aは$ xの単位変化量あたりの増分にあたるので、そのような、説明変数と目的変数の間の関係を説明・解釈する、という目的で回帰分析は用いられることが多い
一方で、機械学習における回帰モデルは、説明よりも予測を目的とする
線形回帰モデル
上のような、直線や平面、超平面で回帰を行うモデルを線形回帰モデルという