ランダムフォレスト
DTモデルをたくさん作り、新しいサンプルにおけるクラスの推定結果を、各DTモデルの推定結果を多数決することで決める
複数のモデルを構築して、それらを総合的に用いて新しいサンプルの推定をする方法
ランダムフォレスト
バギングの木を無相関にするための僅かな調整を行うことでモデルを改良
各決定木を作る際、木を分割するたびにp個の前説明変数から分割の候補として、m個の説明変数がランダムにサンプルとして選ばれる
一般的に、選択する説明変数の数には $ m \approx \sqrt{p}が用いられる
=各分割において考慮する説明変数の数はおよそ全説明変数の平方根
m=pとなる場合はバギングと同等
決定木の分割では多様性指標を大きく減少させる変数がまず選択
したがって、バギングで生成される気は極めて類似した気になり、予測の相関が高くなる
ランダムフォレストではこれを回避
過学習にならない
ランダムフォレストの長所・短所
長所
精度が高い
大きいデータに効率的に作動
…
短所
ブラックボックス的で、単純な木の直観的な決定規則が失われている
予測にノイズが混じる(異常なデータへの過剰適合の危険)