決定木
from 機械学習のアルゴリズム
条件となる部分をノードと言い
一番上の条件の部分をルートノード
決定木の末端部分を葉ノードという。
決定木の一部で
それ自体も木になっているものを部分木という。
特徴量の値そのものに対して条件を定義する。
決定木のメリット
条件分岐の様子を書ける
ブラックボックス化しない
データの前処理が少なくて済む
データの数が多くなっても、予測に必要な計算量が少なくて済む。
ビックデータの処理に適している
数値データとカテゴリデータの両方を使うことができる
統計的検定を行えるため予測モデルの信頼性を簡単に確かめられる
決定木のデメリット
データに対する条件分岐が複雑になりやすく、過学習しやすい
データが少し変わっただけで全く違った決定木を出力する
もっともふさわしい決定木を出力する問題はNP完全と呼ばれ、解くのが非常に難しい。
データにおける派閥の割合を均等にしておく必要がある。
決定木を分割する基準
分割のきれいさに基づいて
データ分析を繰り返す。
綺麗さを表す数値として情報エントロピーやジニ不純度がある。
どちらも、大きくなるほど不純物が混じっており、小さくなるほど綺麗に整理できていることを表す。
剪定
決定木の過学習防止に効果的な方法。
訓練データを使って決定木を意図的に過学習させた後
検証データを使って性能の悪い決定木の分岐を切り取る。