SHAP - star_field public

SHAP

SHapley Additive exPlanationsを略してSHAP

要出典

機械学習において各特徴量の貢献度をshapley valueの近似によって数値化してモデルを解釈する手法

SHAP

シャップ値は2値分類において特徴量と目的変数が取る値との相関を表す？

全然違うなー

数式は？

限界貢献度

ある特徴量が追加されたときに追加でどのくらい予測値が増えるか

特徴量を$ \bm{X}=\bm{}(X_1,X_2…)とする

この場合添字付きのXも特徴量のカラムなのでベクトル

モデルを$ f(\cdot) とする

E{f(X)}は平均的な予測値

値を全部入れたらこれになる

全部の行に対して$ f(\bm{x})を取ったものをさらに平均した値

各行に対するf(x)=E{f(X|X_1=x_1…)}

その行におけるE{f(X)}はその業の値をすべて入れたときの値なのでf(x)

ある値を入れたときにどれくらいターゲットの予測値が増えたり減ったりするかを見るのがSHAP値

これを1つの行に対して全ての値の組み合わせに対してやるのが正確な限界貢献度の計算だが、実用的には近似手法で求められている

だからSHAPによって求められた値はSHAP値というのか。shapley valueではなく。なるほど。

「その行において値が大きいとき予測値を増やす方向に影響している」といった細かい点を見ることができる

一つのインスタンスに関してプロットした図が具体的でわかりやすい

逆に特徴量重要度はどうやって計算しているのだろうか？