Amazon SageMaker Clarify: Machine Learning Bias Detection and Explainability in the Cloud
https://gyazo.com/f4a7c5698d652afbcdf8bcea01f9d73e
著者
AWS の人たち
選んだ理由
DRE 的文脈でデータやモデルの異常検知が気になった
モデルの解釈性部分にも興味があった
どんなもの?
データのバイアス検知やモデルの解釈性を示す Clarify というクラウドツールを作ったよ
開発時の課題や、顧客のユースケース、開発で学んだ知見を示していくよ
先行研究と比べてどこがすごい?
似たような OSS は色々と公開されているよ
今回の Contribution は SageMaker に十分に統合されたシステムを作り、簡単にスケール可能で解析しやすいシステムにしたことだよ
自分で畑を作っている感じある
SHAP を活用して解釈できるようにしたよ
技術や手法のキモはどこ?
システムデザインのキモ
Wide Applicability
Ease of Use
Scalability
バイアス
バイアス定義
バイアスの定義を 2 つに分けたよ
pre-training bias
データそのものに含まれるバイアス
post-training bias
モデル学習後にモデルに生じたバイアス
正常なデータ $ a とバイアスを持っている可能性のあるデータ $ d を集合で比較
正常なデータをどう取得定義しているかは不明...:thinking_face:
ただしデータセットは 2 値分類を仮定する
pre-training metrics
CI Class Imbalance
クラスの偏り
DPL Difference in positive proportions in observed label
$ a中に含まれる正例割合と$ d 中のものの差
CCDL Conditional Demographic Disparity in Labels
を考慮したもの(らしい
post-training metrics
量が多かったのでスクショで...
基本は $ a と $ d データのモデル出力を比較している
https://gyazo.com/78f8a55baa4e099970e4d44c97da206d
解釈性
KernelSHAP を使ったよ
速くてうれしいらしい
アラート検知
バイアス
値の上限下限を設けて 95% 信頼区間を外れると異常値検知
解釈性
feature importance を強い順に並べて nDCG で検知
:hele: ってなった
どうやって有効だと検証した?
スケールや時間面での検証
post-training bias の計算のほうが遅い
モデルの予測を含むため
shap の計算も 100,000 sample で $6 ぐらい
Figure 6 が 100,000 sample についてインスタンスをスケールさせたもの
spark ベースなのでうまく高速化できているね
https://gyazo.com/2c3d1973a53a88f7fa8241fe3a304d6f
https://gyazo.com/5885f32dcf4d57763840dfc2ca125770
顧客による検証
半数が 5 分以内に終わっている
https://gyazo.com/0c2cc1e5fc2eabb23b93e6621e48734c
所感
platform 前提の論文スゴイ
(特にバイアスの)異常検知は地道な検証しか無いんだなぁとは思った