再識別リスク評価指標
匿名化のリスクモデル
識別推定
属性推定
表推定
表推定から安全ならば識別推定&属性推定から安全
δ-存在性、差分プライバシー
k-匿名性
レコード識別を防ぐが関連づけられたグループの機密属性に多様性がないと属性識別が生じる
データ変換方法が議論の中心となり情報漏洩の理論的分析が少ない
一般的に攻撃者の外部情報はわからず準識別子と機密属性の選択が困難
l-多様性
レコード識別を防ぎつつ、属性識別をある程度防止
確率的に推論される問題は残る
Homogeneity攻撃対策などの確率的推論の問題まで広げる
機密属性の値にそもそも大きく偏りがある場合は困難
属性推定の防止が不十分
Skewness攻撃
Similarity攻撃
t-近似性
レコード識別と属性識別を防止
データ損失は大きい
k-匿名性、
準識別子(間接識別情報)を外部情報としてもつ攻撃者による特定と連結のリスクの上限を評価することが可能
k人未満に絞り込むことはできない
準識別子が外部のデータセットに現れる可能性のある属性
l-多様性、
k-匿名性において、間接識別情報の属性値の組み合わせが同じであるレコードについて、その属性値のバリエーションが少なくともl 存在している
同じ準識別子のレコード内で機密情報が全て同じであれば、その機密情報が属性推定できてしまう(Homogeneity攻撃)
k-マップ、
k-匿名性における準識別子決定の過程で攻撃者が再識別に使用する可能性が高いデータを削除
例:郵便番号と年齢のカラムにおいて一意に特定されてしまう -> k-map = 1
年齢を削除し、最も少ない郵便番号の住民が20人の場合 -> k-map = 20
データセットが比較的小規模である場合、属性を一般化するのが困難なケースに利用
δ-存在性
表推定
攻撃者の目的がレコードと個人の対応を特定することではなくデータセットに含まれていることを知る。
データセット内の個人が全て同じ機密属性を共有しているなど
非特定化プロセス
(k-匿名性のケースでは)グループごとの準識別子の値が同じレコード数(=等価クラスサイズ)から平均リスク算出 + データが共有される環境に応じて全体リスクの評価。その上で事前に決めた閾値リスクを超えないように非特定化の加工。
データの共有モデル
共有先が限定されているかなどにより非特定化のレベルを考慮
変数の識別
直接識別子の削除・コード化
再特定化のリスク閾値
コンテキストリスクの評価
refs in jp
実装