差分プライバシー
概要
差分プライバシー(Defferential Privacy)は対話型のデータベースに対して使用される仕組み
一言で述べると「ある個人がいてもいなくても出力に差がない状態」を目指す
「個人のデータがあってもなくても結果に影響がないならば、個人のデータのプライバシーは守られる」という発想
分かりやすい例
1000人分の点数の平均に対して、1001人目の点数を加えたところで、平均に大きな差は生まれない
1001人目の点数に関する情報漏れがない
データへの質問に対する結果にノイズ等を加えることでプライバシーを保護する
あるデータベースAとBがある場合に、質問者にAとBを区別させない
つまり、Aのみ(or Bのみ)にあるデータの存在を認識できない
Aのみ(or Bのみ)にあるデータのプライバシーが保護されたと言える
詳細
定義
$ D,D':任意の隣接するデータ
$ f(D):質問結果
$ M(f, D):質問結果に雑音Xを付加した値
以下の不等式が成り立つ時、$ \epsilon - 差分プライバシーが成り立つ
$ \frac{P(M(f,D))}{P(M(f,D'))} \le e^{\epsilon}
ただし雑音Xはラプラス分布$ (0, \sigma)に従う
意味合い
要素の異なるデータ群から、ある値が出力されるそれぞれの確率の対数の差が$ \epsilon以下である
異なるデータから得られる情報に差が少ない
片方にしか存在しない個人のデータに関する情報をほとんど漏らさない
したがって、個人のプライバシーが守られる
$ \epsilon の値が小さいほど情報漏れが少ない
ただし、$ \epsilon=0の場合は、データに依存せずに情報を出力することを意味する
つまり定数
データを蓄積する行為に意味がなくなる
一般的には$ \epsilon=2が選択されるらしい
実現方法
https://gyazo.com/ae0b25827996a2945717f86472494d0b
データベースとデータ利用者との間にプライバシー機構を構築する
ユーザーからのクエリへのレスポンスにノイズを付加することでプライバシーを保護する
ラプラスノイズを付加する手法がある
Dworkによる提案
参考文献
論文
注目のプライバシー Defferential Privacy
五十嵐大、高橋克巳
¥
スライド
差分プライバシーとは何か?(定義&解釈編)
南賢太郎 東京大学情報理工博士1年
居場所を隠すために差分プライバシーを使おう
中川裕志 東京大学