Issues Encountered Deploying Differential Privacy
U.S. Census 2020で差分プライバシーを導入しようとした際に発生したさまざまな課題を紹介。
GoogleのRAPPOR mechanismも採用できうるがノイズが多すぎてしまう
Laplace mechanismを採用してもノイズが多すぎる結果になってしまう
what it means
An added complication of the Laplace Mechanism is that the tables would not be internally consistent, which might create concerns for data users
reconstruction attacks
Why Statistical Agencies Need to Take Privacy-loss Budgets Seriously, and What It Means When They Do
How Will Statistical Agencies Operate When All Data Are Private?
Scientific Issues
Hierarchical Mechanisms
統計結果がより小さなブロックからより大きな地域へreporting
人口が増えるにつれてエラーが減少するメカニズム
https://gyazo.com/226baae51d85c0b0c11bf077ba56a67f
Invariants
それぞれのブロックに住む人々の人数などの統計量は正確な値をreportingしなければならないのに、それぞれのブロックにおけるヒスパニックの人数はプライバシー保護する必要がある
差分プライバシーではこのような変化させない統計量の制限に対する理論が確立していない
Stratified sampling
1940~2000年においては以下2つのcensus formが存在
short-form: 大まかな質問をほとんどの家庭に送る
long-form: より詳細な質問をサブセットに送る
2005年にlong-formを層化抽出法で確率的にサンプリングしたサーベイ(American Communitiy Survey)にリプレイスしたが、形式的なプライバシーメカニズムは導入されていない。
Quality Metrics
統計的なaccuracyとプライバシーロスのトレードオフに対してさまざまなメトリクスが存在する。
事前に分析用途がわかっていればプライバシーメカニズムでそれを考慮することでより有用性が高くなるように設計可能
Presenting and Resolving Equity Issues
同じプライベートなデータベースから算出したたくさんのテーブルを公開することを想定しており、全体のプライバシーバジェットを管理しているので、テーブルごとのaccuracyに差が生じることがある
これによりus censusのデータを用いる異なるconsumer間での公平性の問題が生じてしまう <-- equity issue
差分プライバシーはequity issueをtuningして、異なるデータプロダクトに対してノイズを付与する際の相対的なインパクトを計測する理論面の研究が進んでいない。
Establishing a Value of Epsilon
技術的な課題ではなくポリシー的課題としてεの設定は扱われている
技術者ではなくポリシーメーカーによってε値は設定される
Census BureauのData Stewardship Executive Policy committee (DSEP) がε値を設定。
プライバシーロスとaccuracyのトレードオフを示したグラフを用意し、そこから十分なaccuracyを満たすεをピックし、3倍する
これにより研究者は追加のprivacy-loss budgetを得るためにDSEPに連絡することなく同じデータセットに対しいくつかの統計量公開を実施することができる。
Mechanism Development
同等のprivacy lossでよりノイズサイズの小さい効率的なメカニズムが必要
Operational Issues
Obtaining Qualified Personnel and Tools
初期の問題はus censusでは学部卒を多く採用しているので、差分プライバシーに詳しい専門家がいない
同様に差分プライバシーの実装の正しさを検証する良いツールがなかなかない
Recasting high-sensitivity queries
あるブロックの男性と女性の数のレポートや世帯数などのレポートのsensitivityは1
一方、女性が世帯主の子供の人数のsensitivityは最大で許容する世帯人数になる
さらに、サーベイデータの中の特定の大家族の存在が明らかにならないように、実際のデータを見てsensitivityを考えるのではなくサーベイ全体のデザインとして事前にそのsensitivityを決めておく必要がある
現在、sensitivityを低下できるように公開するテーブル設計を再考している
例えば、ヒスパニックが世帯主の子供の人数を公開するのではなく、ヒスパニック(子供)の人数を公開する。このようにより地理的に集約されたレベルで公開する。
Structural Zeros
structual zeros: 30歳の子供に6歳の母親はいない
census bureauによって強制的に修正されるべき
sampling zeros: 65歳以上の女性はこの施設に住んでいない
ノイズによりsampling zerosは正の数になることもあり得るが、census bureauによって操作されてはいけない
実務上structual zerosとsampling zerosの区別は困難
例:男性用の刑務所にいる女性の人数がゼロ人である理由は、実際にそこに住んでいないからか(sampling zeros)、そこに住むことを禁止されているからか(structual zero)
Obtaining a Suitable Computing Environment
2010 censusと比べて最低 ~10^3倍の計算リソースが必要
オンプレ環境からクラウド環境に移行しているがセキュリティ的理由により遅れており2020DASのデプロイが遅延している
Accounting for All Uses of Confidential Data
データをパブリックにする前に差分プライバシーのノイズを加える必要があるのでconfidentialなデータを全て特定する必要がある
Lack of Final Specifications
差分プライバシーシステムは事前に全ての実行される計算について知っているか将来の利用のためのprivacy-loss budgetが残るようにしている必要がある
Issues Faced by Data Users
Access to Micro-data
レコードレベルのデータは分析用途が決まっていない際にとても有用であるが、プライバシー保護するのが非常に困難なので一般的には公開できない
Difficulties Arising from Increased Transparency
2000から2010年のcensusにおいて統計結果から集計システムの変化に気づく人はほとんどいなかったが、2020 census dataはノイズが加えられたため気づく人が多かった
Misunderstandings about Randomness and Noise Infusion
区域の人口が増えるにつれてaccuracyは増大する結果となるがそもそも差分プライバシーのノイズの概念が理解され難い