Issues Encountered Deploying Differential Privacy

U.S. Census 2020で差分プライバシーを導入しようとした際に発生したさまざまな課題を紹介。

GoogleのRAPPOR mechanismも採用できうるがノイズが多すぎてしまう

Laplace mechanismを採用してもノイズが多すぎる結果になってしまう

what it means

An added complication of the Laplace Mechanism is that the tables would not be internally consistent, which might create concerns for data users

reconstruction attacks

Why Statistical Agencies Need to Take Privacy-loss Budgets Seriously, and What It Means When They Do

How Will Statistical Agencies Operate When All Data Are Private?

Scientific Issues

Hierarchical Mechanisms

統計結果がより小さなブロックからより大きな地域へreporting

人口が増えるにつれてエラーが減少するメカニズム

https://gyazo.com/226baae51d85c0b0c11bf077ba56a67f

https://www.census.gov/content/dam/Census/newsroom/press-kits/2019/jsm/presentation-deploying-differential-privacy-for-the-2020-census-of-pop-and-housing.pdf

Invariants

それぞれのブロックに住む人々の人数などの統計量は正確な値をreportingしなければならないのに、それぞれのブロックにおけるヒスパニックの人数はプライバシー保護する必要がある

差分プライバシーではこのような変化させない統計量の制限に対する理論が確立していない

Stratified sampling

1940~2000年においては以下２つのcensus formが存在

short-form: 大まかな質問をほとんどの家庭に送る

long-form: より詳細な質問をサブセットに送る

2005年にlong-formを層化抽出法で確率的にサンプリングしたサーベイ（American Communitiy Survey)にリプレイスしたが、形式的なプライバシーメカニズムは導入されていない。

Quality Metrics

統計的なaccuracyとプライバシーロスのトレードオフに対してさまざまなメトリクスが存在する。

事前に分析用途がわかっていればプライバシーメカニズムでそれを考慮することでより有用性が高くなるように設計可能

Presenting and Resolving Equity Issues

同じプライベートなデータベースから算出したたくさんのテーブルを公開することを想定しており、全体のプライバシーバジェットを管理しているので、テーブルごとのaccuracyに差が生じることがある

これによりus censusのデータを用いる異なるconsumer間での公平性の問題が生じてしまう <-- equity issue

差分プライバシーはequity issueをtuningして、異なるデータプロダクトに対してノイズを付与する際の相対的なインパクトを計測する理論面の研究が進んでいない。

Establishing a Value of Epsilon

技術的な課題ではなくポリシー的課題としてεの設定は扱われている

技術者ではなくポリシーメーカーによってε値は設定される

Census BureauのData Stewardship Executive Policy committee (DSEP) がε値を設定。

プライバシーロスとaccuracyのトレードオフを示したグラフを用意し、そこから十分なaccuracyを満たすεをピックし、3倍する

これにより研究者は追加のprivacy-loss budgetを得るためにDSEPに連絡することなく同じデータセットに対しいくつかの統計量公開を実施することができる。

Mechanism Development

同等のprivacy lossでよりノイズサイズの小さい効率的なメカニズムが必要

Operational Issues

Obtaining Qualified Personnel and Tools

初期の問題はus censusでは学部卒を多く採用しているので、差分プライバシーに詳しい専門家がいない

同様に差分プライバシーの実装の正しさを検証する良いツールがなかなかない

Recasting high-sensitivity queries

あるブロックの男性と女性の数のレポートや世帯数などのレポートのsensitivityは1

一方、女性が世帯主の子供の人数のsensitivityは最大で許容する世帯人数になる

さらに、サーベイデータの中の特定の大家族の存在が明らかにならないように、実際のデータを見てsensitivityを考えるのではなくサーベイ全体のデザインとして事前にそのsensitivityを決めておく必要がある

現在、sensitivityを低下できるように公開するテーブル設計を再考している

例えば、ヒスパニックが世帯主の子供の人数を公開するのではなく、ヒスパニック（子供）の人数を公開する。このようにより地理的に集約されたレベルで公開する。

Structural Zeros

structual zeros: 30歳の子供に6歳の母親はいない

census bureauによって強制的に修正されるべき

sampling zeros: 65歳以上の女性はこの施設に住んでいない

ノイズによりsampling zerosは正の数になることもあり得るが、census bureauによって操作されてはいけない

実務上structual zerosとsampling zerosの区別は困難

例：男性用の刑務所にいる女性の人数がゼロ人である理由は、実際にそこに住んでいないからか（sampling zeros）、そこに住むことを禁止されているからか（structual zero）

Obtaining a Suitable Computing Environment

2010 censusと比べて最低 ~10^3倍の計算リソースが必要

オンプレ環境からクラウド環境に移行しているがセキュリティ的理由により遅れており2020DASのデプロイが遅延している

Accounting for All Uses of Confidential Data

データをパブリックにする前に差分プライバシーのノイズを加える必要があるのでconfidentialなデータを全て特定する必要がある

Lack of Final Specifications

差分プライバシーシステムは事前に全ての実行される計算について知っているか将来の利用のためのprivacy-loss budgetが残るようにしている必要がある

Issues Faced by Data Users

Access to Micro-data

レコードレベルのデータは分析用途が決まっていない際にとても有用であるが、プライバシー保護するのが非常に困難なので一般的には公開できない

Difficulties Arising from Increased Transparency

2000から2010年のcensusにおいて統計結果から集計システムの変化に気づく人はほとんどいなかったが、2020 census dataはノイズが加えられたため気づく人が多かった

Misunderstandings about Randomness and Noise Infusion

区域の人口が増えるにつれてaccuracyは増大する結果となるがそもそも差分プライバシーのノイズの概念が理解され難い